Konwertuj HTML na Word DOCX za pomocą C#

HTML(HyperText Markup Language) to wiodący format plików stron internetowych obsługiwany przez wszystkie przeglądarki. W różnych przypadkach może zaistnieć potrzeba przekonwertowania plików HTML lub treści z działających stron internetowych na dokumenty programu Word (DOC, DOCX, DOT, DOTM, [DOCM 7). Pomaga edytować tekst stron internetowych HTML lub zastosować formatowanie tekstu. W tym artykule dowiemy się, jak przekonwertować HTML na dokument Word DOC lub DOCX za pomocą C#.

W tym artykule zostaną omówione następujące tematy:

API C# do konwersji HTML na DOCX — bezpłatne pobieranie

Do konwersji plików HTML lub stron internetowych do formatów plików edytora Word będziemy używać interfejsu API Aspose.Words for .NET. Jest to kompletne rozwiązanie do programowego tworzenia, edytowania, konwertowania i analizowania dokumentów programu Word. Pobierz bibliotekę DLL interfejsu API lub zainstaluj ją za pomocą NuGet.

Install-Package Aspose.Words

C# Konwertuj HTML na Word DOCX

Możemy łatwo przekonwertować pliki HTML na dokumenty programu Word programowo w języku C#, wykonując kroki podane poniżej:

  1. Załaduj plik HTML przy użyciu klasy Document.
  2. Wywołaj metodę Document.Save(string, SaveFormat), aby zapisać plik HTML jako „output.docx".

Wyliczenie SaveFormat w metodzie Document.Save() określa format, w jakim chcesz przekonwertować plik HTML. Poniższy przykładowy kod pokazuje, jak przekonwertować plik HTML na DOCX przy użyciu języka C#.

// Ten przykład kodu demonstruje, jak przekonwertować plik HTML na dokument programu Word przy użyciu języka C#.
// Załaduj plik HTML przy użyciu klasy Document
Document document = new Document(@"C:\Files\sample.html");

// Konwertuj plik HTML do formatu Word DOCX
document.Save(@"C:\Files\output.docx", SaveFormat.Docx);

C# Konwertuj stronę internetową na Word z adresu URL

Możemy również przekonwertować stronę internetową HTML bezpośrednio z aktywnego adresu URL na dokument Word w C#, wykonując poniższe kroki:

  1. Najpierw pobierz zawartość strony internetowej jako tablicę System.Byte z określonego adresu URL.
  2. Następnie zainicjuj obiekt MemoryStream z obiektem tablicowym jako argumentem.
  3. Następnie utwórz instancję klasy HtmlLoadOptions.
  4. Następnie utwórz instancję klasy Document i zainicjuj ją obiektami MemoryStream i HtmlLoadOptions.
  5. Na koniec wywołaj metodę Document.Save(string, SaveFormat), aby zapisać plik HTML jako „output.docx".

Poniższy przykładowy kod pokazuje, jak przekonwertować stronę internetową HTML na DOCX przy użyciu języka C#.

// Ten przykład kodu demonstruje, jak zapisać stronę internetową HTML bezpośrednio z aktywnego adresu URL w dokumencie programu Word przy użyciu języka C#.
// Adres URL
string Url = "https://en.wikipedia.org/wiki/Aspose.Words";

// Zdefiniuj opcje ładowania HTML 
HtmlLoadOptions options = new HtmlLoadOptions();

byte[] imageData = null;

// Pobierz zawartość z adresu URL jako tablicę bajtów
using (var wc = new System.Net.WebClient())
    imageData = wc.DownloadData(Url);

// Konwertuj tablicę bajtów na strumień
var urlStream =  new MemoryStream(imageData);

// Utwórz instancję obiektu Document
Document document = new Document(urlStream, options);

// Zapisz jako DOCX
document.Save(@"C:\Files\output_url.docx", SaveFormat.Docx);

C# Konwertuj ciąg HTML na Word

Możemy dynamicznie wygenerować dokument Word z ciągu HTML w C#, wykonując kroki podane poniżej:

  1. Najpierw utwórz instancję klasy Document.
  2. Następnie utwórz instancję klasy DocumentBuilder z obiektem Document.
  3. Następnie wstaw kod HTML do dokumentu za pomocą metody DocumentBuilder.InsertHtml(string).
  4. Na koniec zapisz dokument programu Word przy użyciu metody Document.Save(string, SaveFormat).

Poniższy przykładowy kod pokazuje, jak przekonwertować ciąg HTML na DOCX przy użyciu języka C#.

// Ten przykład kodu demonstruje, jak wygenerować dokument programu Word na podstawie ciągu HTML przy użyciu języka C#.
// Utwórz nowy dokument
Document document = new Document();

// Utwórz narzędzie do tworzenia dokumentów
DocumentBuilder builder = new DocumentBuilder(document);

// Wstaw HTML
builder.InsertHtml("<ul>\r\n" +
    "<li>Item1</li>\r\n" +
    "<li>Item2</li>\r\n" +
    "</ul>");

// Zapisz jako DOCX
document.Save(@"C:\Files\html-string-as-word.docx", SaveFormat.Docx);

Zdobądź bezpłatną licencję

Wypróbuj interfejs API bez ograniczeń ewaluacyjnych, prosząc o bezpłatną licencję tymczasową.

Wniosek

W tym krótkim samouczku nauczyliśmy się konwertować kod HTML do dokumentu programu Word przy użyciu języka C#. Widzieliśmy także, jak programowo konwertować aktywne strony internetowe z adresu URL na pliki Word DOC lub DOCX. Poza tym możesz dowiedzieć się więcej o Aspose.Words for .NET API, korzystając z dokumentacji. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.

Zobacz też