Konwertuj HTML na Word za pomocą Java

Konwertuj HTML na Word za pomocą Java

W tym poście na blogu dowiesz się, jak przekonwertować HTML na Word DOC lub DOCX, używając programowo Java. Na szczęście ta biblioteka Java umożliwia natychmiastowe przetwarzanie, manipulację i konwersję plików. Możesz łatwo zainstalować tę bibliotekę bez żadnych zewnętrznych zależności. Ponadto dostępna jest obszerna [dokumentacja] dotycząca jego instalacji i użytkowania. Dokumenty Microsoft Word są obecnie najpowszechniej używanymi formatami plików. Dlatego krok po kroku zademonstrujemy proces konwersji strony internetowej HTML lub witryny internetowej do programu Word.

Omówimy następujące punkty:

Konwertuj HTML na Word DOCX za pomocą Java - instalacja API

Ta biblioteka Java DOCX zapewnia ogromny zestaw funkcji przyspieszających procesy konwersji plików. Zapewnia kontrolę nad zadaniami manipulacji danymi i plikami. Aby włączyć tę bibliotekę w aplikacji Java, pobierz pliki jar lub skorzystaj z poniższych konfiguracji Mavena.

Magazyn

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

Zależność

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-words</artifactId>
    <version>21.11</version>
    <type>pom</type>
</dependency>

Jak programowo przekonwertować stronę internetową na Word DOCX lub DOC w Javie

Programowe konwertowanie strony HTML na dokument programu Word jest bardzo proste. Możesz osiągnąć tę funkcjonalność, wykonując kilka kroków wymienionych poniżej.

  1. Utwórz instancję klasy Document i załaduj źródłowy plik HTML.
  2. Wywołaj metodę save(java.lang.String fileName, int saveFormat), aby zapisać plik w formacie DOCX.

Skopiuj i wklej następujący kod do pliku Java, aby przekonwertować plik HTML na plik Word DOCX przy użyciu języka Java.

// utwórz instancję klasy Document i załaduj źródłowy plik HTML
Document document = new Document("index.html");
// wywołaj metodę save(java.lang.String fileName, int saveFormat) w celu zapisania pliku w formacie DOCX
document.save("output.docx", SaveFormat.DOCX);

Konwerter dokumentów HTML na Word Biblioteka Java — zaawansowane funkcje

W tej sekcji omówimy zaawansowane funkcje, takie jak ustawianie jakości dokumentu, konfigurowanie hasła i inne.

Możesz wykonać następujące kroki i fragmenty kodu, aby poznać dalsze metody:

  1. Utwórz instancję klasy Document i załaduj źródłowy plik HTML.
  2. Metoda protect(int type, java.lang.String hasło) umożliwia ustawienie hasła zabezpieczającego dokument przed zmianami.
  3. unprotect() usunie hasło.
  4. Ustaw tę metodę setTrackRevisions na True, jeśli zmiany są śledzone podczas edycji tego dokumentu w programie Microsoft Word.
  5. Błędy ortograficzne zostaną podświetlone, jeśli metoda setShowSpellingErrors ma wartość True.
  6. Metoda setShowGrammaticalErrors podświetli błędy gramatyczne, jeśli mają wartość True.
  7. removeAllChildren usuwa wszystkie węzły podrzędne bieżącego węzła.
  8. Utwórz instancję klasy DocSaveOptions.
  9. Wywołaj metodę setUseHighQualityRendering, aby ustawić wartość określającą, czy mają być używane algorytmy renderowania wysokiej jakości (tzn. powolne).
  10. Wywołaj metodę save(java.lang.String fileName, int saveFormat), aby zapisać plik w formacie DOCX.

Przykładowy kod poniżej pokazuje, jak przekonwertować dokument HTML na dokument Word DOCX z zaawansowanymi opcjami przy użyciu języka Java:

        // utwórz instancję klasy Document i załaduj źródłowy plik HTML
        Document document = new Document("index.html");
        // metoda Protect(int type, java.lang.String hasło) umożliwi ustawienie hasła zabezpieczającego dokument przed zmianami
        document.protect(1,"password");
        // unprotect() usunie hasło
        document.unprotect();
        // ustaw tę metodę setTrackRevisions na wartość True, jeśli zmiany są śledzone podczas edycji tego dokumentu w programie Microsoft Word.
        document.setTrackRevisions(true);
        // błędy ortograficzne zostaną podświetlone, jeśli metoda setShowSpellingErrors ma wartość True
        document.setShowSpellingErrors(true);
        // Metoda setShowGrammaticalErrors podświetli błędy gramatyczne, jeśli mają wartość True
        document.setShowGrammaticalErrors(true);
        // RemoveAllChildren usuwa wszystkie węzły podrzędne bieżącego węzła.
        document.removeAllChildren();
        // utwórz instancję klasy DocSaveOptions
        DocSaveOptions opt = new DocSaveOptions();
        // wywołaj metodę setUseHighQualityRendering, aby ustawić wartość określającą, czy używać algorytmów renderowania wysokiej jakości (tzn. wolnych) czy nie.
        opt.setUseHighQualityRendering(true);
        // wywołaj metodę save(java.lang.String fileName, int saveFormat) w celu zapisania pliku w formacie DOCX
        document.save("output.docx", SaveFormat.DOCX);

Zdobądź bezpłatną licencję

Możesz uzyskać bezpłatną licencję tymczasową, aby wypróbować interfejs API bez ograniczeń ewaluacyjnych.

Podsumowując

W ten sposób dotarliśmy do końca tego wpisu na blogu. Omówiliśmy, jak przekonwertować HTML na Word DOCX za pomocą Java. Co więcej, w powyższych sekcjach znajdziesz instrukcje i fragmenty kodu dotyczące tej funkcji. Ponadto możesz odwiedzić dokumentację, aby zapoznać się z innymi funkcjami, które mogą być korzystne dla konwertera HTML na Word DOCX. Wreszcie conholdate.com pisze nowe posty na blogu na inne tematy. Dlatego też prosimy o kontakt w celu otrzymywania regularnych aktualizacji.

Zadać pytanie

Możesz dzielić się swoimi pytaniami i wątpliwościami na naszym forum.

Zobacz też