C#を使用してHTMLをWord文書に変換する

HTML(HyperText Markup Language)は、すべてのブラウザでサポートされているWebページの主要なファイル形式です。さまざまな場合に、HTMLファイルまたはコンテンツをライブWebページからWordドキュメントに変換する必要があります(DOCDOCX、 DOTDOTMDOCM )。 HTML Webページのテキストを編集したり、テキスト形式を適用したりするのに役立ちます。この記事では、C#を使用してHTMLをWord文書に変換する方法を学習します。

この記事では、次のトピックについて説明します。

HTMLをDOCXに変換するC#API —無料ダウンロード

HTMLファイルまたはWebページをワードプロセッシングファイル形式に変換するには、Aspose.Words for .NETAPIを使用します。これは、Word文書をプログラムで作成、編集、変換、または分析するための完全なソリューションです。 APIのDLLをダウンロードするか、NuGetを使用してインストールしてください。

Install-Package Aspose.Words

C#でHTMLをWordに変換する

以下の手順に従って、プログラムでHTMLファイルをWord文書に簡単に変換できます。

  1. Documentクラスを使用してHTMLファイルをロードします。
  2. Document.Save(string, SaveFormat)メソッドを呼び出して、HTMLファイルを「output.docx」として保存します。

Document.Save()メソッドのSaveFormat列挙は、HTMLファイルを変換する形式を指定します。次のコードサンプルは、C#を使用してHTMLファイルをDOCXに変換する方法を示しています。

// このコード例は、C#を使用してHTMLファイルをWord文書に変換する方法を示しています。
// Documentクラスを使用してHTMLファイルをロードする
Document document = new Document(@"C:\Files\sample.html");

// HTMLファイルをWordDOCX形式に変換します
document.Save(@"C:\Files\output.docx", SaveFormat.Docx);

C#のURLからWebページをWordに変換する

以下の手順に従って、HTMLWebページをライブURLからWordドキュメントに直接変換することもできます。

  1. まず、指定されたURLからSystem.Byte配列としてWebページのコンテンツをダウンロードします。
  2. 次に、配列オブジェクトを引数としてMemoryStreamオブジェクトを開始します。
  3. 次に、HtmlLoadOptionsクラスのインスタンスを作成します。
  4. その後、Documentクラスのインスタンスを作成し、MemoryStreamオブジェクトとHtmlLoadOptionsオブジェクトで初期化します。
  5. 最後に、Document.Save(string, SaveFormat)メソッドを呼び出して、HTMLファイルを「output.docx」として保存します。

次のコードサンプルは、C#を使用してHTMLWebページをDOCXに変換する方法を示しています。

// このコード例は、C#を使用してHTMLWebページをライブURLからWord文書に直接保存する方法を示しています。
// URL
string Url = "https://en.wikipedia.org/wiki/Aspose.Words";

// HTMLロードオプションを定義する 
HtmlLoadOptions options = new HtmlLoadOptions();

byte[] imageData = null;

// URLからバイト配列としてコンテンツをダウンロードする
using (var wc = new System.Net.WebClient())
    imageData = wc.DownloadData(Url);

// バイト配列をストリームに変換する
var urlStream =  new MemoryStream(imageData);

// Documentオブジェクトのインスタンスを作成します
Document document = new Document(urlStream, options);

// DOCXとして保存
document.Save(@"C:\Files\output_url.docx", SaveFormat.Docx);

C#を使用してHTML文字列をWordに変換する

以下の手順に従って、HTML文字列からWord文書を動的に生成できます。

  1. まず、Documentクラスのインスタンスを作成します。
  2. 次に、Documentオブジェクトを使用してDocumentBuilderクラスのインスタンスを作成します。
  3. 次に、DocumentBuilder.InsertHtml(string)メソッドを使用してHTMLをドキュメントに挿入します。
  4. 最後に、Document.Save(string, SaveFormat)メソッドを使用してWord文書を保存します。

次のコードサンプルは、C#を使用してHTML文字列をDOCXに変換する方法を示しています。

// このコード例は、C#を使用してHTML文字列からWord文書を生成する方法を示しています。
// 新しいドキュメントを作成する
Document document = new Document();

// ドキュメントビルダーを作成する
DocumentBuilder builder = new DocumentBuilder(document);

// HTMLを挿入
builder.InsertHtml("<ul>\r\n" +
    "<li>Item1</li>\r\n" +
    "<li>Item2</li>\r\n" +
    "</ul>");

// DOCXとして保存
document.Save(@"C:\Files\html-string-as-word.docx", SaveFormat.Docx);

無料ライセンスを取得する

無料の一時ライセンスをリクエストして、評価制限なしでAPIを試してください。

結論

この記事では、C#を使用してHTMLをWord文書に変換する方法を学びました。プログラムでライブWebページをURLからWordファイルに変換する方法も見てきました。さらに、ドキュメントを使用して、Aspose.Words for.NETAPIについて詳しく知ることができます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目