HTML(HyperText Markup Language)は、すべてのブラウザでサポートされているWebページの主要なファイル形式です。さまざまな場合に、HTMLファイルまたはコンテンツをライブWebページからWordドキュメントに変換する必要があります(DOC、DOCX、 DOT、DOTM、DOCM )。 HTML Webページのテキストを編集したり、テキスト形式を適用したりするのに役立ちます。この記事では、C#を使用してHTMLをWord文書に変換する方法を学習します。
この記事では、次のトピックについて説明します。
HTMLをDOCXに変換するC#API —無料ダウンロード
HTMLファイルまたはWebページをワードプロセッシングファイル形式に変換するには、Aspose.Words for .NETAPIを使用します。これは、Word文書をプログラムで作成、編集、変換、または分析するための完全なソリューションです。 APIのDLLをダウンロードするか、NuGetを使用してインストールしてください。
Install-Package Aspose.Words
C#でHTMLをWordに変換する
以下の手順に従って、プログラムでHTMLファイルをWord文書に簡単に変換できます。
- Documentクラスを使用してHTMLファイルをロードします。
- Document.Save(string, SaveFormat)メソッドを呼び出して、HTMLファイルを「output.docx」として保存します。
Document.Save()メソッドのSaveFormat列挙は、HTMLファイルを変換する形式を指定します。次のコードサンプルは、C#を使用してHTMLファイルをDOCXに変換する方法を示しています。
// このコード例は、C#を使用してHTMLファイルをWord文書に変換する方法を示しています。
// Documentクラスを使用してHTMLファイルをロードする
Document document = new Document(@"C:\Files\sample.html");
// HTMLファイルをWordDOCX形式に変換します
document.Save(@"C:\Files\output.docx", SaveFormat.Docx);
C#のURLからWebページをWordに変換する
以下の手順に従って、HTMLWebページをライブURLからWordドキュメントに直接変換することもできます。
- まず、指定されたURLからSystem.Byte配列としてWebページのコンテンツをダウンロードします。
- 次に、配列オブジェクトを引数としてMemoryStreamオブジェクトを開始します。
- 次に、HtmlLoadOptionsクラスのインスタンスを作成します。
- その後、Documentクラスのインスタンスを作成し、MemoryStreamオブジェクトとHtmlLoadOptionsオブジェクトで初期化します。
- 最後に、Document.Save(string, SaveFormat)メソッドを呼び出して、HTMLファイルを「output.docx」として保存します。
次のコードサンプルは、C#を使用してHTMLWebページをDOCXに変換する方法を示しています。
// このコード例は、C#を使用してHTMLWebページをライブURLからWord文書に直接保存する方法を示しています。
// URL
string Url = "https://en.wikipedia.org/wiki/Aspose.Words";
// HTMLロードオプションを定義する
HtmlLoadOptions options = new HtmlLoadOptions();
byte[] imageData = null;
// URLからバイト配列としてコンテンツをダウンロードする
using (var wc = new System.Net.WebClient())
imageData = wc.DownloadData(Url);
// バイト配列をストリームに変換する
var urlStream = new MemoryStream(imageData);
// Documentオブジェクトのインスタンスを作成します
Document document = new Document(urlStream, options);
// DOCXとして保存
document.Save(@"C:\Files\output_url.docx", SaveFormat.Docx);
C#を使用してHTML文字列をWordに変換する
以下の手順に従って、HTML文字列からWord文書を動的に生成できます。
- まず、Documentクラスのインスタンスを作成します。
- 次に、Documentオブジェクトを使用してDocumentBuilderクラスのインスタンスを作成します。
- 次に、DocumentBuilder.InsertHtml(string)メソッドを使用してHTMLをドキュメントに挿入します。
- 最後に、Document.Save(string, SaveFormat)メソッドを使用してWord文書を保存します。
次のコードサンプルは、C#を使用してHTML文字列をDOCXに変換する方法を示しています。
// このコード例は、C#を使用してHTML文字列からWord文書を生成する方法を示しています。
// 新しいドキュメントを作成する
Document document = new Document();
// ドキュメントビルダーを作成する
DocumentBuilder builder = new DocumentBuilder(document);
// HTMLを挿入
builder.InsertHtml("<ul>\r\n" +
"<li>Item1</li>\r\n" +
"<li>Item2</li>\r\n" +
"</ul>");
// DOCXとして保存
document.Save(@"C:\Files\html-string-as-word.docx", SaveFormat.Docx);
無料ライセンスを取得する
無料の一時ライセンスをリクエストして、評価制限なしでAPIを試してください。
結論
この記事では、C#を使用してHTMLをWord文書に変換する方法を学びました。プログラムでライブWebページをURLからWordファイルに変換する方法も見てきました。さらに、ドキュメントを使用して、Aspose.Words for.NETAPIについて詳しく知ることができます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。