使用 C# 将 HTML 转换为 Word 文档

HTML(超文本标记语言)是所有浏览器都支持的主要网页文件格式。在各种情况下,我们可能需要将 HTML 文件或来自实时网页的内容转换为 Word 文档(DOCDOCX、 DOTDOTMDOCM )。它有助于编辑 HTML 网页的文本或应用文本格式。在本文中,我们将学习如何使用 C# 将 HTML 转换为 Word 文档。

本文将涵盖以下主题:

用于将 HTML 转换为 DOCX 的 C# API — 免费下载

为了将 HTML 文件或网页转换为文字处理文件格式,我们将使用 Aspose.Words for .NET API。它是一个以编程方式创建、编辑、转换或分析 Word 文档的完整解决方案。请下载 API 的 DLL 或使用 NuGet 安装它。

Install-Package Aspose.Words

在 C# 中将 HTML 转换为 Word

我们可以按照以下给出的步骤以编程方式轻松地将 HTML 文件转换为 Word 文档:

  1. 使用 Document 类加载 HTML 文件。
  2. 调用 Document.Save(string, SaveFormat) 方法将 HTML 文件保存为“output.docx”。

Document.Save() 方法中的 SaveFormat 枚举指定要转换 HTML 文件的格式。以下代码示例展示了如何使用 C# 将 HTML 文件转换为 DOCX。

// 此代码示例演示如何使用 C# 将 HTML 文件转换为 Word 文档。
// 使用 Document 类加载 HTML 文件
Document document = new Document(@"C:\Files\sample.html");

// 将 HTML 文件转换为 Word DOCX 格式
document.Save(@"C:\Files\output.docx", SaveFormat.Docx);
Convert HTML to Word in C#.

在 C# 中将网页从 URL 转换为 Word

我们还可以按照以下步骤将 HTML 网页直接从实时 URL 转换为 Word 文档:

  1. 首先,从指定的 URL 以 System.Byte 数组的形式下载网页内容。
  2. 接下来,使用数组对象作为参数启动 MemoryStream 对象。
  3. 然后,创建 HtmlLoadOptions 类的实例。
  4. 之后,创建 Document 类的实例并使用 MemoryStream 和 HtmlLoadOptions 对象对其进行初始化。
  5. 最后,调用 Document.Save(string, SaveFormat) 方法将 HTML 文件保存为“output.docx”。

以下代码示例展示了如何使用 C# 将 HTML 网页转换为 DOCX。

// 此代码示例演示如何使用 C# 将 HTML 网页直接从实时 URL 保存到 Word 文档。
// 网址
string Url = "https://en.wikipedia.org/wiki/Aspose.Words";

// 定义 HTML 加载选项 
HtmlLoadOptions options = new HtmlLoadOptions();

byte[] imageData = null;

// 从 URL 下载内容为字节数组
using (var wc = new System.Net.WebClient())
    imageData = wc.DownloadData(Url);

// 将字节数组转换为流
var urlStream =  new MemoryStream(imageData);

// 创建 Document 对象的实例
Document document = new Document(urlStream, options);

// 另存为 DOCX
document.Save(@"C:\Files\output_url.docx", SaveFormat.Docx);

使用 C# 将 HTML 字符串转换为 Word

我们可以按照以下步骤从 HTML 字符串动态生成 Word 文档:

  1. 首先,创建一个 Document 类的实例。
  2. 接下来,使用 Document 对象创建 DocumentBuilder 类的实例。
  3. 然后,使用 DocumentBuilder.InsertHtml(string) 方法将 HTML 插入到文档中。
  4. 最后,使用 Document.Save(string, SaveFormat) 方法保存 Word 文档。

以下代码示例展示了如何使用 C# 将 HTML 字符串转换为 DOCX。

// 此代码示例演示如何使用 C# 从 HTML 字符串生成 Word 文档。
// 创建一个新文档
Document document = new Document();

// 创建文档构建器
DocumentBuilder builder = new DocumentBuilder(document);

// 插入 HTML
builder.InsertHtml("<ul>\r\n" +
    "<li>Item1</li>\r\n" +
    "<li>Item2</li>\r\n" +
    "</ul>");

// 另存为 DOCX
document.Save(@"C:\Files\html-string-as-word.docx", SaveFormat.Docx);

获得免费许可证

请通过申请 免费的临时许可证 来尝试不受评估限制的 API。

结论

在本文中,我们学习了如何使用 C# 将 HTML 转换为 Word 文档。我们还了解了如何以编程方式将实时网页从 URL 转换为 Word 文件。此外,您可以使用 文档 了解更多关于 Aspose.Words for .NET API 的信息。如有任何歧义,请随时在 论坛 上与我们联系。

也可以看看