HTML(超文本标记语言)是所有浏览器都支持的主要网页文件格式。在各种情况下,我们可能需要将 HTML 文件或来自实时网页的内容转换为 Word 文档(DOC、DOCX、 DOT、DOTM、DOCM )。它有助于编辑 HTML 网页的文本或应用文本格式。在本文中,我们将学习如何使用 C# 将 HTML 转换为 Word 文档。
本文将涵盖以下主题:
用于将 HTML 转换为 DOCX 的 C# API — 免费下载
为了将 HTML 文件或网页转换为文字处理文件格式,我们将使用 Aspose.Words for .NET API。它是一个以编程方式创建、编辑、转换或分析 Word 文档的完整解决方案。请下载 API 的 DLL 或使用 NuGet 安装它。
Install-Package Aspose.Words
在 C# 中将 HTML 转换为 Word
我们可以按照以下给出的步骤以编程方式轻松地将 HTML 文件转换为 Word 文档:
- 使用 Document 类加载 HTML 文件。
- 调用 Document.Save(string, SaveFormat) 方法将 HTML 文件保存为“output.docx”。
Document.Save() 方法中的 SaveFormat 枚举指定要转换 HTML 文件的格式。以下代码示例展示了如何使用 C# 将 HTML 文件转换为 DOCX。
// 此代码示例演示如何使用 C# 将 HTML 文件转换为 Word 文档。
// 使用 Document 类加载 HTML 文件
Document document = new Document(@"C:\Files\sample.html");
// 将 HTML 文件转换为 Word DOCX 格式
document.Save(@"C:\Files\output.docx", SaveFormat.Docx);
在 C# 中将网页从 URL 转换为 Word
我们还可以按照以下步骤将 HTML 网页直接从实时 URL 转换为 Word 文档:
- 首先,从指定的 URL 以 System.Byte 数组的形式下载网页内容。
- 接下来,使用数组对象作为参数启动 MemoryStream 对象。
- 然后,创建 HtmlLoadOptions 类的实例。
- 之后,创建 Document 类的实例并使用 MemoryStream 和 HtmlLoadOptions 对象对其进行初始化。
- 最后,调用 Document.Save(string, SaveFormat) 方法将 HTML 文件保存为“output.docx”。
以下代码示例展示了如何使用 C# 将 HTML 网页转换为 DOCX。
// 此代码示例演示如何使用 C# 将 HTML 网页直接从实时 URL 保存到 Word 文档。
// 网址
string Url = "https://en.wikipedia.org/wiki/Aspose.Words";
// 定义 HTML 加载选项
HtmlLoadOptions options = new HtmlLoadOptions();
byte[] imageData = null;
// 从 URL 下载内容为字节数组
using (var wc = new System.Net.WebClient())
imageData = wc.DownloadData(Url);
// 将字节数组转换为流
var urlStream = new MemoryStream(imageData);
// 创建 Document 对象的实例
Document document = new Document(urlStream, options);
// 另存为 DOCX
document.Save(@"C:\Files\output_url.docx", SaveFormat.Docx);
使用 C# 将 HTML 字符串转换为 Word
我们可以按照以下步骤从 HTML 字符串动态生成 Word 文档:
- 首先,创建一个 Document 类的实例。
- 接下来,使用 Document 对象创建 DocumentBuilder 类的实例。
- 然后,使用 DocumentBuilder.InsertHtml(string) 方法将 HTML 插入到文档中。
- 最后,使用 Document.Save(string, SaveFormat) 方法保存 Word 文档。
以下代码示例展示了如何使用 C# 将 HTML 字符串转换为 DOCX。
// 此代码示例演示如何使用 C# 从 HTML 字符串生成 Word 文档。
// 创建一个新文档
Document document = new Document();
// 创建文档构建器
DocumentBuilder builder = new DocumentBuilder(document);
// 插入 HTML
builder.InsertHtml("<ul>\r\n" +
"<li>Item1</li>\r\n" +
"<li>Item2</li>\r\n" +
"</ul>");
// 另存为 DOCX
document.Save(@"C:\Files\html-string-as-word.docx", SaveFormat.Docx);
获得免费许可证
请通过申请 免费的临时许可证 来尝试不受评估限制的 API。
结论
在本文中,我们学习了如何使用 C# 将 HTML 转换为 Word 文档。我们还了解了如何以编程方式将实时网页从 URL 转换为 Word 文件。此外,您可以使用 文档 了解更多关于 Aspose.Words for .NET API 的信息。如有任何歧义,请随时在 论坛 上与我们联系。