使用 C# 将 PDF 转换为 HTML

PDF 是最流行的共享和打印文档格式。在某些情况下,我们可能需要将 PDF 文档转换为 HTML 网页。这种转换有助于共享 PDF 文档的内容,以便相关利益相关者可以在任何浏览器中轻松查看它们。在本文中,我们将学习如何使用 C# 将 PDF 文档转换为 HTML 网页

本文将涵盖以下主题:

用于将 PDF 转换为 HTML 的 C# API — 免费下载

我们将使用 GroupDocs.Conversion for .NET API 将 PDF 转换为 HTML。它为最终用户提供快速、高效、可靠的文件转换解决方案。请下载 API 的 DLL 或使用 NuGet 安装它。

Install-Package GroupDocs.Conversion

使用 C# 将 PDF 转换为 HTML

我们可以通过以下简单步骤以编程方式轻松地将 PDF 文档转换为 HTML 网页:

  1. 首先,使用 Converter 类以输入文件路径作为参数加载 PDF 文档。它是控制文档转换过程的主要类。
  2. 接下来,创建 MarkupConvertOptions 类的实例。它提供了各种转换为标记文件类型的选项。
  3. 然后,可选地设置各种转换选项,例如_FixedLayout_、_FixedLayoutShowBorders_等。
  4. 最后调用_Converter.Convert()_方法保存转换后的HTML文件。此方法采用输出文件的路径并将选项转换为参数。

以下代码示例展示了如何使用 C#PDF 文档 转换为 HTML 网页。

// 加载源 PDF 文件
Converter converter = new Converter(@"C:\Files\Conversion\sample.pdf");

// 设置 HTML 格式的转换选项
var options = new MarkupConvertOptions();
options.FixedLayout = true;
options.FixedLayoutShowBorders = false;

// 转换为 HTML 格式
converter.Convert(@"C:\Files\Conversion\converted.html", options);
在 C# 中将 PDF 转换为 HTML。

在 C# 中将 PDF 转换为 HTML。

将页面范围从 PDF 转换为 HTML

我们可以按照以下步骤以编程方式将 PDF 文档的一系列页面转换为 HTML:

  1. 首先,使用 Converter 类以输入文件路径作为参数加载 PDF 文档。
  2. 接下来,创建 MarkupConvertOptions 类的实例。
  3. 然后,设置页码开始转换
  4. 之后,设置页数以转换总页数
  5. 最后,调用 Converter.Convert() 方法,使用输出文件路径和转换选项保存转换后的 HTML 文件。

以下代码示例展示了如何将一系列页面从 PDF 文档** 转换为 C# 中的 HTML 文件。**

// 加载源 PDF 文件
Converter converter = new Converter(@"C:\Files\Conversion\sample.pdf");

// 设置 HTML 格式的转换选项
MarkupConvertOptions options = new MarkupConvertOptions();
options.PageNumber = 2; // Start page number
options.PagesCount = 3; // Total pages to convert

// 转换为 HTML 格式
converter.Convert(@"C:\Files\Conversion\converted_pages_range.pdf", options);

将 PDF 的特定页面转换为 HTML

我们可以按照以下步骤将 PDF 文档的特定页面转换为 HTML:

  1. 首先,使用 Converter 类以输入文件路径作为参数加载 PDF 文档。
  2. 接下来,创建 MarkupConvertOptions 类的实例。
  3. 然后,在逗号分隔的列表中提供要转换的特定页码。
  4. 最后,调用 Converter.Convert() 方法,使用输出文件路径和转换选项保存转换后的 HTML 文件。

以下代码示例展示了如何将 PDF 文档的特定页面** 转换为 C# 中的 HTML 文件。**

// 加载源 PDF 文件
Converter converter = new Converter(@"C:\Files\Conversion\sample.pdf");

// 设置 HTML 格式的转换选项
MarkupConvertOptions options = new MarkupConvertOptions();
options.Pages = new List<int> { 1, 3 }; // List of page numbers to convert

// 转换为 HTML 格式
converter.Convert(@"C:\Files\Conversion\converted_specific_pages.pdf", options);

C# 中带水印的 PDF 到 HTML 转换

我们可以按照以下步骤将 PDF 文档转换为 HTML 网页,并以编程方式为转换后的 HTML 文件添加水印:

  1. 首先,使用 Converter 类以输入文件路径作为参数加载 PDF 文档。
  2. 接下来,创建 WatermarkOptions 类的实例。
  3. 然后,设置各种选项,例如_Text_、ColorWidthHeight、_Font_等。
  4. 接下来,创建 MarkupConvertOptions 类的实例。
  5. 之后,将 WatermarkOptions 分配给 MarkupConvertOptions
  6. 最后,调用 Converter.Convert() 方法,使用输出文件路径和转换选项保存转换后的 HTML 文件。

以下代码示例展示了如何将 PDF 文档转换为带水印的 HTML 文档

// 加载源 PDF 文件
Converter converter = new Converter(@"C:\Files\Conversion\sample.pdf");

// 定义文本水印
WatermarkOptions watermark = new WatermarkTextOptions("This is a sample watermark!")
{
    Color = Color.Red,
    Width = 500,
    Height = 100,
    Top = 0,
    Left = 300,
    Background = true
};

// 设置 HTML 格式的转换选项
MarkupConvertOptions options = new MarkupConvertOptions();
options.Watermark = watermark;

// 转换为 HTML 格式
converter.Convert(@"C:\Files\Conversion\converted_with_watermark.html", options);
C# 中带水印的 PDF 到 HTML 转换。

C# 中带水印的 PDF 到 HTML 转换。

获得免费许可证

请通过申请 免费的临时许可证 来尝试不受评估限制的 API。

结论

在本文中,我们学习了如何在 C# 中将 PDF 文档转换为 HTML 网页。我们还看到了如何以编程方式将 PDF 的特定页面转换为 HTML 并为转换后的文件添加水印。此外,您可以使用 documentation 了解有关 .NET API 的 GroupDocs.Conversion 的更多信息。如有任何歧义,请随时在 论坛 上与我们联系。

也可以看看