PDFからDOCX OCRへ

PDF ファイルはドキュメント共有用に広く普及している形式ですが、場合によっては PDF ファイルからテキストを編集したり抽出したりする必要があります。 Microsoft Word の DOCX 形式は、文書編集で最もよく使われる選択肢の 1 つです。このブログ投稿では、C# を使用して光学式文字認識 (OCR) を使用して PDF を DOCX に変換する方法を説明します。 OCR テクノロジは、スキャンされた PDF または画像ベースの PDF からテキストを抽出するのに役立ち、ドキュメント変換のための多用途ツールになります。

OCR を使用した PDF から DOCX コンバーター - C# API のインストール

C# で OCR を使用して PDF を DOCX Word 文書に変換するには、Conholdate.Total for .NET を構成する必要があります。これは、Visual Studio IDE の NuGet パッケージ マネージャー プラグインを使用するか、次の NuGet インストール コマンドを実行して簡単に行うことができます。

PM> NuGet\Install-Package Conholdate.Total

C# で OCR を使用して PDF を DOCX に変換する

次の手順で、C# の OCR を使用して PDF を Word ドキュメントに変換できます。

  • OcrInputクラスのオブジェクトを作成します。
  • ソース PDF ドキュメントを読み込みます。
  • 文書のテキストを認識します。
  • 編集可能な文書を Microsoft Word (DOCX) 形式で保存します。

次のサンプル コードは、C# で OCR を使用して PDF を DOCX に変換する方法の例です。

// スキャンした PDF ドキュメントを読み込みます
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// 文書のテキストを認識する
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 編集可能な文書を Microsoft Word (DOCX) 形式で保存する
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

C# の前処理フィルターを使用してスキャンした PDF を OCR で DOCX に変換する

さまざまな設定を使用して、OCR を使用してスキャンされた PDF から DOCX への変換を強化できます。たとえば、ソース ファイルのデスキューやノイズ除去などの精度を向上させるために、さまざまな前処理フィルターを設定します。次の手順では、C# で OCR を使用してスキャンした PDF を DOCX に変換する高度なアプローチを詳しく説明します。

  • 前処理フィルターを設定します。
  • OcrInput クラスのインスタンスを初期化します。
  • 文書のテキストを認識します。
  • 認識されたテキストを Word DOCX ドキュメントとして保存します。

以下のコード スニペットは、C# の前処理フィルターを使用して、スキャンされた PDF を OCR 付きの DOCX に変換する方法を詳しく説明しています。

// 処理フィルターを設定する
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// スキャンした PDF ドキュメントを読み込みます
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// 文書のテキストを認識する
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// 編集可能な文書を Microsoft Word (DOCX) 形式で保存する
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

無料の評価ライセンス

API を制限なく評価するための 無料評価ライセンス を取得できます。

まとめ

このブログ投稿では、C# で OCR を使用して PDF を DOCX に変換する方法を学習しました。スキャンした文書を含む PDF からテキストを簡単に抽出し、編集可能な Word DOCX ファイルとして保存できます。これは、PDF フォームからのデータ抽出や印刷ドキュメントのデジタル化など、さまざまなシナリオで役立つツールとなります。特定の要件を満たすためにさまざまな設定とカスタマイズ オプションを試し、C# でのドキュメント処理機能を強化します。ご質問がございましたら、フォーラム 経由でお気軽にご連絡ください。

よくある質問

C# で PDF を DOCX に変換する場合、OCR によって複数の言語がサポートされますか?

はい、多数の言語のテキストと、言語が混在したテキストを含むすべての一般的な筆記体を認識できます。

スキャンした PDF を編集可能な Word DOCX ドキュメントに変換する際のスペルチェック機能はサポートされていますか?

はい、スペル チェッカーではさまざまな辞書がサポートされているため、スペル チェック機能を設定して、スペル ミスの単語を修正できます。

PDF から DOCX への変換に OCR を使用する場合に注意すべき制限や課題はありますか?

はい、OCR は完璧ではない可能性があり、特に複雑なレイアウト、手書きのテキスト、または低品質のスキャンの場合にエラーが発生することがあります。正確性を確保するために、必要に応じて変換されたテキストを確認および編集することが重要です。さらに、OCR のパフォーマンスは、入力 PDF の品質と使用される言語によって異なる場合があります。

関連項目