PDFをC#でテキストに変換する

PDFをC#でテキストに変換する

最近、PDFからHTMLへの変換PDFから画像へなどのブログ投稿をプログラムで公開しました。この記事では、。NETOCRライブラリを使用してPDFをC#でテキストに変換する方法を説明します。 .NET開発者は、このライブラリを簡単に使用して、ファイルを他の一般的なファイル形式に変換できます。さらに、PDFドキュメントからのテキスト抽出プロセスを自動化するための豊富な機能があります。ただし、スキャンしたPDFファイルからのテキスト抽出を示す手順とコードスニペットを記述します。

この記事では、次の点について説明します。

.NETOCRライブラリのインストール

このライブラリは強力で、開発と使用に関する包括的なドキュメントを提供します。さまざまなファイル形式をすばやく効率的に変換および処理できます。

このAPIを.NETプロジェクトにインストールするには、DLLファイルをダウンロードするか、NuGetパッケージマネージャーで次のコマンドを実行します。

Install-Package Aspose.OCR

C#でPDFをテキストに変換する方法

スキャンしたPDFファイルからのテキスト抽出は非常に簡単で、C#の数行のソースコードの問題です。

以下の手順に従ってください。

  1. AsposeOcrクラスのオブジェクトを作成します。
  2. DocumentRecognitionSettingsクラスのインスタンスを初期化して、PDFから画像を認識します。
  3. DetectAreasプロパティの値を設定して、テキスト領域の自動検出を有効にします。
  4. RecognitionResultタイプのリストを作成し、RecognizePdfメソッドを呼び出してスキャンしたPDFドキュメントからテキストを抽出し、結果をリストに割り当てます。

次のコードをコピーして貼り付け、PDFをC#でTEXTに変換します。


string fullPath =   "sample.pdf";
// AsposeOcrクラスのオブジェクトを作成します 
AsposeOcr api = new AsposeOcr();
// DocumentRecognitionSettingsクラスのインスタンスを初期化して、PDFからの画像を認識します  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// DetectAreasプロパティの値を設定して、テキスト領域の自動検出を有効にします 
set.DetectAreas = false;
// RecognitionResultタイプのリストを作成し、RecognizePdfメソッドを呼び出してスキャンしたPDFドキュメントからテキストを抽出し、結果をリストに割り当てます。  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// 結果を印刷する
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

PDFからテキストへの変換-高度なオプション

このセクションでは、このライブラリについてさらに詳しく説明します。また、ストリームからスキャンしたPDFを認識することもできます。

手順は次のとおりです。

  1. AsposeOcrクラスのインスタンスをインスタンス化します。
  2. MemoryStreamクラスのインスタンスを作成して、ストリームからPDFを認識します。
  3. FileStreamのコンストラクターを初期化し、ソースファイルをロードします。
  4. CopyToメソッドを呼び出して、バイトをメモリストリームに書き込みます。
  5. PDFからの画像を認識するDocumentRecognitionSettingsクラスのオブジェクトを作成します。
  6. RecognitionResultタイプのリストを作成し、RecognizePdfメソッドの結果で初期化します。

string fullPath =   "final.pdf";
// AsposeOcrクラスのインスタンスをインスタンス化します 
AsposeOcr api = new AsposeOcr();
// ストリームからpdfを認識するMemoryStreamクラスのインスタンスを作成します     
using (MemoryStream ms = new MemoryStream())
{
    // FileStreamのコンストラクターを初期化し、ソースファイルをロードします  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // CopyToメソッドを呼び出して、バイトをメモリストリームに書き込みます。  
        file.CopyTo(ms);
        // PDFからの画像を認識するDocumentRecognitionSettingsクラスのオブジェクトを作成します 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // RecognitionResultタイプのリストを作成し、RecognizePdfメソッドの結果で初期化します。  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // 結果を印刷する
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

無料ライセンスを取得する

無料の一時ライセンスを取得して、評価の制限なしにAPIを試すことができます。

まとめ

これで、このブログ投稿は終わりです。プログラムでC#でPDFをテキストに変換する方法を学びました。さらに、この.NETOCRライブラリによって提供されるいくつかの高度な方法についても説明しました。さらに、ドキュメントにアクセスして他の機能を知ることができます。このガイドは、アプリケーションにPDFからテキストへのコンバーターを装備することを検討している場合に確実に役立ちます。さらに、conholdate.comは、新しいトピックに関する新しいブログ投稿を書いています。したがって、定期的な更新については連絡を取り合ってください。

質問する

フォーラムでご質問やご質問をお聞かせください。

よくある質問

プログラムでPDFをテキストに変換するにはどうすればよいですか?

この.NETOCRライブラリを使用して、PDFをC#のテキストに変換できます。このアクションを効率的に実行するRecognizePdfメソッドを公開します。

PDFをテキストに変換する最も簡単な方法は何ですか

このライブラリのドキュメントにアクセスして、スキャンしたPDFファイルからプログラムでデータを抽出する方法について知ることができます。

関連項目