JavaでPDFをテキストに変換

JavaでPDFをテキストに変換

以前のブログ 投稿 では、Java での PDF から PPTX へのプログラムによる変換について説明しました。ただし、このブログ投稿では、この PDF Java ライブラリ を使用して Java で PDF を テキスト に変換する方法について説明します。 PDF とテキストは、世界中で最も広く使用されている 2 つのファイル形式です。したがって、このライブラリのいくつかの優れたメソッドを使用して、PDF からテキストへの変換をプログラムで実行します。このチュートリアルを進める前に、ローカル マシンに Java がセットアップされていることを確認してください。

以下の点をカバーするものとします。

PDF Java ライブラリのインストール

このライブラリのインストール手順は、開発者にとって使いやすいものです。このライブラリは、プログラムで PDF ファイルを操作し、他の一般的なファイル形式に変換するための強力な 機能 を公開しています。したがって、API を ダウンロード するか、次の Maven 構成を使用してインストールできます。

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

JavaでPDFをテキストに変換

PDF からテキストへの変換プロセスは、Java の数行のソース コードの問題です。プログラムで PDF をテキストに変換する手順とコード スニペットを記述します。

次の手順に従ってください。

  1. Document クラスのインスタンスを作成して PDF ドキュメントを読み込みます。
  2. TextAbsorber クラスのオブジェクトを初期化してテキスト抽出を実行し、結果へのアクセスを提供します。
  3. visit メソッドを呼び出して、指定されたページのテキストを抽出します。
  4. BufferedWriter クラスのインスタンスをインスタンス化し、FileWriter クラスのオブジェクトを初期化して、抽出されたテキストをテキスト ファイルに保存します。
// Document クラスのインスタンスを作成して PDF ドキュメントをロードする  
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber クラスのオブジェクトを初期化してテキスト抽出を実行し、結果へのアクセスを提供します 
TextAbsorber ta = new TextAbsorber();
// 指定されたページのテキストを抽出するための visit メソッドの呼び出し 
ta.visit(pdfDocument);
// FileWriter クラスのオブジェクトを初期化することにより、BufferedWriter クラスのインスタンスをインスタンス化し、抽出されたテキストをテキスト ファイルに保存します。  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

PDF からテキストへの変換 - 詳細オプション

さらに、ビジネス要件に従ってビジネス ロジックを構成できます。この PDF Java ライブラリを使用すると、特定の PDF ページをテキスト ファイル形式に変換できます。

特定の PDF ページをテキストに変換する手順は次のとおりです。

  1. Document クラスのオブジェクトを作成し、PDF ドキュメントを読み込みます。
  2. TextAbsorber クラスのオブジェクトを初期化します。
  3. 定義されたページ数をループし、visit メソッドを呼び出して PDF ページからテキストを抽出します。
  4. BufferedWriter クラスの書き込みメソッドを呼び出して、抽出したテキストをテキスト ファイルに保存します。
// Document クラスのオブジェクトを作成し、PDF ドキュメントをロードする 
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber クラスの obecjt を初期化する  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// 定義されたページ数をループし、visit メソッドを呼び出して PDF ページからテキストを抽出します。  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// BufferedWriter クラスの write メソッドを呼び出して、抽出したテキストをテキスト ファイルに保存します。   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

無料ライセンスを取得する

無料の一時ライセンス を取得して、評価制限なしで API を試すことができます。

まとめ

これで、このブログ記事は終わりです。プログラムで Java で PDF をテキストに変換する方法を学んだことを願っています。さらに、この PDF Java ライブラリによって公開されているいくつかの高度なメソッドも確認しました。さらに、ドキュメント を調べて、他の便利な方法を知ることができます。 conholdate.com は常に新しいブログ記事を書いています。したがって、定期的な更新については、連絡を取り合ってください。

質問する

フォーラムで質問やクエリをお知らせください。

よくある質問

PDF をテキストに変換するにはどうすればよいですか?

この PDF Java ライブラリ をインストールして、PDF からテキストへの変換をプログラムで実行できます。さらに、API によって公開されたメソッドの長いリストを ここ で見ることができます。

JavaはPDFを読むことができますか?

この TextAbsorber クラスを使用して、プログラムで Java の PDF ページからテキストを抽出します。ただし、特定のページからテキストを抽出する場合は、visit メソッドを使用できます。

関連項目