JavaでPDFをテキストに変換

以前のブログ投稿では、Java での PDF から PPTX へのプログラムによる変換について説明しました。ただし、このブログ投稿では、この PDF Java ライブラリを使用して Java で PDF をテキストに変換する方法について説明します。 PDF とテキストは、世界中で最も広く使用されている 2 つのファイル形式です。したがって、このライブラリのいくつかの優れたメソッドを使用して、PDF からテキストへの変換をプログラムで実行します。このチュートリアルを進める前に、ローカルマシンに Java がセットアップされていることを確認してください。

以下の点をカバーするものとします。

PDF Java ライブラリのインストール
JavaでPDFをテキストに変換
PDF からテキストへの変換 API - 高度なオプション

PDF Java ライブラリのインストール

このライブラリのインストール手順は、開発者にとって使いやすいものです。このライブラリは、プログラムで PDF ファイルを操作し、他の一般的なファイル形式に変換するための強力な機能を公開しています。したがって、API をダウンロードするか、次の Maven 構成を使用してインストールできます。

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

JavaでPDFをテキストに変換

PDF からテキストへの変換プロセスは、Java の数行のソースコードの問題です。プログラムで PDF をテキストに変換する手順とコードスニペットを記述します。

次の手順に従ってください。

Document クラスのインスタンスを作成して PDF ドキュメントを読み込みます。
TextAbsorber クラスのオブジェクトを初期化してテキスト抽出を実行し、結果へのアクセスを提供します。
visit メソッドを呼び出して、指定されたページのテキストを抽出します。
BufferedWriter クラスのインスタンスをインスタンス化し、FileWriter クラスのオブジェクトを初期化して、抽出されたテキストをテキストファイルに保存します。

// Document クラスのインスタンスを作成して PDF ドキュメントをロードする  
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber クラスのオブジェクトを初期化してテキスト抽出を実行し、結果へのアクセスを提供します 
TextAbsorber ta = new TextAbsorber();
// 指定されたページのテキストを抽出するための visit メソッドの呼び出し 
ta.visit(pdfDocument);
// FileWriter クラスのオブジェクトを初期化することにより、BufferedWriter クラスのインスタンスをインスタンス化し、抽出されたテキストをテキスト ファイルに保存します。  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

PDF からテキストへの変換 - 詳細オプション

さらに、ビジネス要件に従ってビジネスロジックを構成できます。この PDF Java ライブラリを使用すると、特定の PDF ページをテキストファイル形式に変換できます。

特定の PDF ページをテキストに変換する手順は次のとおりです。

Document クラスのオブジェクトを作成し、PDF ドキュメントを読み込みます。
TextAbsorber クラスのオブジェクトを初期化します。
定義されたページ数をループし、visit メソッドを呼び出して PDF ページからテキストを抽出します。
BufferedWriter クラスの書き込みメソッドを呼び出して、抽出したテキストをテキストファイルに保存します。

// Document クラスのオブジェクトを作成し、PDF ドキュメントをロードする 
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber クラスの obecjt を初期化する  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// 定義されたページ数をループし、visit メソッドを呼び出して PDF ページからテキストを抽出します。  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// BufferedWriter クラスの write メソッドを呼び出して、抽出したテキストをテキスト ファイルに保存します。   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

無料ライセンスを取得する

無料の一時ライセンスを取得して、評価制限なしで API を試すことができます。

まとめ

これで、このブログ記事は終わりです。プログラムで Java で PDF をテキストに変換する方法を学んだことを願っています。さらに、この PDF Java ライブラリによって公開されているいくつかの高度なメソッドも確認しました。さらに、ドキュメントを調べて、他の便利な方法を知ることができます。 conholdate.com は常に新しいブログ記事を書いています。したがって、定期的な更新については、連絡を取り合ってください。

質問する

フォーラムで質問やクエリをお知らせください。

よくある質問

PDF をテキストに変換するにはどうすればよいですか?

この PDF Java ライブラリをインストールして、PDF からテキストへの変換をプログラムで実行できます。さらに、API によって公開されたメソッドの長いリストをここで見ることができます。

JavaはPDFを読むことができますか?

この TextAbsorber クラスを使用して、プログラムで Java の PDF ページからテキストを抽出します。ただし、特定のページからテキストを抽出する場合は、visit メソッドを使用できます。

PDF Java ライブラリのインストール#

JavaでPDFをテキストに変換#

PDF からテキストへの変換 - 詳細オプション#

無料ライセンスを取得する#

まとめ#

質問する#

よくある質問#

関連項目#

PDF Java ライブラリのインストール

JavaでPDFをテキストに変換

PDF からテキストへの変換 - 詳細オプション

無料ライセンスを取得する

まとめ

質問する

よくある質問

関連項目