فایل PDF را به متن در Java تبدیل کنید

تبدیل PDF به متن در جاوا

وبلاگ قبلی ما post به تبدیل PDF به PPTX به صورت برنامه‌نویسی در Java پرداخت. با این حال، این پست وبلاگ به بررسی چگونگی تبدیل PDF به Text در Java با استفاده از این کتابخانه Java library می‌پردازد. PDF و Text دو فرمت فایل هستند که در سطح جهانی بیشترین استفاده را دارند. بنابراین، ما از برخی روش‌های برجسته این کتابخانه برای انجام تبدیل PDF به Text به صورت برنامه‌نویسی استفاده خواهیم کرد. قبل از ادامه این آموزش، اطمینان حاصل کنید که Java را روی ماشین محلی خود تنظیم کرده‌اید.

نقاط زیر باید پوشش داده شوند:

نصب کتابخانه PDF Java

روند نصب این کتابخانه برای توسعه‌دهندگان دوستانه است. این کتابخانه قابلیت‌های قدرتمندی features را برای دستکاری و تبدیل فایل‌های PDF به دیگر فرمت‌های محبوب فایل به صورت برنامه‌نویسی ارائه داده است. بنابراین، شما می‌توانید download API را دانلود کنید یا آن را با استفاده از تنظیمات Maven زیر نصب کنید.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

تبدیل PDF به متن در Java

فرآیند تبدیل PDF به متن مسئله‌ای است که شامل چند خط کد منبع در Java می‌باشد. ما قرار است مراحل و نمونه کد را برای تبدیل PDF به متن به‌صورت برنامه‌نویسی بنویسیم.

شما می‌توانید مراحل زیر را دنبال کنید:

  1. بارگذاری سند PDF با ایجاد یک نمونه از کلاس Document.
  2. شیء ای از TextAbsorber کلاس برای استخراج متن ایجاد کنید و به نتیجه دسترسی فراهم کنید.
  3. متد visit را برای استخراج متن از صفحه مشخص شده فراخوانی کنید.
  4. یک نمونه از کلاس BufferedWriter ایجاد کنید و متن استخراج شده را در یک فایل متنی با ایجاد یک شیء از کلاس FileWriter ذخیره کنید.
// بارگذاری سند PDF با ایجاد یک نمونه از کلاس Document  
Document pdfDocument = new Document("sample.pdf");
// یک شی از کلاس TextAbsorber را برای انجام استخراج متن مقداردهی اولیه کنید و به نتایج دسترسی فراهم کنید. 
TextAbsorber ta = new TextAbsorber();
// متد visit را برای استخراج متن در صفحه مشخص شده فراخوانی کنید 
ta.visit(pdfDocument);
// یک نمونه از کلاس BufferedWriter را ایجاد کنید و متن استخراج شده را در یک فایل متنی با ایجاد یک شی از کلاس FileWriter ذخیره کنید.  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

تبدیل PDF به متن - گزینه‌های پیشرفته

علاوه بر این، می‌توانید منطق کسب‌وکار خود را بر اساس نیازهای کسب‌وکار خود پیکربندی کنید. این کتابخانه Java PDF به شما امکان می‌دهد صفحات خاص PDF را به فرمت فایل متنی تبدیل کنید.

مراحل زیر برای تبدیل صفحات خاص PDF به متن عبارتند از:

  1. یک شی از کلاس Document ایجاد کنید و سند PDF را بارگذاری کنید.
  2. یک شیء از کلاس TextAbsorber را راه‌اندازی کنید.
  3. به صفحاتی که تعداد آن‌ها تعریف شده است، رفته و متن را از صفحات PDF با فراخوانی متد visit استخراج کنید.
  4. متن استخراج شده را در یک فایل متنی با فراخوانی روش write کلاس BufferedWriter ذخیره کنید.
// یک شی از کلاس Document ایجاد کنید و سند PDF را بارگذاری کنید. 
Document pdfDocument = new Document("sample.pdf");
// Initialize an obecjt of the TextAbsorber class  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Loop through the defined number of pages and exract the text from the PDF pages by calling the visit method  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// متن استخراج شده را با فراخوانی متد write از کلاس BufferedWriter در فایل متنی ذخیره کنید.   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

یک مجوز رایگان دریافت کنید

شما ممکن است یک free temporary license برای امتحان API بدون محدودیت‌های ارزیابی دریافت کنید.

خلاصه‌سازی

این ما را به انتهای این پست وبلاگ می‌رساند. امیدوارم یاد گرفته باشید که چگونه PDF را به متن در Java به صورت برنامه‌نویسی تبدیل کنید. علاوه بر این، ما همچنین از برخی از روش‌های پیشرفته‌ای که توسط این کتابخانه PDF Java ارائه شده است، عبور کردیم. بعلاوه، شما می‌توانید به documentation مراجعه کنید تا با سایر روش‌های کاربردی آشنا شوید. conholdate.com به طور مداوم در حال نوشتن پست‌های جدید وبلاگ است. بنابراین، لطفاً برای دریافت به‌روزرسانی‌های منظم در تماس باشید.

Ask a question

شما می‌توانید ما را از سوالات یا درخواست‌های خود در forum مطلع کنید.

سؤالات متداول

چگونه می‌توانم یک PDF را به متن تبدیل کنم؟

می‌توانید این کتابخانه PDF Java library را نصب کنید تا به‌صورت برنامه‌نویسی تبدیل PDF به متن انجام دهید. علاوه بر این، می‌توانید لیست بلندی از متدهای ارائه شده توسط API here را مشاهده کنید.

آیا Java می‌تواند یک PDF را بخواند؟

از این کلاس TextAbsorber برای استخراج متن از صفحات PDF به صورت برنامه‌نویسی در Java استفاده کنید. با این حال، می‌توانید از روش visit در صورتی که می‌خواهید متن را از صفحات خاصی استخراج کنید، استفاده کنید.

همچنین ببینید