
تبدیل PDF به متن در جاوا
وبلاگ قبلی ما post به تبدیل PDF به PPTX به صورت برنامهنویسی در Java پرداخت. با این حال، این پست وبلاگ به بررسی چگونگی تبدیل PDF به Text در Java با استفاده از این کتابخانه Java library میپردازد. PDF و Text دو فرمت فایل هستند که در سطح جهانی بیشترین استفاده را دارند. بنابراین، ما از برخی روشهای برجسته این کتابخانه برای انجام تبدیل PDF به Text به صورت برنامهنویسی استفاده خواهیم کرد. قبل از ادامه این آموزش، اطمینان حاصل کنید که Java را روی ماشین محلی خود تنظیم کردهاید.
نقاط زیر باید پوشش داده شوند:
نصب کتابخانه PDF Java
روند نصب این کتابخانه برای توسعهدهندگان دوستانه است. این کتابخانه قابلیتهای قدرتمندی features را برای دستکاری و تبدیل فایلهای PDF به دیگر فرمتهای محبوب فایل به صورت برنامهنویسی ارائه داده است. بنابراین، شما میتوانید download API را دانلود کنید یا آن را با استفاده از تنظیمات Maven زیر نصب کنید.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<classifier>jdk17</classifier>
</dependency>
تبدیل PDF به متن در Java
فرآیند تبدیل PDF به متن مسئلهای است که شامل چند خط کد منبع در Java میباشد. ما قرار است مراحل و نمونه کد را برای تبدیل PDF به متن بهصورت برنامهنویسی بنویسیم.
شما میتوانید مراحل زیر را دنبال کنید:
- بارگذاری سند PDF با ایجاد یک نمونه از کلاس Document.
- شیء ای از TextAbsorber کلاس برای استخراج متن ایجاد کنید و به نتیجه دسترسی فراهم کنید.
- متد visit را برای استخراج متن از صفحه مشخص شده فراخوانی کنید.
- یک نمونه از کلاس BufferedWriter ایجاد کنید و متن استخراج شده را در یک فایل متنی با ایجاد یک شیء از کلاس FileWriter ذخیره کنید.
// بارگذاری سند PDF با ایجاد یک نمونه از کلاس Document
Document pdfDocument = new Document("sample.pdf");
// یک شی از کلاس TextAbsorber را برای انجام استخراج متن مقداردهی اولیه کنید و به نتایج دسترسی فراهم کنید.
TextAbsorber ta = new TextAbsorber();
// متد visit را برای استخراج متن در صفحه مشخص شده فراخوانی کنید
ta.visit(pdfDocument);
// یک نمونه از کلاس BufferedWriter را ایجاد کنید و متن استخراج شده را در یک فایل متنی با ایجاد یک شی از کلاس FileWriter ذخیره کنید.
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();
تبدیل PDF به متن - گزینههای پیشرفته
علاوه بر این، میتوانید منطق کسبوکار خود را بر اساس نیازهای کسبوکار خود پیکربندی کنید. این کتابخانه Java PDF به شما امکان میدهد صفحات خاص PDF را به فرمت فایل متنی تبدیل کنید.
مراحل زیر برای تبدیل صفحات خاص PDF به متن عبارتند از:
- یک شی از کلاس Document ایجاد کنید و سند PDF را بارگذاری کنید.
- یک شیء از کلاس TextAbsorber را راهاندازی کنید.
- به صفحاتی که تعداد آنها تعریف شده است، رفته و متن را از صفحات PDF با فراخوانی متد visit استخراج کنید.
- متن استخراج شده را در یک فایل متنی با فراخوانی روش write کلاس BufferedWriter ذخیره کنید.
// یک شی از کلاس Document ایجاد کنید و سند PDF را بارگذاری کنید.
Document pdfDocument = new Document("sample.pdf");
// Initialize an obecjt of the TextAbsorber class
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Loop through the defined number of pages and exract the text from the PDF pages by calling the visit method
for (int page : pages) {
ta.visit(pdfDocument.getPages().get_Item(page));
}
// متن استخراج شده را با فراخوانی متد write از کلاس BufferedWriter در فایل متنی ذخیره کنید.
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();
یک مجوز رایگان دریافت کنید
شما ممکن است یک free temporary license برای امتحان API بدون محدودیتهای ارزیابی دریافت کنید.
خلاصهسازی
این ما را به انتهای این پست وبلاگ میرساند. امیدوارم یاد گرفته باشید که چگونه PDF را به متن در Java به صورت برنامهنویسی تبدیل کنید. علاوه بر این، ما همچنین از برخی از روشهای پیشرفتهای که توسط این کتابخانه PDF Java ارائه شده است، عبور کردیم. بعلاوه، شما میتوانید به documentation مراجعه کنید تا با سایر روشهای کاربردی آشنا شوید. conholdate.com به طور مداوم در حال نوشتن پستهای جدید وبلاگ است. بنابراین، لطفاً برای دریافت بهروزرسانیهای منظم در تماس باشید.
Ask a question
شما میتوانید ما را از سوالات یا درخواستهای خود در forum مطلع کنید.
سؤالات متداول
چگونه میتوانم یک PDF را به متن تبدیل کنم؟
میتوانید این کتابخانه PDF Java library را نصب کنید تا بهصورت برنامهنویسی تبدیل PDF به متن انجام دهید. علاوه بر این، میتوانید لیست بلندی از متدهای ارائه شده توسط API here را مشاهده کنید.
آیا Java میتواند یک PDF را بخواند؟
از این کلاس TextAbsorber برای استخراج متن از صفحات PDF به صورت برنامهنویسی در Java استفاده کنید. با این حال، میتوانید از روش visit در صورتی که میخواهید متن را از صفحات خاصی استخراج کنید، استفاده کنید.