تحويل ملفات PDF إلى نص بجافا

تحويل ملفات PDF إلى نص بجافا

غطت مدونتنا السابقة المنشور PDF إلى PPTX التحويل في Java برمجيًا. ومع ذلك ، فإن منشور المدونة هذا سوف يغطي كيفية تحويل PDF إلى نص في Java باستخدام PDF Java مكتبة. يعد PDF و Text أكثر تنسيقات الملفات استخدامًا في جميع أنحاء العالم. لذلك ، سوف نستخدم بعض الطرق البارزة لهذه المكتبة لإجراء تحويل PDF إلى نص برمجيًا. تأكد من قيامك بإعداد Java على جهازك المحلي قبل المضي قدمًا في هذا البرنامج التعليمي.

يجب تغطية النقاط التالية:

تثبيت مكتبة جافا PDF

إجراء التثبيت لهذه المكتبة سهل للمطورين. كشفت هذه المكتبة عن ميزات قوية لمعالجة ملفات PDF وتحويلها إلى تنسيقات ملفات شائعة أخرى برمجيًا. لذلك ، يمكنك تنزيل API أو تثبيتها باستخدام تكوينات Maven التالية.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

تحويل ملفات PDF إلى نص بجافا

إن عملية تحويل PDF إلى نص هي مسألة بضعة أسطر من التعليمات البرمجية المصدر في Java. سنقوم بكتابة الخطوات ومقتطف الشفرة لتحويل PDF إلى نص برمجيًا.

يمكنك اتباع الخطوات التالية:

  1. قم بتحميل مستند PDF عن طريق إنشاء مثيل لفئة Document.
  2. تهيئة كائن من فئة TextAbsorber لإجراء استخراج النص وتوفير الوصول إلى النتيجة.
  3. قم باستدعاء طريقة visit لاستخراج النص من الصفحة المحددة.
  4. إنشاء مثيل لفئة BufferedWriter وحفظ النص المستخرج في ملف نصي عن طريق تهيئة كائن من فئة FileWriter.
// قم بتحميل مستند PDF عن طريق إنشاء مثيل لفئة المستند  
Document pdfDocument = new Document("sample.pdf");
// تهيئة كائن من فئة TextAbsorber لإجراء استخراج النص وتوفير الوصول إلى النتيجة 
TextAbsorber ta = new TextAbsorber();
// استدعاء طريقة الزيارة لاستخراج النص في الصفحة المحددة 
ta.visit(pdfDocument);
// إنشاء مثيل لفئة BufferedWriter وحفظ النص المستخرج في ملف نصي عن طريق تهيئة كائن من فئة FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

تحويل PDF إلى نص - خيارات متقدمة

بالإضافة إلى ذلك ، يمكنك تكوين منطق عملك وفقًا لمتطلبات عملك. تتيح لك مكتبة PDF Java هذه تحويل صفحات PDF محددة إلى تنسيق ملف نصي.

فيما يلي خطوات تحويل صفحات PDF معينة إلى نص:

  1. قم بإنشاء كائن من فئة Document وتحميل مستند PDF.
  2. تهيئة كائن من فئة TextAbsorber.
  3. مرر عدد الصفحات المحدد واستخرج النص من صفحات PDF باستدعاء طريقة visit.
  4. احفظ النص المستخرج في ملف نصي عن طريق استدعاء أسلوب الكتابة للفئة BufferedWriter.
// قم بإنشاء كائن من فئة المستند وتحميل مستند PDF 
Document pdfDocument = new Document("sample.pdf");
// قم بتهيئة هدف من فئة TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// قم بالتكرار خلال العدد المحدد من الصفحات واستخرج النص من صفحات PDF عن طريق استدعاء طريقة الزيارة  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// احفظ النص المستخرج في ملف نصي عن طريق استدعاء أسلوب الكتابة للفئة BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

احصل على رخصة مجانية

يمكنك الحصول على ترخيص مؤقت مجاني لتجربة واجهة برمجة التطبيقات بدون قيود تقييمية.

تلخيص لما سبق

هذا يقودنا إلى نهاية منشور المدونة هذا. آمل أن تكون قد تعلمت كيفية تحويل PDF إلى نص في Java برمجيًا. بالإضافة إلى ذلك ، لقد مررنا أيضًا ببعض الطرق المتقدمة التي كشفت عنها مكتبة PDF Java هذه. علاوة على ذلك ، يمكنك مراجعة التوثيق لمعرفة طرق أخرى مفيدة. conholdate.com يكتب باستمرار منشورات مدونة جديدة. لذلك ، يرجى البقاء على اتصال للحصول على تحديثات منتظمة.

طرح سؤال

يمكنك إخبارنا بأسئلتك أو استفساراتك على المنتدى.

أسئلة وأجوبة

كيف أقوم بتحويل ملف PDF إلى نص؟

يمكنك تثبيت PDF Java مكتبة لإجراء تحويل PDF إلى نص برمجيًا. بالإضافة إلى ذلك ، يمكنك مشاهدة قائمة طويلة من الطرق التي تم الكشف عنها بواسطة API هنا.

هل يمكن لـ Java قراءة ملف PDF؟

استخدم هذه الفئة TextAbsorber لاستخراج النص من صفحات PDF في Java برمجيًا. ومع ذلك ، يمكنك استخدام طريقة visit في حالة رغبتك في استخراج نص من صفحات معينة.

أنظر أيضا