استخراج الجدول من PDF في جافا

استخراج الجدول من PDF في جافا

في الماضي القريب ، نشرنا مقالة تدور حول كيفية استخراج نص من ملف PDF في Java برمجيًا. في منشور المدونة هذا ، سنتعلم كيفية استخراج الجدول من PDF في Java باستخدام Java API لـ PDF. توفر هذه المكتبة ميزات قوية لتحليل مستندات PDF ومعالجتها. بالإضافة إلى ذلك ، يمكنك أتمتة استخراج البيانات عن طريق إنشاء مستخرج جدول PDF باستخدام هذه المكتبة. ومع ذلك ، يرجى التأكد من تثبيت Java على جهازك المحلي قبل المتابعة.

يجب تغطية النقاط التالية في هذا الدليل:

مستخرج جدول PDF - تثبيت API

عملية تثبيت هذه المكتبة مباشرة وبسيطة. في الواقع ، يمكنك إما تنزيل API أو تثبيته باستخدام تكوينات Maven التالية.

 <repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

استخراج الجدول من PDF في جافا

بمجرد تثبيت API ، يمكنك البدء في كتابة التعليمات البرمجية لإنشاء مستخرج جدول PDF برمجيًا.

يمكنك اتباع الخطوات ومقتطف الشفرة المذكور أدناه:

  1. قم بإنشاء كائن من فئة Document وتحميل ملف PDF المصدر.
  2. إنشاء مثيل لفئة TableAbsorber التي تقوم بإجراء بحث وتوفر الوصول إلى نتائج البحث.
  3. قم بالتكرار خلال صفحات مستند PDF عن طريق استدعاء طريقة getPages.
  4. قم باستدعاء طريقة visit لاستخراج الجدول من الصفحة.
  5. قم باستدعاء الأسلوب getTableList الذي يقوم بإرجاع IList للقراءة فقط التي تحتوي على الجداول التي تم العثور عليها.
  6. احصل على الصفوف عن طريق استدعاء طريقة getRowList كرر خلال قائمة الصفوف.
  7. كرر قائمة الخلايا عن طريق استدعاء طريقة getCellList.
  8. قم باستدعاء الأسلوب getTextFragments للحصول على مجموعة من كائنات TextFragment التي تصف النص الموجود في الخلية.
  9. قم باستدعاء طريقة getSegments التي تحصل على مقاطع نصية لشريحة النص الحالية.
  10. اطبع النتائج.

انسخ الكود التالي والصقه في ملفك الرئيسي:

String filePath = "table.pdf";
// قم بإنشاء كائن من فئة Document وقم بتحميل ملف PDF المصدر 
Document pdfDocument = new Document(filePath);
// إنشاء مثيل لفئة TableAbsorber التي تقوم بالبحث وتوفر الوصول إلى نتائج البحث  
TableAbsorber absorber = new TableAbsorber();
// قم بالتكرار خلال صفحات مستند PDF عن طريق استدعاء طريقة getPages 
for (Page page : pdfDocument.getPages()) {
    // استدعاء طريقة الزيارة لاستخراج الجدول من الصفحة 
        absorber.visit(page);
        // قم باستدعاء التابع getTableList الذي يُرجع للقراءة فقط IList التي تحتوي على الجداول التي تم العثور عليها 
        for (AbsorbedTable table : absorber.getTableList()) {
                System.out.println("Table");
                // احصل على الصفوف عن طريق استدعاء طريقة getRowList كرر خلال قائمة الصفوف  
                for (AbsorbedRow row : table.getRowList()) {
                        // كرر قائمة الخلايا باستدعاء طريقة getCellList 
                        for (AbsorbedCell cell : row.getCellList()) {
                            // قم باستدعاء أسلوب getTextFragments للحصول على مجموعة من كائنات TextFragment التي تصف النص المحتوي في الخلية 
                                for (TextFragment fragment : cell.getTextFragments()) {
                                        StringBuilder sb = new StringBuilder();
                                        // قم باستدعاء طريقة getSegments التي تحصل على مقاطع نصية لشريحة TextFragment الحالية. 
                                        for (TextSegment seg : fragment.getSegments())
                                                sb.append(seg.getText());
                                        System.out.print(sb.toString() + "|");
                                }
                        }
                        System.out.println();
                }
        }
}

احصل على رخصة مجانية

يمكنك الاستفادة من رخصة مؤقتة مجانية لتجربة واجهة برمجة التطبيقات بدون قيود تقييمية.

تلخيص لما سبق

هذا يقودنا إلى نهاية منشور المدونة هذا. لقد تعلمت كيفية استخراج الجدول من PDF في Java برمجيًا. سيساعدك هذا الدليل حقًا إذا كنت تبحث عن إنشاء مستخرج جدول PDF لتطبيق عملك. علاوة على ذلك ، يمكنك زيارة التوثيق لمعرفة الميزات الأخرى.

علاوة على ذلك ، نقترح عليك اتباع دليل البدء.

أخيرًا ، يكتب conholdate.com منشورات مدونة جديدة. لذلك ، يرجى البقاء على اتصال للحصول على آخر التحديثات.

طرح سؤال

يمكنك إخبارنا بأسئلتك أو استفساراتك على المنتدى.

أسئلة وأجوبة

هل يمكنني استخراج الجداول من ملف PDF؟

يرجى زيارة هذا الرابط لمعرفة الخطوات ومقتطف الشفرة الذي يستخرج الجدول من مستند PDF برمجيًا

أنظر أيضا