Ekstrak Tabel Dari PDF di C#

Mengekstrak tabel dari file PDF dapat menjadi tugas umum saat menangani ekstraksi atau analisis data. Baik Anda mencoba mengambil tabel untuk diproses atau mengekspornya untuk penggunaan lebih lanjut, mengotomatiskan proses ini dapat menghemat waktu dan tenaga. Dalam posting blog ini, kami akan menunjukkan kepada Anda cara mengekstrak tabel dari PDF di C# atau mengekspor data yang diekstrak ke file CSV.

Kami akan membahas bagian berikut dalam artikel ini:

Mengapa Mengekstrak Tabel dari PDF?

File PDF banyak digunakan untuk berbagi informasi dalam format portabel. Namun, mengekstrak data terstruktur seperti tabel bisa jadi sulit karena file PDF tidak dirancang untuk pengeditan atau manipulasi yang mudah. Dengan mengekstrak data tabel secara terprogram dalam C#, Anda dapat membuat data lebih mudah diakses, sehingga memungkinkan Anda menganalisis, memodifikasi, atau menyimpan data dalam berbagai format seperti CSV, yang banyak digunakan untuk pertukaran data antara berbagai aplikasi.

Ekstraksi Tabel PDF - Konfigurasi API C#

Anda dapat mengekstrak data dari tabel PDF dengan mengonfigurasi Conholdate.Total untuk .NET dengan perintah instalasi NuGet di bawah ini:

PM> NuGet\Install-Package Conholdate.Total

Ekstrak Tabel Dari PDF di C#

Pada bagian ini, kita akan membahas cara mengekstrak tabel dari dokumen PDF menggunakan C#.

  • Memuat Dokumen PDF: Kode dimulai dengan memuat berkas PDF ke dalam objek kelas Document.
  • Table Absorber: Kelas TableAbsorber digunakan untuk mendeteksi dan menyerap tabel pada setiap halaman PDF.
  • Mengekstrak Data Tabel: Kode mengulangi setiap tabel yang ditemukan, mengekstrak konten setiap sel dalam tabel, dan mencetaknya dalam format terstruktur.

Metode ini menyediakan cara yang efektif untuk mengakses data tabular dari dokumen PDF, sehingga Anda dapat mengolah informasi tersebut secara terprogram. Cuplikan kode di bawah ini menunjukkan ekstraksi tabel dalam C#:

// Muat dokumen PDF sumber
var filePath = "input.pdf";
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(filePath);
foreach (var page in pdfDocument.Pages)
{
    Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (AbsorbedTable table in absorber.TableList)
    {
        Console.WriteLine("Table");
        foreach (AbsorbedRow row in table.RowList)
        {
            foreach (AbsorbedCell cell in row.CellList)
            {
                foreach (TextFragment fragment in cell.TextFragments)
                {
                    var sb = new StringBuilder();
                    foreach (TextSegment seg in fragment.Segments)
                        sb.Append(seg.Text);
                    Console.Write("{sb.ToString()}|");
                }
            }
            Console.WriteLine();
        }
    }
}

Konversi Data Tabel PDF ke CSV di C#

Setelah mengekstrak data tabel dari PDF, Anda mungkin ingin menyimpannya dalam format yang lebih mudah diakses seperti CSV. CSV (Comma Separated Values) didukung secara luas oleh aplikasi seperti Microsoft Excel, Google Sheets, dan banyak sistem pemrosesan data. Di bagian ini, kami akan mengonversi data tabel PDF ke CSV di C#:

Langkah-langkah berikut menunjukkan cara mengekspor data dari tabel PDF ke format CSV di C#:

  • Memuat Dokumen PDF: Dokumen PDF dimuat ke objek Document seperti sebelumnya.
  • ExcelSaveOptions: Sebuah contoh ExcelSaveOptions dibuat dengan format yang ditetapkan ke CSV. Ini memastikan bahwa data tabel dari PDF diekspor langsung sebagai file CSV.
  • Menyimpan File CSV: Metode Simpan dipanggil untuk mengekspor data tabel PDF menjadi file .csv.

Contoh kode di bawah menunjukkan cara mengonversi tabel PDF ke format CSV di C#:

// Muat dokumen PDF
Document pdfDocument = new Document("input.pdf");

// Membuat instance objek Opsi ExcelSave
ExcelSaveOptions excelSave = new ExcelSaveOptions { Format = ExcelSaveOptions.ExcelFormat.CSV };

// Simpan output dalam format XLS
pdfDocument.Save("PDFToXLS_out.xlsx", excelSave);

Dapatkan Lisensi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk menguji berbagai fitur API tanpa batasan evaluasi apa pun.

Menyimpulkan

Mengekstrak tabel dari PDF dan mengekspor data ke format CSV dalam C# dapat dilakukan dengan mudah dan efisien dalam C#. Kemampuan untuk mengotomatiskan ekstraksi tabel membantu dalam skenario saat Anda perlu menganalisis atau berbagi data tabular dari PDF dalam format yang lebih fleksibel seperti CSV. Dengan mengikuti langkah-langkah dalam posting blog ini, Anda dapat dengan mudah mengambil dan menyimpan data tabel dari file PDF Anda. Proses ini sangat berguna dalam analisis data, pelaporan, atau tugas apa pun yang memerlukan data terstruktur dari dokumen PDF yang kaku. Jika ada pertanyaan, silakan hubungi kami di forum.

Lihat Juga