
استخراج جداول از فایلهای PDF میتواند یک کار رایج در هنگام استخراج یا تجزیه و تحلیل دادهها باشد. چه بخواهید جداول را برای پردازش بازیابی کنید یا آنها را برای استفاده بیشتر صادر کنید، خودکار کردن این فرآیند می تواند در زمان و تلاش صرفه جویی کند. در این پست وبلاگ، ما به شما نشان خواهیم داد که چگونه جداول را از یک PDF در C# استخراج کنید یا داده های استخراج شده را به یک فایل CSV صادر کنید.
ما در این مقاله به بخش های زیر خواهیم پرداخت:
- چرا جداول را از PDF استخراج کنیم؟
- استخراج جدول PDF - پیکربندی C# API
- استخراج جدول از PDF در سی شارپ
- تبدیل داده های جدول از PDF به CSV در سی شارپ
چرا جداول را از PDF استخراج کنیم؟
فایل های PDF به طور گسترده ای برای به اشتراک گذاری اطلاعات در قالب قابل حمل استفاده می شوند. با این حال، استخراج داده های ساختار یافته مانند جداول می تواند چالش برانگیز باشد زیرا فایل های PDF برای ویرایش یا دستکاری آسان طراحی نشده اند. با استخراج دادههای جدول به صورت برنامهنویسی در سی شارپ، میتوانید دادهها را در دسترستر کنید و به شما این امکان را میدهد که دادهها را در قالبهای مختلف مانند CSV که به طور گسترده برای تبادل داده بین برنامههای مختلف مورد استفاده قرار میگیرد، تجزیه و تحلیل، اصلاح یا ذخیره کنید.
استخراج جدول PDF - پیکربندی C# API
میتوانید با پیکربندی Conholdate.Total for .NET با دستور نصب NuGet در زیر، دادهها را از جداول PDF استخراج کنید:
PM> NuGet\Install-Package Conholdate.Total
استخراج جدول از PDF در سی شارپ
در این بخش، استخراج جداول از یک سند PDF با استفاده از سی شارپ را بررسی می کنیم.
- بارگیری سند PDF: کد با بارگذاری فایل PDF در یک شی کلاس Document شروع می شود.
- Table Absorber: کلاس TableAbsorber برای شناسایی و جذب جداول در هر صفحه از PDF استفاده می شود.
- استخراج داده های جدول: کد از طریق هر جدول یافت شده تکرار می شود، محتوای هر سلول در جدول را استخراج می کند و آن را در قالبی ساختاریافته چاپ می کند.
این روش روشی موثر برای دسترسی به داده های جدولی از اسناد PDF فراهم می کند و شما را قادر می سازد تا به صورت برنامه ریزی شده با اطلاعات کار کنید. قطعه کد زیر استخراج جدول در سی شارپ را نشان می دهد:
// سند PDF منبع را بارگیری کنید
var filePath = "input.pdf";
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(filePath);
foreach (var page in pdfDocument.Pages)
{
Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
absorber.Visit(page);
foreach (AbsorbedTable table in absorber.TableList)
{
Console.WriteLine("Table");
foreach (AbsorbedRow row in table.RowList)
{
foreach (AbsorbedCell cell in row.CellList)
{
foreach (TextFragment fragment in cell.TextFragments)
{
var sb = new StringBuilder();
foreach (TextSegment seg in fragment.Segments)
sb.Append(seg.Text);
Console.Write("{sb.ToString()}|");
}
}
Console.WriteLine();
}
}
}
تبدیل داده های جدول PDF به CSV در سی شارپ
هنگامی که داده های جدول را از یک PDF استخراج کردید، ممکن است بخواهید آن را در قالب قابل دسترس تری مانند CSV ذخیره کنید. CSV (مقادیر جدا شده با کاما) به طور گسترده توسط برنامه هایی مانند Microsoft Excel، Google Sheets و بسیاری از سیستم های پردازش داده پشتیبانی می شود. در این بخش، داده های جدول PDF را در سی شارپ به CSV تبدیل می کنیم:
مراحل زیر نحوه صادرات داده ها از جداول PDF به فرمت CSV در C# را نشان می دهد:
- بارگیری سند PDF: سند PDF مانند قبل در شیء Document بارگذاری می شود.
- ExcelSaveOptions: نمونه ای از ExcelSaveOptions با فرمت تنظیم شده روی CSV ایجاد می شود. این تضمین می کند که داده های جدول از PDF به طور مستقیم به عنوان یک فایل CSV صادر می شود.
- ذخیره فایل CSV: روش Save برای صادر کردن داده های جدول PDF به یک فایل csv. فراخوانی می شود.
نمونه کد زیر نحوه تبدیل جدول PDF به فرمت CSV در سی شارپ را نشان می دهد:
// سند PDF را بارگیری کنید
Document pdfDocument = new Document("input.pdf");
// شئ ExcelSave Option را نمونه برداری کنید
ExcelSaveOptions excelSave = new ExcelSaveOptions { Format = ExcelSaveOptions.ExcelFormat.CSV };
// خروجی را با فرمت XLS ذخیره کنید
pdfDocument.Save("PDFToXLS_out.xlsx", excelSave);
مجوز رایگان دریافت کنید
میتوانید برای آزمایش ویژگیهای مختلف API بدون محدودیت ارزیابی، مجوز موقت رایگان دریافت کنید.
جمع بندی
استخراج جداول از PDF و صادرات داده ها به فرمت CSV در سی شارپ می تواند در سی شارپ ساده و کارآمد باشد. توانایی استخراج خودکار جدول در سناریوهایی که نیاز به تجزیه و تحلیل یا به اشتراک گذاری داده های جدولی از فایل های PDF در قالب انعطاف پذیرتری مانند CSV دارید، کمک می کند. با دنبال کردن مراحل این پست وبلاگ، می توانید به راحتی داده های جدول را از فایل های PDF خود بازیابی و ذخیره کنید. این فرآیند به ویژه در تجزیه و تحلیل داده ها، گزارش دهی یا هر کاری که به داده های ساختار یافته از اسناد PDF سفت و سخت نیاز دارد مفید است. در صورت هرگونه سوال، لطفاً با ما در [فروم 17 تماس بگیرید.