แปลง PDF เป็นข้อความใน Java

แปลง PDF เป็นข้อความใน Java

บล็อกก่อนหน้าของเรา โพสต์ ครอบคลุมการแปลง PDF เป็น PPTX ใน Java โดยทางโปรแกรม อย่างไรก็ตาม โพสต์ในบล็อกนี้จะกล่าวถึงวิธีการแปลง PDF เป็น ข้อความ ใน Java โดยใช้ PDF Java library PDF และ Text เป็นสองรูปแบบไฟล์ที่ใช้กันอย่างแพร่หลายทั่วโลก ดังนั้น เราจะใช้วิธีการที่โดดเด่นบางประการของไลบรารีนี้เพื่อทำการแปลง PDF เป็นข้อความโดยทางโปรแกรม ตรวจสอบให้แน่ใจว่าคุณได้ตั้งค่า Java บนเครื่องของคุณก่อนที่จะดำเนินการต่อในบทช่วยสอนนี้

ประเด็นต่อไปนี้จะครอบคลุม:

การติดตั้งไลบรารี PDF Java

ขั้นตอนการติดตั้งไลบรารีนี้เป็นมิตรกับนักพัฒนา ไลบรารีนี้ได้เปิดเผย [คุณสมบัติ] อันทรงพลัง 9 เพื่อจัดการและแปลงไฟล์ PDF เป็นรูปแบบไฟล์ยอดนิยมอื่น ๆ โดยทางโปรแกรม ดังนั้น คุณสามารถ ดาวน์โหลด API หรือติดตั้งโดยใช้การกำหนดค่า Maven ต่อไปนี้

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

แปลง PDF เป็นข้อความใน Java

กระบวนการแปลง PDF เป็น Text เป็นเรื่องของซอร์สโค้ดไม่กี่บรรทัดใน Java เราจะเขียนขั้นตอนและข้อมูลโค้ดเพื่อแปลง PDF เป็น Text โดยทางโปรแกรม

คุณสามารถทำตามขั้นตอนต่อไปนี้:

  1. โหลดเอกสาร PDF โดยสร้างอินสแตนซ์ของคลาส Document
  2. เริ่มต้นวัตถุของคลาส TextAbsorber เพื่อดำเนินการแยกข้อความและให้สิทธิ์ในการเข้าถึงผลลัพธ์
  3. เรียกใช้เมธอด visit เพื่อแยกข้อความในหน้าที่ระบุ
  4. สร้างอินสแตนซ์ของคลาส BufferedWriter และบันทึกข้อความที่แยกออกมาในไฟล์ข้อความโดยการเริ่มต้นอ็อบเจ็กต์ของคลาส FileWriter
// โหลดเอกสาร PDF โดยการสร้างอินสแตนซ์ของคลาสเอกสาร  
Document pdfDocument = new Document("sample.pdf");
// เริ่มต้นวัตถุของคลาส TextAbsorber เพื่อดำเนินการแยกข้อความและให้การเข้าถึงผลลัพธ์ 
TextAbsorber ta = new TextAbsorber();
// เรียกใช้วิธีการเยี่ยมชมเพื่อแยกข้อความในหน้าที่ระบุ 
ta.visit(pdfDocument);
// สร้างอินสแตนซ์ของคลาส BufferedWriter และบันทึกข้อความที่แยกออกมาในไฟล์ข้อความโดยการเริ่มต้นอ็อบเจ็กต์ของคลาส FileWriter  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

การแปลง PDF เป็นข้อความ - ตัวเลือกขั้นสูง

นอกจากนี้ คุณยังสามารถกำหนดค่าตรรกะทางธุรกิจของคุณตามความต้องการทางธุรกิจของคุณได้ ไลบรารี PDF Java นี้ช่วยให้คุณสามารถแปลงหน้า PDF เฉพาะเป็นรูปแบบไฟล์ข้อความได้

ต่อไปนี้เป็นขั้นตอนในการแปลงหน้า PDF เป็นข้อความ:

  1. สร้างออบเจ็กต์ของคลาส Document และโหลดเอกสาร PDF
  2. เริ่มต้นวัตถุของคลาส TextAbsorber
  3. วนซ้ำตามจำนวนหน้าที่กำหนดและแยกข้อความออกจากหน้า PDF โดยการเรียกเมธอด visit
  4. บันทึกข้อความที่แยกออกมาในไฟล์ข้อความโดยเรียกใช้วิธีการเขียนของคลาส BufferedWriter
// สร้างวัตถุของคลาสเอกสารและโหลดเอกสาร PDF 
Document pdfDocument = new Document("sample.pdf");
// เริ่มต้น obecjt ของคลาส TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// วนซ้ำตามจำนวนหน้าที่กำหนด และแยกข้อความจากหน้า PDF โดยการเรียกวิธีเยี่ยมชม  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// บันทึกข้อความที่แยกออกมาในไฟล์ข้อความโดยเรียกใช้วิธีการเขียนของคลาส BufferedWriter   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

รับใบอนุญาตฟรี

คุณอาจได้รับ ใบอนุญาตชั่วคราวฟรี เพื่อลองใช้ API โดยไม่มีข้อจำกัดในการประเมิน

สรุป

สิ่งนี้นำเราไปสู่จุดสิ้นสุดของโพสต์บล็อกนี้ หวังว่าคุณจะได้เรียนรู้วิธีแปลง PDF เป็น Text ใน Java โดยทางโปรแกรม นอกจากนี้เรายังได้ผ่านวิธีการขั้นสูงบางอย่างที่เปิดเผยโดยไลบรารี PDF Java นี้ นอกจากนี้ คุณสามารถอ่าน เอกสารประกอบ เพื่อทราบวิธีการอื่นๆ ที่เป็นประโยชน์ได้ conholdate.com เขียนบล็อกโพสต์ใหม่ๆ อย่างต่อเนื่อง ดังนั้นโปรดติดต่อเพื่อรับการปรับปรุงอย่างสม่ำเสมอ

ถามคำถาม

คุณสามารถแจ้งให้เราทราบเกี่ยวกับคำถามหรือข้อสงสัยของคุณได้ใน ฟอรั่ม

คำถามที่พบบ่อย

ฉันจะแปลง PDF เป็นข้อความได้อย่างไร

คุณสามารถติดตั้ง PDF Java library นี้เพื่อทำการแปลง PDF เป็น Text โดยทางโปรแกรม นอกจากนี้ คุณสามารถดูรายการวิธีการต่างๆ ที่เปิดเผยโดย API ได้ ที่นี่

Java สามารถอ่าน PDF ได้หรือไม่

ใช้คลาส TextAbsorber นี้เพื่อแยกข้อความจากหน้า PDF ใน Java โดยทางโปรแกรม อย่างไรก็ตาม คุณสามารถใช้วิธี visit ได้ ในกรณีที่คุณต้องการแยกข้อความจากหน้าใดหน้าหนึ่ง

ดูสิ่งนี้ด้วย