PDF'yi Java'da Metne Dönüştürme

PDF’yi Java’da Metne Dönüştürme

Önceki bloğumuz yazı, Java’da programlı olarak PDF‘den PPTX’e dönüştürme konusunu ele alıyordu. Ancak bu blog yazısı, bu PDF Java kütüphanesini kullanarak PDF’nin Java’da Metin’e nasıl dönüştürüleceğini ele alacaktır. PDF ve Metin dünya çapında en yaygın kullanılan iki dosya formatıdır. Bu nedenle, PDF’den Metne dönüştürmeyi programlı olarak gerçekleştirmek için bu kütüphanenin öne çıkan bazı yöntemlerini kullanacağız. Bu eğitimde ilerlemeden önce yerel makinenizde Java’yı kurduğunuzdan emin olun.

Aşağıdaki hususlar ele alınacaktır:

PDF Java Kütüphanesi Kurulumu

Bu kütüphanenin kurulum prosedürü geliştirici dostudur. Bu kitaplık, PDF dosyalarını programlı olarak değiştirmek ve diğer popüler dosya biçimlerine dönüştürmek için güçlü özellikler‘i ortaya çıkarmıştır. Bu nedenle, API’yi indirebilir veya aşağıdaki Maven yapılandırmalarını kullanarak yükleyebilirsiniz.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

PDF’yi Java’da Metne Dönüştürme

PDF’den Metne dönüştürme işlemi, Java’daki birkaç satırlık kaynak kodundan ibarettir. PDF’yi programlı olarak Metne dönüştürmek için gereken adımları ve kod pasajını yazacağız.

Aşağıdaki adımları takip edebilirsiniz:

  1. Document sınıfının bir örneğini oluşturarak PDF belgesini yükleyin.
  2. Metin çıkarma işlemini gerçekleştirmek için TextAbsorber sınıfının bir nesnesini başlatın ve sonuca erişim sağlayın.
  3. Belirtilen sayfadaki metni çıkarmak için visit yöntemini çağırın.
  4. BufferedWriter sınıfının bir örneğini oluşturun ve FileWriter sınıfının bir nesnesini başlatarak çıkarılan metni bir metin dosyasına kaydedin.
// Document sınıfının bir örneğini oluşturarak PDF belgesini yükleyin  
Document pdfDocument = new Document("sample.pdf");
// Metin çıkarma işlemini gerçekleştirmek için TextAbsorber sınıfının bir nesnesini başlatın ve sonuca erişim sağlayın 
TextAbsorber ta = new TextAbsorber();
// Belirtilen sayfadaki metni çıkarmak için ziyaret yöntemini çağırın 
ta.visit(pdfDocument);
// BufferedWriter sınıfının bir örneğini oluşturun ve FileWriter sınıfının bir nesnesini başlatarak çıkarılan metni metin dosyasına kaydedin.  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

PDF’den Metne dönüştürme - gelişmiş seçenekler

Ayrıca iş mantığınızı iş gereksinimlerinize göre yapılandırabilirsiniz. Bu PDF Java kitaplığı, belirli PDF sayfalarını Metin dosyası biçimine dönüştürmenize olanak tanır.

Belirli PDF sayfalarını Metne dönüştürme adımları aşağıda verilmiştir:

  1. Document sınıfının bir nesnesini oluşturun ve PDF belgesini yükleyin.
  2. TextAbsorber sınıfının bir nesnesini başlatın.
  3. Tanımlanan sayıda sayfa arasında dolaşın ve visit yöntemini çağırarak metni PDF sayfalarından çıkarın.
  4. Çıkarılan metni, BufferedWriter sınıfının yazma yöntemini çağırarak bir metin dosyasına kaydedin.
// Document sınıfının bir nesnesini oluşturun ve PDF belgesini yükleyin 
Document pdfDocument = new Document("sample.pdf");
// TextAbsorber sınıfının bir nesnesini başlat  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Visit yöntemini çağırarak tanımlanan sayıda sayfa arasında dolaşın ve metni PDF sayfalarından çıkarın.  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// BufferedWriter sınıfının yazma yöntemini çağırarak çıkarılan metni metin dosyasına kaydedin.   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Ücretsiz Lisans Alın

API’yi değerlendirme sınırlamaları olmaksızın denemek için bir ücretsiz geçici lisans alabilirsiniz.

Özetliyor

Bu bizi bu blog yazısının sonuna getiriyor. Umarım PDF’yi Java’da programlı olarak Metne nasıl dönüştüreceğinizi öğrenmişsinizdir. Ek olarak, bu PDF Java kütüphanesinin sunduğu bazı gelişmiş yöntemleri de inceledik. Ayrıca, diğer yararlı yöntemleri öğrenmek için belgeleri inceleyebilirsiniz. conholdate.com sürekli olarak yeni blog yazıları yazıyor. Bu nedenle, düzenli güncellemeler için lütfen iletişim halinde kalın.

Bir soru sor

Sorularınızı veya sorularınızı forum üzerinden bize bildirebilirsiniz.

SSS

PDF’yi metne nasıl dönüştürebilirim?

PDF’den Metne dönüştürmeyi programlı olarak gerçekleştirmek için bu PDF Java kitaplığını yükleyebilirsiniz. Ayrıca, API tarafından sunulan yöntemlerin uzun bir listesini burada görebilirsiniz.

Java PDF okuyabilir mi?

Java’daki PDF sayfalarından programlı olarak metin çıkarmak için bu TextAbsorber sınıfını kullanın. Ancak belirli sayfalardan metin çıkarmak istemeniz durumunda visit yöntemini kullanabilirsiniz.

Ayrıca bakınız