C#'ta PDF'yi Metne Dönüştürme

C#’ta PDF’yi Metne Dönüştürme

Son zamanlarda programlı olarak PDF’yi HTML’ye dönüştürme ve [PDF’den Görüntülere2 gibi bazı blog yazıları yayınladık. Bu makale bize .NET OCR kütüphanesini kullanarak PDF’yi C# dilinde Metne nasıl dönüştüreceğimizi öğretecektir. Bir .NET geliştiricisi olarak, bu kitaplığı dosyaları diğer popüler dosya biçimlerine dönüştürmek için kolayca kullanabilirsiniz. Ek olarak, PDF belgelerden metin çıkarma işlemini otomatikleştirmek için zengin bir özellik yığını vardır. Ancak taranmış bir PDF dosyasından metin çıkarmayı göstermek için adımları ve kod pasajını yazacağız.

Bu makalede aşağıdaki noktalar ele alınacaktır:

.NET OCR kitaplığı kurulumu

Bu kütüphane güçlüdür ve geliştirme ve kullanıma ilişkin kapsamlı dokümantasyon sunar. Çeşitli dosya formatlarını hızlı ve verimli bir şekilde dönüştürebilir ve işleyebilirsiniz.

Bu API’yi .NET projenize yüklemek için DLL dosyalarını indirebilir veya NuGet paket yöneticisinde aşağıdaki komutu çalıştırabilirsiniz.

Install-Package Aspose.OCR

PDF’yi C#’ta Metne Dönüştürme

Taranan bir PDF dosyasından metin çıkarmak oldukça kolaydır ve C#’ta birkaç satırlık kaynak kodundan oluşur.

Lütfen aşağıda belirtilen adımları izleyin:

  1. AsposeOcr sınıfının bir nesnesini oluşturun.
  2. PDF’deki görüntüleri tanımak için DocumentRecognitionSettings sınıfının bir örneğini başlatın.
  3. Otomatik metin alanları algılamayı etkinleştirmek için DetectAreas özelliğinin değerini ayarlayın.
  4. RecognitionResult türlerinin bir listesini oluşturun, RecognizePdf yöntemini çağırarak taranan PDF belgelerinden metin çıkarın ve sonucu listeye atayın.

PDF’yi C# dilinde TEXT’e dönüştürmek için aşağıdaki kodu kopyalayıp yapıştırın.


string fullPath =   "sample.pdf";
// AsposeOcr sınıfından bir nesne oluşturun 
AsposeOcr api = new AsposeOcr();
// PDF'deki görüntüleri tanımak için DocumentRecognitionSettings sınıfının bir örneğini başlatın  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// Otomatik metin alanları algılamayı etkinleştirmek için DetectAreas özelliğinin değerini ayarlayın 
set.DetectAreas = false;
// RecognitionResult türünün bir listesini oluşturun, RecognizePdf yöntemini çağırarak taranan PDF belgesinden metin çıkarın ve sonucu listeye atayın  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Sonucu yazdır
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

PDF’den Metne dönüştürme - gelişmiş seçenekler

Bu bölümde bu kütüphaneyi daha detaylı inceleyeceğiz. Ayrıca taranan PDF’leri akıştan tanımanıza da olanak tanır.

Adımlar aşağıdadır:

  1. AsposeOcr sınıfının bir örneğini oluşturun.
  2. Akıştan PDF’yi tanımak için MemoryStream sınıfının bir örneğini oluşturun.
  3. FileStream yapıcısını başlatın ve kaynak dosyayı yükleyin.
  4. Baytları bellek akışına yazmak için CopyTo yöntemini çağırın.
  5. PDF’deki görüntüleri tanıyan DocumentRecognitionSettings sınıfının bir nesnesini oluşturun.
  6. RecognitionResult türlerinin bir listesini oluşturun ve RecognizePdf yönteminin sonuçlarıyla başlatın.

string fullPath =   "final.pdf";
// AsposeOcr sınıfının bir örneğini başlat 
AsposeOcr api = new AsposeOcr();
// Akıştan pdf'yi tanımak için MemoryStream sınıfının bir örneğini oluşturun     
using (MemoryStream ms = new MemoryStream())
{
    // FileStream yapıcısını başlatın ve kaynak dosyayı yükleyin  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Baytları bellek akışına yazmak için CopyTo yöntemini çağırın.  
        file.CopyTo(ms);
        // PDF'deki görüntüleri tanıyan DocumentRecognitionSettings sınıfının bir nesnesini oluşturun 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // RecognitionResult türünün bir listesini oluşturun ve RecognizePdf yönteminin sonuçlarıyla başlatın.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Sonucu yazdır
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Ücretsiz Lisans Alın

API’yi değerlendirme sınırlamaları olmadan denemek için ücretsiz geçici lisans alabilirsiniz.

Özetliyor

Bu bizi bu blog yazısının sonuna getiriyor. PDF’yi C# dilinde programlı olarak Metne nasıl dönüştüreceğinizi öğrendiniz. Ayrıca bu .NET OCR kütüphanesinin sunduğu bazı gelişmiş yöntemleri de araştırdık. Ayrıca diğer özellikleri öğrenmek için belgeleri ziyaret edebilirsiniz. Uygulamanızı bir PDF’den Metne dönüştürücüyle donatmak istiyorsanız bu kılavuz kesinlikle size yardımcı olacaktır. Ayrıca, conholdate.com yeni konular üzerine yeni blog yazıları yazıyor. Bu nedenle, düzenli güncellemeler için lütfen iletişim halinde kalın.

Bir soru sor

Sorularınızı veya sorularınızı forumumuzda bize bildirebilirsiniz.

SSS

Bir PDF’yi programlı olarak metne nasıl dönüştürebilirim?

Bu .NET OCR’yi kütüphaneyi kullanarak PDF’yi C# dilinde Metne dönüştürebilirsiniz. Bu eylemi verimli bir şekilde gerçekleştiren RecognizePdf yöntemini ortaya çıkarır.

PDF’yi metne dönüştürmenin en kolay yolu nedir

Taranmış PDF dosyalarından verileri programlı olarak çıkarabileceğiniz yöntemler hakkında bilgi edinmek için bu kitaplığın belgeler sayfasını ziyaret edebilirsiniz.

Ayrıca bakınız