PDF'den DOCX OCR'ye

PDF dosyaları, belge paylaşımı için her yerde kullanılan bir formattır ancak bazen bunlardan metin düzenlemeniz veya çıkarmanız gerekir. Microsoft Word’ün DOCX formatı, belge düzenleme için en popüler seçeneklerden biridir. Bu blog yazısında, C# kullanarak Optik Karakter Tanıma (OCR) ile bir PDF’yi DOCX’e nasıl dönüştüreceğinizi göstereceğiz. OCR teknolojisi, taranmış PDF’lerden veya görüntü tabanlı PDF’lerden metin çıkarmaya yardımcı olabilir ve bu da onu belge dönüştürme için çok yönlü bir araç haline getirir.

OCR ile PDF’den DOCX’e Dönüştürücü - C# API Kurulumu

PDF’yi C# dilinde OCR ile DOCX Word belgesine dönüştürmek için, Conholdate.Total for .NET yapılandırmanız gerekir. Bunu Visual Studio IDE’deki NuGet Paket Yöneticisi eklentisini kullanarak kolayca yapabilir veya aşağıdaki NuGet kurulum komutunu çalıştırabilirsiniz:

PM> NuGet\Install-Package Conholdate.Total

C# dilinde OCR ile PDF’yi DOCX’e dönüştürün

Aşağıdaki adımlarla bir PDF’yi OCR ile C# dilinde bir Word belgesine dönüştürebilirsiniz:

  • OcrInput sınıfının bir nesnesini oluşturun.
  • Kaynak PDF belgesini Add(string) yöntemiyle yükleyin.
  • Recognize(OcrInput, RecognitionSettings) yöntemiyle belgedeki metni tanıyın.
  • Düzenlenebilir belgeyi SaveMultipageDocument(string, SaveFormat, List) ile Microsoft Word (DOCX) formatında kaydedin ) yöntem.

Aşağıdaki örnek kod, C# dilinde OCR ile PDF’nin DOCX’e nasıl dönüştürüleceğinin bir örneğidir:

// Taranan PDF belgesini yükleyin
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Belgedeki metni tanıyın
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Düzenlenebilir belgeyi Microsoft Word (DOCX) formatında kaydedin
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

C#’ta Ön İşleme Filtrelerini kullanarak Taranan PDF’yi OCR ile DOCX’e dönüştürün

Farklı ayarları kullanarak, OCR ile taranan PDF’den DOCX’e dönüştürmeyi geliştirebilirsiniz. Örneğin, kaynak dosyanın eğriliğini düzeltme veya hatasını giderme gibi gelişmiş doğruluk için farklı ön işleme filtreleri ayarlayın. Aşağıdaki adımlarda, taranmış PDF’yi C# dilinde OCR ile DOCX’e dönüştürmeye yönelik gelişmiş yaklaşım açıklanmaktadır:

  • Ön işleme filtrelerini PreprocessingFilter sınıfıyla ayarlayın.
  • OcrInput sınıfının bir örneğini başlatın.
  • Recognize(OcrInput, RecognitionSettings) yöntemini kullanarak belgedeki metni tanıyın.
  • Tanınan metni SaveMultipageDocument(string, SaveFormat, List) kullanarak Word DOCX belgesi olarak kaydedin ) yöntem.

Aşağıdaki kod parçacığı, C# dilinde ön işleme filtreleri kullanılarak taranmış PDF’nin OCR ile DOCX’e nasıl dönüştürüleceğini açıklamaktadır:

// İşleme filtrelerini ayarlayın
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Taranan PDF belgesini yükleyin
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Belgedeki metni tanıyın
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Düzenlenebilir belgeyi Microsoft Word (DOCX) formatında kaydedin
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Ücretsiz Değerlendirme Lisansı

API’leri herhangi bir kısıtlama olmaksızın değerlendirmek için ücretsiz değerlendirme lisansı alabilirsiniz.

Özetliyor

Bu blog yazısında, C# dilinde OCR ile PDF’yi DOCX’e nasıl dönüştüreceğinizi öğrendiniz. Taranan belgeler de dahil olmak üzere PDF’lerden kolayca metin çıkarabilir ve bunları düzenlenebilir Word DOCX dosyaları olarak kaydedebilirsiniz. Bu, PDF formlarından veri çıkarma veya basılı belgeleri dijitalleştirme gibi çeşitli senaryolarda değerli bir araç olabilir. Özel gereksinimlerinizi karşılamak için farklı ayarlar ve özelleştirme seçenekleriyle denemeler yapın ve C#’ta belge işleme yeteneklerinizi geliştirin. Herhangi bir sorunuz olması durumunda lütfen forum aracılığıyla bizimle iletişime geçmekten çekinmeyin.

SSS

C#’ta PDF’leri DOCX’e dönüştürürken OCR tarafından birden fazla dil destekleniyor mu?

Evet, çok sayıda dildeki metinleri ve karışık dillerdeki metinler dahil tüm popüler yazı metinlerini tanıyabilir.

Taranan PDF’yi düzenlenebilir Word DOCX belgelerine dönüştürürken yazım denetimi özelliği destekleniyor mu?

Evet, yazım denetleyici tarafından farklı sözlükler desteklendiğinden, yanlış yazılan sözcükleri düzeltmek için yazım denetimi özelliğini ayarlayabilirsiniz.

PDF’den DOCX’e dönüştürme için OCR kullanırken dikkat edilmesi gereken herhangi bir sınırlama veya zorluk var mı?

Evet, OCR mükemmel olmayabilir ve bazen özellikle karmaşık düzenlerde, el yazısı metinlerde veya düşük kaliteli taramalarda hatalar üretebilir. Doğruluğu sağlamak için dönüştürülen metni gerektiği gibi gözden geçirmek ve düzenlemek önemlidir. Ayrıca OCR performansı, giriş PDF’sinin kalitesine ve kullanılan dile bağlı olarak değişiklik gösterebilir.

Ayrıca bakınız