C# kullanarak PDF'de bir Word arayın

Belgelerinizden belirli bir bilgiyi, metin ifadesini veya bir kelimeyi aramanız gerekebilir. Bir C# geliştiricisi olarak, .NET uygulamalarınızda PDF belgelerindeki herhangi bir metni programlı olarak kolayca arayabilirsiniz. Bu makalede, C# kullanarak PDF belgelerinde nasıl metin arayacağınızı öğreneceksiniz.

Bu makalede aşağıdaki konular tartışılmaktadır/kapsanmaktadır:

Metin Aramak için C# API’si

PDF belgelerinde metin aramak için GroupDocs.Search for .NET API’sini kullanacağım. PDF, Word, Excel, PowerPoint ve çok daha fazlası gibi tüm popüler belge formatlarında metin arama işlemlerini gerçekleştirmenize olanak tanır. Ayrıca dosyalardan, belgelerden, e-postalardan ve arşivlerden gerekli bilgileri almanızı sağlar. Basit, Boolean, Normal İfade (Regex), Bulanık ve diğer sorgu türlerini kullanarak hızlı ve akıllı bir şekilde arama yapmak için birden fazla dizin oluşturabilir ve birleştirebilirsiniz.

API’nin DLL’sini indirebilir veya NuGet kullanarak yükleyebilirsiniz.

Install-Package GroupDocs.Search

C# kullanarak PDF Belgelerinde Metin Arama

Aşağıda belirtilen basit adımları izleyerek PDF belgelerinizdeki herhangi bir metni veya belirli bir kelimeyi programlı olarak arayabilirsiniz:

  • Index sınıfının bir örneğini oluşturun
  • Dizin klasörünün yolunu belirtin
  • [Dizin etkinliklerine] abone olun11
  • Add() yöntemini çağırarak PDF dosyalarını Dizine ekleyin
  • Arama sorgusu tanımlayın
  • Arama sorgusu ile Search() yöntemini kullanarak bir arama gerçekleştirin
  • AramaSonucu‘ü kullanın ve özeti yazdırın
  • Highlight() yöntemini kullanarak çıktıda aranan sonuçları vurgulayın

Aşağıdaki kod örneği, C# kullanılarak PDF belgelerinde nasıl metin aranacağını gösterir.

// Dizin klasörünün yolunu belirtin
string indexFolder = @"C:\Files\Index\";

// Aranacak PDF belgelerini içeren klasörün yolunu belirtin
string documentsFolder = @"C:\Files\Files\"; 

// dizin oluştur veya yükle
Index index = new Index(indexFolder);

// Dizin etkinliklerine abone olun
index.Events.ErrorOccurred += (sender, args) =>
{
    // Konsola hata mesajları yazma
    Console.WriteLine(args.Message);
};

// Dosyaları eşzamanlı olarak ekleyin
// Belgeleri belirtilen klasörden eşzamanlı indeksleme
index.Add(documentsFolder); 

// Arama gerçekleştir
string query = "Vestibulum"; // Specify a search query
SearchResult result = index.Search(query); // Searching in the index

// Arama sonuçlarını kullan
// Sonucun yazdırılması
Console.WriteLine("Documents found: " + result.DocumentCount);
Console.WriteLine("Total occurrences found: " + result.OccurrenceCount);

for (int i = 0; i < result.DocumentCount; i++)
{
    FoundDocument document = result.GetFoundDocument(i);
    Console.WriteLine("\tDocument: " + document.DocumentInfo.FilePath);
    Console.WriteLine("\tOccurrences: " + document.OccurrenceCount);
}

// Metindeki oluşumları vurgulayın
if (result.DocumentCount > 0)
{
    // İlk bulunan belgeyi alma
    FoundDocument document = result.GetFoundDocument(0);

    string path = documentsFolder + "Highlighted.html";

    // Bir dosyaya çıkış bağdaştırıcısı oluşturma
    OutputAdapter outputAdapter = new FileOutputAdapter(path);

    // Vurgulayıcı nesnesini oluşturma
    HtmlHighlighter highlighter = new HtmlHighlighter(outputAdapter);

    // Vurgulanan arama sonuçlarıyla çıktı HTML formatlı belge oluşturuluyor
    index.Highlight(document, highlighter); 

    Console.WriteLine();
    Console.WriteLine("Generated HTML file can be opened with Internet browser.");
    Console.WriteLine("The file can be found by the following path:");
    Console.WriteLine(path);
}

Yukarıdaki kod örneği aşağıdaki çıktıyı üretecektir:

Documents found: 1
Total occurrences found: 4
        Document: C:\Files\Files\sample.pdf
        Occurrences: 4

Generated HTML file can be opened with Internet browser.
The file can be found by the following path:
C:\Files\Files\Highlighted.html
CSharp kullanarak PDF'de Metin veya Kelime Arama

C# kullanılarak PDF Belgelerinde Aranan Metin vurgulandı

Dizin ve Dizin Etkinliği

Index sınıfı, belgeleri indeksleme ve bunlar arasında arama yapma işlevselliği sağlayan ana sınıftır. Bu sınıfın yapıcısı çağrılarak bellekte veya diskte bir dizin oluşturulabilir. Yukarıdaki kod örneğinde tekrar kullanılabilecek şekilde indeksi disk üzerinde oluşturdum.

ErrorOccurred olayı, dosyaların indekslenmesi sırasında meydana gelen hataları gösterir. Bu nedenle indeksleme hataları hakkında bilgi almak için buna abone olmanız gerekir.

Dizine Dosya Ekle

Index sınıfının Add() yöntemi, belirli bir klasör veya alt klasörlerdeki bir dosyayı veya tüm dosyaları mutlak veya göreceli bir yolla ekler. Verilen yoldaki tüm belgeler indekslenecektir.

Arama İşlemi Gerçekleştirin

Index sınıfı, arama işlemini gerçekleştirmek için çeşitli Arama yöntemleri sağlar. Basit bir anahtar kelime sağlayarak veya bir AramaSorgusu tanımlayarak arama yapabilirsiniz.

SearchResult sınıfı, bir arama sorgusuyla eşleşen arama sonucunun ayrıntılarını sağlar. Bu sınıfın aşağıdaki yöntemleri ve özellikleri, arama sonuçlarının ayrıntılarının alınmasını kolaylaştırır:

Arama Sonuçlarını Vurgulayın

HtmlHighlighter sınıfı, HTML ile biçimlendirilmiş belgenin tüm metnindeki arama sonuçlarını vurgular.

Index sınıfının Highlight() yöntemi, bulunan terimlerin oluşumlarını vurgulayan HTML çıktısı üretir. “Arama Sonuçlarını Vurgulama" hakkında daha fazla ayrıntıyı belgelerde bulabilirsiniz.

C# kullanarak PDF’de Büyük/Küçük Harfe Duyarlı Metin Arama

Aşağıda belirtilen basit adımları izleyerek PDF belgelerinizde herhangi bir belirli metin ifadesini veya bir kelimeyi büyük ve küçük harflere göre programlı olarak arayabilirsiniz:

  • Index sınıfının bir örneğini oluşturun
  • Dizin klasörünün yolunu belirtin
  • Add() yöntemini çağırarak PDF dosyalarını Dizine ekleyin
  • Arama Seçenekleri’nin bir örneğini oluşturun
  • UseCaseSensitiveSearch özelliğini true olarak ayarlayın
  • Arama sorgusu tanımlayın
  • Arama sorgusu ile Search() yöntemini kullanarak bir arama gerçekleştirin and the SearchOptions
  • AramaSonucu‘ü kullanın ve özeti yazdırın

Aşağıdaki kod örneği, C# kullanarak bir PDF belgesinde büyük/küçük harfe duyarlı metin aramasının nasıl gerçekleştirileceğini gösterir.

// Dizin klasörünün yolunu belirtin
string indexFolder = @"C:\Files\Index\";

// Aranacak PDF belgelerini içeren klasörün yolunu belirtin
string documentsFolder = @"C:\Files\Files\";

// Belirtilen klasörde indeks oluşturuluyor
Index index = new Index(indexFolder);

// Belirtilen klasördeki belgeleri indeksleme
index.Add(documentsFolder); 

// Arama seçeneklerini tanımlayın
SearchOptions options = new SearchOptions();
options.UseCaseSensitiveSearch = true; // Enabling case sensitive search

// kelime ara
string query = "Vestibulum";

// Aramayı gerçekleştir
SearchResult result = index.Search(query, options);

// Sonucun yazdırılması
Console.WriteLine("Documents found: " + result.DocumentCount);
Console.WriteLine("Total occurrences found: " + result.OccurrenceCount);

for (int i = 0; i < result.DocumentCount; i++)
{
    FoundDocument document = result.GetFoundDocument(i);
    Console.WriteLine("\tDocument: " + document.DocumentInfo.FilePath);
    Console.WriteLine("\tOccurrences: " + document.OccurrenceCount);
}
Documents found: 1
Total occurrences found: 2
        Document: C:\Files\Files\sample.pdf
        Occurrences: 2

SearchOptions sınıfı, arama işlemlerini gerçekleştirmek için seçenekler sunar. Bu sınıfın UseCaseSensitiveSearch özelliği, bir kelime veya metin için büyük/küçük harfe duyarlı bir arama yapmanıza olanak tanır.

Ücretsiz Lisans Alın

Ücretsiz bir geçici lisans talep ederek API’yi değerlendirme sınırlamaları olmadan deneyebilirsiniz.

Çözüm

Bu makalede, C# kullanarak bir PDF belgesinde nasıl metin arayacağınızı öğrendiniz. Ayrıca C# kullanarak bir PDF belgesinde büyük/küçük harfe duyarlı metin aramasının nasıl gerçekleştirileceğini de öğrendiniz. Belgeleri kullanarak GroupDocs.Search for .NET API hakkında daha fazla bilgi edinebilirsiniz. Herhangi bir belirsizlik durumunda lütfen forum üzerinden bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız