
Anda mungkin perlu mencari informasi tertentu, frase teks, atau kata dari dokumen Anda. Sebagai pengembang C#, Anda dapat dengan mudah mencari teks apa pun dari dokumen PDF secara terprogram di aplikasi .NET Anda. Pada artikel ini, Anda akan mempelajari cara mencari teks dalam dokumen PDF menggunakan C#. Topik-topik berikut dibahas/dibahas dalam artikel ini:
- C# API untuk Mencari Teks
- Mencari Teks di Dokumen PDF menggunakan C#
- Pencarian Teks Peka Huruf Besar-kecil dalam PDF menggunakan C#
C# API untuk Mencari Teks
Untuk mencari teks dalam dokumen PDF, saya akan menggunakan GroupDocs.Search for .NET API. Ini memungkinkan Anda melakukan operasi pencarian teks di semua format dokumen populer seperti PDF, Word, Excel, PowerPoint, dan banyak lagi. Ini juga memungkinkan Anda untuk mengambil informasi yang diperlukan dari file, dokumen, email, dan arsip. Anda dapat membuat dan menggabungkan beberapa indeks untuk mencari dengan cepat dan cerdas menggunakan indeks sederhana, Boolean, Ekspresi Reguler (Regex), Fuzzy, dan jenis kueri lainnya. Anda dapat mengunduh DLL API atau menginstalnya menggunakan NuGet.
Install-Package GroupDocs.Search
Cari Teks dalam Dokumen PDF menggunakan C#
Anda dapat mencari teks atau kata tertentu dalam dokumen PDF Anda secara terprogram dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:
- Buat instance dari kelas Index.
- Tentukan jalur ke folder indeks
- Berlangganan ke acara indeks
- Tambahkan file PDF ke Indeks dengan memanggil metode Add().
- Tentukan permintaan pencarian
- Lakukan penelusuran menggunakan metode Search() dengan kueri penelusuran
- Gunakan SearchResult dan cetak ringkasan
- Sorot hasil yang dicari di output menggunakan metode Highlight().
Contoh kode berikut menunjukkan cara mencari teks dalam dokumen PDF menggunakan C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// Specify path to the index folder string indexFolder = @"C:\Files\Index\"; // Specify path to a folder containing PDF documents to search string documentsFolder = @"C:\Files\Files\"; // create or load an index Index index = new Index(indexFolder); // Subscribe to index events index.Events.ErrorOccurred += (sender, args) => { // Writing error messages to the console Console.WriteLine(args.Message); }; // Add files synchronously // Synchronous indexing documents from the specified folder index.Add(documentsFolder); // Perform search string query = "Vestibulum"; // Specify a search query SearchResult result = index.Search(query); // Searching in the index // Use search results // Printing the result Console.WriteLine("Documents found: " + result.DocumentCount); Console.WriteLine("Total occurrences found: " + result.OccurrenceCount); for (int i = 0; i < result.DocumentCount; i++) { FoundDocument document = result.GetFoundDocument(i); Console.WriteLine("\tDocument: " + document.DocumentInfo.FilePath); Console.WriteLine("\tOccurrences: " + document.OccurrenceCount); } // Highlight occurrences in text if (result.DocumentCount > 0) { // Getting the first found document FoundDocument document = result.GetFoundDocument(0); string path = documentsFolder + "Highlighted.html"; // Creating the output adapter to a file OutputAdapter outputAdapter = new FileOutputAdapter(path); // Creating the highlighter object HtmlHighlighter highlighter = new HtmlHighlighter(outputAdapter); // Generating output HTML formatted document with highlighted search results index.Highlight(document, highlighter); Console.WriteLine(); Console.WriteLine("Generated HTML file can be opened with Internet browser."); Console.WriteLine("The file can be found by the following path:"); Console.WriteLine(path); }
Documents found: 1
Total occurrences found: 4
Document: C:\Files\Files\sample.pdf
Occurrences: 4
Generated HTML file can be opened with Internet browser.
The file can be found by the following path:
C:\Files\Files\Highlighted.html

Menyoroti Teks yang Dicari dalam Dokumen PDF menggunakan C#
Indeks dan Acara Indeks
Kelas Index adalah kelas utama yang menyediakan fungsionalitas untuk mengindeks dokumen dan menelusurinya. Indeks dapat dibuat di memori atau di disk dengan memanggil konstruktor kelas ini. Pada contoh kode di atas, saya telah membuat indeks pada disk agar dapat digunakan kembali. Event ErrorOccurred menampilkan error jika terjadi selama pengindeksan file. Jadi, Anda perlu berlangganan ini untuk menerima informasi tentang kesalahan pengindeksan.
Tambahkan File ke Indeks
Metode Add() dari kelas Index menambahkan file atau semua file dalam folder atau subfolder tertentu dengan jalur absolut atau relatif. Semua dokumen di jalur yang diberikan akan diindeks.
Melakukan Operasi Pencarian
Kelas Index menyediakan berbagai metode Search untuk melakukan operasi pencarian. Anda dapat mencari dengan memberikan kata kunci sederhana atau dengan menentukan SearchQuery. Kelas SearchResult memberikan detail hasil penelusuran yang cocok dengan kueri penelusuran. Metode dan properti berikut dari kelas ini memfasilitasi mendapatkan detail hasil pencarian:
- Properti OccurrenceCount menampilkan jumlah total kejadian yang ditemukan.
- Properti DocumentCount menampilkan jumlah dokumen yang ditemukan dalam Indeks.
- Metode GetFoundDocument(int) mengembalikan FoundDocument dengan indeksnya.
- Properti FoundDocument.OccurrenceCount mengembalikan jumlah kemunculan yang ditemukan dalam dokumen.
Sorot Hasil Pencarian
Kelas HtmlHighlighter menyoroti hasil pencarian di seluruh teks dokumen yang diformat dalam HTML. Metode Highlight() dari kelas Index menghasilkan output HTML yang menyoroti kemunculan istilah yang ditemukan. Anda dapat menemukan detail lebih lanjut tentang “Menyoroti Hasil Pencarian” di dokumentasi.
Pencarian Teks Peka Huruf Besar dalam PDF menggunakan C#
Anda dapat mencari frase teks tertentu atau kata yang mempertimbangkan huruf besar dan kecil dalam dokumen PDF Anda secara terprogram dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:
- Buat instance dari kelas Index.
- Tentukan jalur ke folder indeks
- Tambahkan file PDF ke Indeks dengan memanggil metode Add().
- Buat turunan dari SearchOptions
- Setel properti UseCaseSensitiveSearch ke true
- Tentukan permintaan pencarian
- Lakukan penelusuran menggunakan metode Search() dengan kueri penelusuran dan SearchOptions
- Gunakan SearchResult dan cetak ringkasan
Contoh kode berikut menunjukkan **cara melakukan pencarian teks peka huruf besar-kecil dalam dokumen PDF menggunakan C#.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
// Specify path to the index folder string indexFolder = @"C:\Files\Index\"; // Specify path to a folder containing PDF documents to search string documentsFolder = @"C:\Files\Files\"; // Creating index in the specified folder Index index = new Index(indexFolder); // Indexing documents from the specified folder index.Add(documentsFolder); // Define search options SearchOptions options = new SearchOptions(); options.UseCaseSensitiveSearch = true; // Enabling case sensitive search // search word string query = "Vestibulum"; // Perform the Search SearchResult result = index.Search(query, options); // Printing the result Console.WriteLine("Documents found: " + result.DocumentCount); Console.WriteLine("Total occurrences found: " + result.OccurrenceCount); for (int i = 0; i < result.DocumentCount; i++) { FoundDocument document = result.GetFoundDocument(i); Console.WriteLine("\tDocument: " + document.DocumentInfo.FilePath); Console.WriteLine("\tOccurrences: " + document.OccurrenceCount); }
Documents found: 1
Total occurrences found: 2
Document: C:\Files\Files\sample.pdf
Occurrences: 2
Kelas SearchOptions menyediakan opsi untuk melakukan operasi pencarian. Properti UseCaseSensitiveSearch dari kelas ini memungkinkan Anda untuk melakukan pencarian peka huruf besar kecil untuk sebuah kata atau teks.
Dapatkan Lisensi Gratis
Anda dapat mencoba API tanpa batasan evaluasi dengan meminta lisensi sementara gratis.
Kesimpulan
Pada artikel ini, Anda telah mempelajari cara mencari teks dalam dokumen PDF menggunakan C#. Anda juga telah mempelajari cara melakukan pencarian teks peka huruf besar-kecil dalam dokumen PDF menggunakan C#. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Search for .NET API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.