Zoeken naar een Word in PDF met behulp van C#

Mogelijk moet u zoeken naar bepaalde informatie, een tekstfrase of een woord uit uw documenten. Als C#-ontwikkelaar kunt u eenvoudig programmatisch zoeken naar tekst uit PDF-documenten in uw .NET-toepassingen. In dit artikel leert u hoe u tekst in PDF-documenten kunt doorzoeken met C#. In dit artikel worden de volgende onderwerpen besproken/behandeld:

  • [C# API voor het zoeken naar tekst][2]
  • [Zoek tekst in PDF-documenten met C#][3]
  • [Hoofdlettergevoelige tekst zoeken in PDF met C#][4]

C# API voor het zoeken naar tekst

Voor het zoeken naar tekst in [PDF][5]-documenten, zal ik de [GroupDocs.Search for .NET][6] API gebruiken. Hiermee kunt u tekstzoekacties uitvoeren in alle [populaire documentindelingen][7] zoals PDF, Word, Excel, PowerPoint en nog veel meer. Het stelt u ook in staat om uw vereiste informatie op te halen uit bestanden, documenten, e-mails en archieven. U kunt meerdere indexen maken en samenvoegen om er snel en slim doorheen te zoeken met behulp van eenvoudige, Booleaanse, Reguliere expressie (Regex), Fuzzy en andere typen zoekopdrachten. U kunt de DLL van de API [downloaden][8] of installeren met behulp van [NuGet][9].

Install-Package GroupDocs.Search

Zoek tekst in PDF-documenten met C#

U kunt programmatisch naar elke tekst of een specifiek woord in uw PDF-documenten zoeken door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Index][10].
  • Specificeer het pad naar de indexmap
  • Abonneer je op de [index events][11]
  • Voeg PDF-bestanden toe aan de index door de methode [Add()][12] aan te roepen
  • Definieer een zoekopdracht
  • Voer een zoekopdracht uit met behulp van de methode [Search()][13] met zoekopdracht
  • Gebruik de [SearchResult][14] en print samenvatting
  • Markeer de gezochte resultaten in de uitvoer met behulp van de methode [Highlight()][15]. Het volgende codevoorbeeld laat zien hoe u tekst in PDF-documenten kunt doorzoeken met C#.
    // Specify path to the index folder
    string indexFolder = @"C:\Files\Index\";
    // Specify path to a folder containing PDF documents to search
    string documentsFolder = @"C:\Files\Files\";
    // create or load an index
    Index index = new Index(indexFolder);
    // Subscribe to index events
    index.Events.ErrorOccurred += (sender, args) =>
    {
    // Writing error messages to the console
    Console.WriteLine(args.Message);
    };
    // Add files synchronously
    // Synchronous indexing documents from the specified folder
    index.Add(documentsFolder);
    // Perform search
    string query = "Vestibulum"; // Specify a search query
    SearchResult result = index.Search(query); // Searching in the index
    // Use search results
    // Printing the result
    Console.WriteLine("Documents found: " + result.DocumentCount);
    Console.WriteLine("Total occurrences found: " + result.OccurrenceCount);
    for (int i = 0; i < result.DocumentCount; i++)
    {
    FoundDocument document = result.GetFoundDocument(i);
    Console.WriteLine("\tDocument: " + document.DocumentInfo.FilePath);
    Console.WriteLine("\tOccurrences: " + document.OccurrenceCount);
    }
    // Highlight occurrences in text
    if (result.DocumentCount > 0)
    {
    // Getting the first found document
    FoundDocument document = result.GetFoundDocument(0);
    string path = documentsFolder + "Highlighted.html";
    // Creating the output adapter to a file
    OutputAdapter outputAdapter = new FileOutputAdapter(path);
    // Creating the highlighter object
    HtmlHighlighter highlighter = new HtmlHighlighter(outputAdapter);
    // Generating output HTML formatted document with highlighted search results
    index.Highlight(document, highlighter);
    Console.WriteLine();
    Console.WriteLine("Generated HTML file can be opened with Internet browser.");
    Console.WriteLine("The file can be found by the following path:");
    Console.WriteLine(path);
    }
    Het bovenstaande codevoorbeeld genereert de volgende uitvoer:
Documents found: 1
Total occurrences found: 4
        Document: C:\Files\Files\sample.pdf
        Occurrences: 4
Generated HTML file can be opened with Internet browser.
The file can be found by the following path:
C:\Files\Files\Highlighted.html
Zoek-Tekst-of-Woord-in-PDF-met-CSharp

Markeerde de doorzochte tekst in PDF-documenten met behulp van C#

De index en indexgebeurtenis

De klasse [Index][10] is de hoofdklasse die functionaliteit biedt om de documenten te indexeren en te doorzoeken. Een index kan in het geheugen of op schijf worden gemaakt door de constructor van deze klasse aan te roepen. In het bovenstaande codevoorbeeld heb ik de index op schijf gemaakt zodat deze opnieuw kan worden gebruikt. De gebeurtenis [ErrorOccurred][11] toont de eventuele fouten tijdens het indexeren van de bestanden. U moet zich hier dus op abonneren om informatie over indexeringsfouten te ontvangen.

Voeg bestanden toe aan de index

De methode [Add()][12] van de klasse Index voegt een bestand of alle bestanden in een opgegeven map of submappen toe via een absoluut of relatief pad. Alle documenten op het opgegeven pad worden geïndexeerd.

Voer een zoekactie uit

De Index-klasse biedt verschillende [Search][13]-methoden om de zoekbewerking uit te voeren. U kunt zoeken door een eenvoudig trefwoord op te geven of door een [SearchQuery][17] te definiëren. De klasse [SearchResult][14] biedt details van een zoekresultaat dat overeenkomt met een zoekopdracht. De volgende methoden en eigenschappen van deze klasse vergemakkelijken het verkrijgen van details van zoekresultaten:

  • De eigenschap [OccurrenceCount][18] toont het totale aantal gevonden exemplaren.
  • De eigenschap [DocumentCount][19] geeft het aantal documenten weer dat in de Index is gevonden.
  • De methode [GetFoundDocument(int)][20] retourneert het [FoundDocument][21] op basis van zijn index.
  • De eigenschap [FoundDocument.OccurrenceCount][22] retourneert het aantal gevonden exemplaren in het document.

Markeer de zoekresultaten

De klasse [HtmlHighlighter][23] markeert de zoekresultaten in een volledige tekst van het document, opgemaakt in HTML. De methode [Highlight()][15] van de klasse Index genereert HTML-uitvoer die de gevonden termen markeert. Meer details over “[Zoekresultaten markeren][24]” vindt u in de documentatie.

Hoofdlettergevoelige tekst zoeken in PDF met behulp van C#

U kunt programmatisch zoeken naar een specifieke tekstfrase of een woord waarbij rekening wordt gehouden met hoofdletters en kleine letters in uw PDF-documenten door de onderstaande eenvoudige stappen te volgen:

  • Maak een instantie van de klasse [Index][10].
  • Specificeer het pad naar de indexmap
  • Voeg PDF-bestanden toe aan de index door de methode [Add()][12] aan te roepen
  • Maak een instantie van de [SearchOptions][25]
  • Stel de eigenschap [UseCaseSensitiveSearch][26] in op true
  • Definieer een zoekopdracht
  • Voer een zoekopdracht uit met behulp van de methode [Search()][13] met de zoekopdracht en de SearchOptions
  • Gebruik de [SearchResult][14] en print samenvatting Het volgende codevoorbeeld laat zien hoe u een hoofdlettergevoelige tekst zoekt in een PDF-document met C#.
    // Specify path to the index folder
    string indexFolder = @"C:\Files\Index\";
    // Specify path to a folder containing PDF documents to search
    string documentsFolder = @"C:\Files\Files\";
    // Creating index in the specified folder
    Index index = new Index(indexFolder);
    // Indexing documents from the specified folder
    index.Add(documentsFolder);
    // Define search options
    SearchOptions options = new SearchOptions();
    options.UseCaseSensitiveSearch = true; // Enabling case sensitive search
    // search word
    string query = "Vestibulum";
    // Perform the Search
    SearchResult result = index.Search(query, options);
    // Printing the result
    Console.WriteLine("Documents found: " + result.DocumentCount);
    Console.WriteLine("Total occurrences found: " + result.OccurrenceCount);
    for (int i = 0; i < result.DocumentCount; i++)
    {
    FoundDocument document = result.GetFoundDocument(i);
    Console.WriteLine("\tDocument: " + document.DocumentInfo.FilePath);
    Console.WriteLine("\tOccurrences: " + document.OccurrenceCount);
    }
Documents found: 1
Total occurrences found: 2
        Document: C:\Files\Files\sample.pdf
        Occurrences: 2

De klasse [SearchOptions][25] biedt opties om de zoekbewerkingen uit te voeren. Met de eigenschap [UseCaseSensitiveSearch][26] van deze klasse kunt u hoofdlettergevoelig zoeken naar een woord of tekst.

Ontvang een gratis licentie

U kunt de API uitproberen zonder evaluatiebeperkingen door [een gratis tijdelijke licentie][27] aan te vragen.

Conclusie

In dit artikel heb je geleerd hoe je tekst in een PDF-document kunt doorzoeken met C#. Je hebt ook geleerd hoe je een hoofdlettergevoelige tekstzoekopdracht uitvoert in een PDF-document met behulp van C#. U kunt meer leren over GroupDocs.Search for .NET API met behulp van de [documentatie][28]. Neem bij onduidelijkheden gerust contact met ons op via het [forum][29].

Zie ook