Convertir PDF a Texto en C#

Convertir PDF a Texto en C#

Recientemente, publicamos algunas publicaciones de blog como convertir PDF a HTML y PDF a imágenes mediante programación. Este artículo nos enseñará cómo convertir PDF a texto en C# usando una biblioteca .NET OCR. Como desarrollador de .NET, puede usar fácilmente esta biblioteca para convertir archivos a otros formatos de archivo populares. Además, hay una gran cantidad de funciones para automatizar el proceso de extracción de texto de los documentos PDF. Sin embargo, escribiremos los pasos y el fragmento de código para demostrar la extracción de texto de un archivo PDF escaneado.

En este artículo se tratarán los siguientes puntos:

Instalación de la biblioteca .NET OCR

Esta biblioteca es potente y ofrece documentación completa sobre el desarrollo y el uso. Puede convertir y procesar varios formatos de archivo de forma rápida y eficiente.

Para instalar esta API en su proyecto .NET, puede descargar los archivos DLL o ejecutar el siguiente comando en el administrador de paquetes NuGet.

Install-Package Aspose.OCR

Cómo convertir PDF a texto en C#

La extracción de texto de un archivo PDF escaneado es bastante fácil y se trata de unas pocas líneas de código fuente en C#.

Por favor, siga los pasos que se mencionan a continuación:

  1. Cree un objeto de la clase AsposeOcr.
  2. Inicialice una instancia de la clase DocumentRecognitionSettings para reconocer imágenes de PDF.
  3. Establezca el valor de la propiedad DetectAreas para habilitar la detección automática de áreas de texto.
  4. Cree una lista de tipos RecognitionResult, extraiga texto de documentos PDF escaneados llamando al método RecognizePdf y asigne el resultado a la lista.

Copie y pegue el siguiente código para convertir PDF a TEXTO en C#.


string fullPath =   "sample.pdf";
// Crear un objeto de la clase AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Inicialice una instancia de la clase DocumentRecognitionSettings para reconocer imágenes de PDF  
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
// establezca el valor de la propiedad DetectAreas para habilitar la detección automática de áreas de texto 
set.DetectAreas = false;
// cree una lista del tipo RecognitionResult, extraiga el texto del documento PDF escaneado llamando al método RecognizePdf y asigne el resultado a la lista  
List<RecognitionResult> result = api.RecognizePdf(fullPath, set);
// Imprimir resultado
int pageNumber = 0;
foreach (var page in result)
    {                
        System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
    }

Conversión de PDF a texto: opciones avanzadas

En esta sección, exploraremos más esta biblioteca. También le permite reconocer archivos PDF escaneados de la secuencia.

Los siguientes son los pasos:

  1. Crea una instancia de la clase AsposeOcr.
  2. Cree una instancia de la clase MemoryStream para reconocer el PDF de la transmisión.
  3. Inicialice el constructor de FileStream y cargue el archivo fuente.
  4. Invoque el método CopyTo para escribir los bytes en el flujo de memoria.
  5. Cree un objeto de la clase DocumentRecognitionSettings que reconozca imágenes de PDF.
  6. Cree una lista de tipos RecognitionResult e inicialice con los resultados del método RecognizePdf.

string fullPath =   "final.pdf";
// instanciar una instancia de la clase AsposeOcr 
AsposeOcr api = new AsposeOcr();
// Cree una instancia de la clase MemoryStream para reconocer el pdf de la transmisión     
using (MemoryStream ms = new MemoryStream())
{
    // Inicialice el constructor de FileStream y cargue el archivo fuente  
    using (FileStream file = new FileStream(fullPath, FileMode.Open, FileAccess.Read))
    {
        // Invoque el método CopyTo para escribir los bytes en el flujo de memoria.  
        file.CopyTo(ms);
        // Cree un objeto de la clase DocumentRecognitionSettings que reconozca imágenes de PDF 
        DocumentRecognitionSettings set = new DocumentRecognitionSettings();
        // Cree una lista de tipo RecognitionResult e inicialice con los resultados del método RecognizePdf.  
        List<RecognitionResult> results = api.RecognizePdf(ms, set);     

        // Imprimir resultado
        foreach (var result in results)
        {
            Console.WriteLine(result.RecognitionText);
        }
    }
}

Obtenga una licencia gratis

Puede obtener una licencia temporal gratuita para probar la API sin limitaciones de evaluación.

Resumiendo

Esto nos lleva al final de esta publicación de blog. Ha aprendido a convertir PDF a texto en C# mediante programación. Además, también hemos explorado algunos métodos avanzados que ofrece esta biblioteca .NET OCR. Además, puede visitar la documentación para conocer otras características. Esta guía seguramente lo ayudará si está buscando equipar su aplicación con un convertidor de PDF a texto. Además, conholdate.com está escribiendo nuevas publicaciones de blog sobre nuevos temas. Por lo tanto, manténgase en contacto para recibir actualizaciones periódicas.

Hacer una pregunta

Puede informarnos acerca de sus preguntas o consultas en nuestro foro.

preguntas frecuentes

¿Cómo convierto un PDF a texto mediante programación?

Puede convertir PDF a texto en C# usando esta biblioteca de .NET OCR. Expone el método RecognizePdf que realiza esta acción de manera eficiente.

¿Cuál es la forma más fácil de convertir PDF a texto?

Puede visitar la documentación de esta biblioteca para conocer los métodos con los que puede extraer los datos de los archivos PDF escaneados mediante programación.

Ver también