PDF a DOCX OCR

Los archivos PDF son un formato omnipresente para compartir documentos, pero a veces es necesario editarlos o extraer texto de ellos. El formato DOCX de Microsoft Word es una de las opciones más populares para la edición de documentos. En esta publicación de blog, le mostraremos cómo convertir un PDF a DOCX con reconocimiento óptico de caracteres (OCR) usando C#. La tecnología OCR puede ayudar a extraer texto de archivos PDF escaneados o archivos PDF basados en imágenes, lo que la convierte en una herramienta versátil para la conversión de documentos.

Convertidor de PDF a DOCX con OCR - Instalación de API de C#

Para convertir un documento PDF a DOCX Word con OCR en C#, debe configurar Conholdate.Total para .NET. Puede hacerlo fácilmente utilizando el complemento NuGet Package Manager en Visual Studio IDE o ejecutar el siguiente comando de instalación de NuGet:

PM> NuGet\Install-Package Conholdate.Total

Convierta PDF a DOCX con OCR en C#

Puede convertir un PDF a un documento de Word con OCR en C# con los siguientes pasos:

  • Crea un objeto de la clase OcrInput.
  • Cargue el documento PDF de origen.
  • Reconocer el texto del documento.
  • Guarde el documento editable en formato Microsoft Word (DOCX).

El siguiente código de muestra es un ejemplo de cómo convertir PDF a DOCX con OCR en C#:

// Cargue el documento PDF escaneado
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Reconocer el texto del documento.
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Guarde el documento editable en formato Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Convierta PDF escaneado a DOCX con OCR usando filtros de preprocesamiento en C#

Puede mejorar la conversión de PDF escaneado a DOCX con OCR utilizando diferentes configuraciones. Por ejemplo, configure diferentes filtros de preprocesamiento para mejorar la precisión, como enderezar o eliminar ruido del archivo fuente. Los siguientes pasos detallan el enfoque avanzado para convertir PDF escaneado a DOCX con OCR en C#:

  • Configure los filtros de preprocesamiento.
  • Inicialice una instancia de la clase OcrInput.
  • Reconocer el texto del documento.
  • Guarde el texto reconocido como un documento Word DOCX.

El siguiente fragmento de código explica cómo convertir PDF escaneado a DOCX con OCR utilizando filtros de preprocesamiento en C#:

// Establecer filtros de procesamiento
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Cargue el documento PDF escaneado
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Reconocer el texto del documento.
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Guarde el documento editable en formato Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Licencia de evaluación gratuita

Puede obtener una licencia de evaluación gratuita para evaluar las API sin restricciones.

Resumiendo

En esta publicación de blog, aprendió cómo convertir PDF a DOCX con OCR en C#. Puede extraer fácilmente texto de archivos PDF, incluidos documentos escaneados, y guardarlos como archivos DOCX de Word editables. Esta puede ser una herramienta valiosa en varios escenarios, como la extracción de datos de formularios PDF o la digitalización de documentos impresos. Experimente con diferentes configuraciones y opciones de personalización para satisfacer sus requisitos específicos y mejorar sus capacidades de procesamiento de documentos en C#. En caso de tener alguna pregunta, no dude en ponerse en contacto con nosotros a través del foro.

Preguntas frecuentes

¿OCR admite varios idiomas al convertir archivos PDF a DOCX en C#?

Sí, puede reconocer texto en una gran cantidad de idiomas y todas las escrituras populares, incluidos textos con idiomas mixtos.

¿Se admite la función de revisión ortográfica al convertir un PDF escaneado a documentos editables de Word DOCX?

Sí, puede configurar la función de revisión ortográfica para corregir cualquier palabra mal escrita, ya que el corrector ortográfico admite diferentes diccionarios.

¿Existe alguna limitación o desafío que deba tener en cuenta al utilizar OCR para la conversión de PDF a DOCX?

Sí, es posible que el OCR no sea perfecto y, en ocasiones, produzca errores, especialmente con diseños complejos, texto escrito a mano o escaneos de baja calidad. Es importante revisar y editar el texto convertido según sea necesario para garantizar la precisión. Además, el rendimiento del OCR puede variar según la calidad del PDF de entrada y el idioma utilizado.

Ver también