OCR de PDF para DOCX

Os arquivos PDF são um formato onipresente para compartilhamento de documentos, mas às vezes você precisa editar ou extrair texto deles. O formato DOCX do Microsoft Word é uma das opções mais populares para edição de documentos. Nesta postagem do blog, mostraremos como converter um PDF em DOCX com reconhecimento óptico de caracteres (OCR) usando C#. A tecnologia OCR pode ajudar a extrair texto de PDFs digitalizados ou PDFs baseados em imagens, tornando-a uma ferramenta versátil para conversão de documentos.

Conversor de PDF para DOCX com OCR - Instalação da API C#

Para converter PDF em documento Word DOCX com OCR em C#, você precisa configurar Conholdate.Total for .NET. Você pode fazer isso facilmente usando o plug-in NuGet Package Manager no Visual Studio IDE ou executar o seguinte comando de instalação do NuGet:

PM> NuGet\Install-Package Conholdate.Total

Converta PDF em DOCX com OCR em C#

Você pode converter um PDF em um documento do Word com OCR em C# com as seguintes etapas:

  • Crie um objeto da classe OcrInput.
  • Carregue o documento PDF de origem.
  • Reconheça o texto do documento.
  • Salve o documento editável no formato Microsoft Word (DOCX).

O código de exemplo a seguir é um exemplo de como converter PDF em DOCX com OCR em C#:

// Carregue o documento PDF digitalizado
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
scans.Add("Delivery-Agreement.pdf");

// Reconhecer o texto do documento
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Salve o documento editável no formato Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument("contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Converta PDF digitalizado em DOCX com OCR usando filtros de pré-processamento em C#

Você pode aprimorar a conversão de PDF digitalizado em DOCX com OCR usando configurações diferentes. Por exemplo, defina diferentes filtros de pré-processamento para melhorar a precisão, como alinhamento ou remoção de ruído do arquivo de origem. As etapas a seguir elaboram a abordagem avançada de conversão de PDF digitalizado em DOCX com OCR em C#:

  • Defina os filtros de pré-processamento.
  • Inicialize uma instância da classe OcrInput.
  • Reconheça o texto do documento.
  • Salve o texto reconhecido como um documento Word DOCX.

O trecho de código abaixo explica como converter PDF digitalizado em DOCX com OCR usando filtros de pré-processamento em C#:

// Definir filtros de processamento
Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter filters = new Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter();
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoSkew());
filters.Add(Aspose.OCR.Models.PreprocessingFilters.PreprocessingFilter.AutoDenoising());

// Carregue o documento PDF digitalizado
Aspose.OCR.OcrInput scans = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF , filters);
scans.Add("Delivery-Agreement.pdf");

// Reconhecer o texto do documento
Aspose.OCR.AsposeOcr api = new Aspose.OCR.AsposeOcr();
List<Aspose.OCR.RecognitionResult> results = api.Recognize(scans);

// Salve o documento editável no formato Microsoft Word (DOCX)
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "contract.docx", Aspose.OCR.SaveFormat.Docx, results);

Licença de avaliação gratuita

Você pode obter uma licença de avaliação gratuita para avaliar as APIs sem quaisquer restrições.

Resumindo

Nesta postagem do blog, você aprendeu como converter PDF em DOCX com OCR em C#. Você pode extrair facilmente texto de PDFs, incluindo documentos digitalizados, e salvá-los como arquivos Word DOCX editáveis. Esta pode ser uma ferramenta valiosa em vários cenários, como extração de dados de formulários PDF ou digitalização de documentos impressos. Experimente diferentes configurações e opções de personalização para atender aos seus requisitos específicos e aprimore seus recursos de processamento de documentos em C#. Em caso de dúvidas, sinta-se à vontade para entrar em contato conosco através do fórum.

Perguntas frequentes

Vários idiomas são suportados pelo OCR ao converter PDFs para DOCX em C#?

Sim, ele pode reconhecer texto em um grande número de idiomas e em todos os scripts de escrita populares, incluindo textos com idiomas mistos.

O recurso de verificação ortográfica é compatível durante a conversão de PDF digitalizado em documentos Word DOCX editáveis?

Sim, você pode definir o recurso de verificação ortográfica para corrigir palavras com erros ortográficos, pois diferentes dicionários são suportados pelo corretor ortográfico.

Há alguma limitação ou desafio a ser observado ao usar OCR para conversão de PDF em DOCX?

Sim, o OCR pode não ser perfeito e às vezes pode produzir erros, especialmente com layouts complexos, texto manuscrito ou digitalizações de baixa qualidade. É importante revisar e editar o texto convertido conforme necessário para garantir a precisão. Além disso, o desempenho do OCR pode variar dependendo da qualidade do PDF de entrada e do idioma utilizado.

Veja também