Преобразование PDF в текст в Java

Преобразование PDF в текст в Java

В нашем предыдущем блоге post было описано программное преобразование PDF в PPTX на Java. Тем не менее, в этом сообщении в блоге будет рассказано, как преобразовать PDF в текст на Java с помощью этой библиотеки PDF Java. PDF и текст — два наиболее широко используемых формата файлов во всем мире. Поэтому мы будем использовать некоторые известные методы этой библиотеки для программного преобразования PDF в текст. Убедитесь, что вы настроили Java на своем локальном компьютере, прежде чем двигаться дальше в этом руководстве.

Должны быть охвачены следующие пункты:

Установка PDF-библиотеки Java

Процедура установки этой библиотеки удобна для разработчиков. Эта библиотека предоставляет мощные функции для программного управления и преобразования PDF-файлов в другие популярные форматы файлов. Поэтому вы можете скачать API или установить его, используя следующие конфигурации Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <classifier>jdk17</classifier>
</dependency>

Преобразование PDF в текст в Java

Процесс преобразования PDF в текст — это всего лишь несколько строк исходного кода на Java. Мы собираемся написать шаги и фрагмент кода для программного преобразования PDF в текст.

Вы можете выполнить следующие шаги:

  1. Загрузите документ PDF, создав экземпляр класса Document.
  2. Инициализировать объект класса TextAbsorber для извлечения текста и предоставления доступа к результату.
  3. Вызовите метод visit для извлечения текста на указанной странице.
  4. Создайте экземпляр класса BufferedWriter и сохраните извлеченный текст в текстовом файле, инициализировав объект класса FileWriter.
// Загрузите документ PDF, создав экземпляр класса Document  
Document pdfDocument = new Document("sample.pdf");
// Инициализировать объект класса TextAbsorber для извлечения текста и предоставления доступа к результату. 
TextAbsorber ta = new TextAbsorber();
// Вызвать метод посещения для извлечения текста на указанной странице 
ta.visit(pdfDocument);
// Создайте экземпляр класса BufferedWriter и сохраните извлеченный текст в текстовом файле, инициализировав объект класса FileWriter.  
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Преобразование PDF в текст — дополнительные параметры

Кроме того, вы можете настроить свою бизнес-логику в соответствии с вашими бизнес-требованиями. Эта библиотека PDF для Java позволяет преобразовывать определенные страницы PDF в формат текстового файла.

Ниже приведены шаги для преобразования определенных страниц PDF в текст:

  1. Создайте объект класса Document и загрузите PDF-документ.
  2. Инициализировать объект класса TextAbsorber.
  3. Прокрутите заданное количество страниц и извлеките текст из страниц PDF, вызвав метод visit.
  4. Сохраните извлеченный текст в текстовом файле, вызвав метод записи класса BufferedWriter.
// Создайте объект класса Document и загрузите PDF-документ 
Document pdfDocument = new Document("sample.pdf");
// Инициализировать объект класса TextAbsorber  
TextAbsorber ta = new TextAbsorber();
int[] pages = new int[] { 1, 2, 3};
// Прокрутите определенное количество страниц и извлеките текст из страниц PDF, вызвав метод посещения.  
for (int page : pages) {
    ta.visit(pdfDocument.getPages().get_Item(page));
}
// Сохраните извлеченный текст в текстовом файле, вызвав метод записи класса BufferedWriter.   
BufferedWriter writer = new BufferedWriter(new FileWriter("PDFToTXT_out.txt"));
writer.write(ta.getText());
writer.close();

Получить бесплатную лицензию

Вы можете получить бесплатную временную лицензию, чтобы опробовать API без ограничений на пробную версию.

Подведение итогов

Это подводит нас к концу этого сообщения в блоге. Надеюсь, вы научились программно конвертировать PDF в текст на Java. Кроме того, мы также рассмотрели некоторые расширенные методы, предоставляемые этой библиотекой PDF Java. Кроме того, вы можете просмотреть документацию, чтобы узнать о других полезных методах. conholdate.com постоянно пишет новые сообщения в блоге. Поэтому, пожалуйста, оставайтесь на связи для регулярных обновлений.

Задайте вопрос

Вы можете сообщить нам о своих вопросах или запросах на нашем форуме.

Часто задаваемые вопросы

Как преобразовать PDF в текст?

Вы можете установить эту PDF Java библиотеку для программного преобразования PDF в текст. Кроме того, вы можете увидеть длинный список методов, предоставляемых API здесь.

Может ли Java читать PDF?

Используйте этот класс TextAbsorber для программного извлечения текста из страниц PDF на Java. Однако вы можете использовать метод visit, если хотите извлечь текст с определенных страниц.

Смотрите также