В данной статье я вам расскажу как из pdf-файлов извлекать данные, а именно текст и изображения. Делать мы это будем с помощью пакета poppler-utils.
Установка poppler-utils
Итак, для установки воспользуйтесь одной командой:
1
|
sudo
apt
-
get
install
poppler
-
utils
|
Как пользоваться poppler-utils
Итак, начнём с изображений. К примеру нам нужно извлечь все изображения из файла pdffile.pdf в разрешении jpg в домашнюю директорию. Для этого воспользуйтесь данной командой:
1
|
pdfimages
-
j
pdffile
.pdf
~
/
|
Разберу команду по пунктам:
- -j - данный параметр указывает, что изображения должны быть в формате jpg
- pdffile.pdf - указываем из какого файла делать экспорт
- ~/ - указываем куда экспортировать
Для экспорта текста воспользуйтесь такой командой:
1
|
pdftotext
pdffile
.pdf
|
Данной командой вы экспортируете весь текст из файла pdffile.pdf в ту же директорию, где находится данный файл.
Но учтите, что извлекаться будет только "настоящий" текст. Текст, который на самом деле используется как изображение, извлекаться не будет.