apacheTika и Tesseract. Pdf + кирилица.

Темы, не касающиеся фреймворка, но относящиеся к программированию в целом.
Ответить
duda
Сообщения: 29
Зарегистрирован: 2015.07.06, 22:05

apacheTika и Tesseract. Pdf + кирилица.

Сообщение duda »

Здравствуйте.

Есть контейнер apacheTika и Tesseract.
Проблема с pdf и кирилицей.

Код: Выделить всё

 tesseract --list-langs
List of available languages (7):
spa
eng
deu
rus
osd
ita
fra

Если взять изображение и напрямую отправить его в tesseract с параметром -l rus, то ответ правильный. В кирилице.
Если передавать pdf то apacheTika выбирает картинки и шлет их в Tesseract. Все параметры для указания языка что я использовал (X-Tika-OCRLanguage: rus) игнорируются. В итоге ответ в кразобрах.

1. Как и какой можно передать параметр языка в apacheTika, а та в свою очередь в Tesseract?
2. Нужно ли сначала доставать картинки из PDF, а затем отправлять все в Tika?

Ответить