apacheTika и Tesseract. Pdf + кирилица.

duda · Сообщение **duda** » 2021.11.21, 17:38

Здравствуйте.

Есть контейнер apacheTika и Tesseract.
Проблема с pdf и кирилицей.

 tesseract --list-langs
List of available languages (7):
spa
eng
deu
rus
osd
ita
fra

Если взять изображение и напрямую отправить его в tesseract с параметром -l rus, то ответ правильный. В кирилице.
Если передавать pdf то apacheTika выбирает картинки и шлет их в Tesseract. Все параметры для указания языка что я использовал (X-Tika-OCRLanguage: rus) игнорируются. В итоге ответ в кразобрах.

1. Как и какой можно передать параметр языка в apacheTika, а та в свою очередь в Tesseract?
2. Нужно ли сначала доставать картинки из PDF, а затем отправлять все в Tika?