Есть контейнер apacheTika и Tesseract.
Проблема с pdf и кирилицей.
Код: Выделить всё
tesseract --list-langs
List of available languages (7):
spa
eng
deu
rus
osd
ita
fra
Если взять изображение и напрямую отправить его в tesseract с параметром -l rus, то ответ правильный. В кирилице.
Если передавать pdf то apacheTika выбирает картинки и шлет их в Tesseract. Все параметры для указания языка что я использовал (X-Tika-OCRLanguage: rus) игнорируются. В итоге ответ в кразобрах.
1. Как и какой можно передать параметр языка в apacheTika, а та в свою очередь в Tesseract?
2. Нужно ли сначала доставать картинки из PDF, а затем отправлять все в Tika?