Опыт OCR на линуксе
Опубликовано 2009-12-01 в 23:56
-
Подготовка файлов. Создаём каталоги
resиocr, разбираем PDF на страницы:pdftoppm -png file.pdf res/out -
Подготовка страниц; нужно увеличить разрешение, подкорректировать яркость и контрастность для лучшего распознавания:
cd res FILES=`ls *.png` cd .. for f in $FILES; do convert -geometry 1000x -modulate 90 -gamma 0.9 -contrast -fx G res/$f ocr/$f.tif done -
Распознавание
cuneiform out-014-g.tif -o out-014-g.tif.txt
Примечания¶
- без корректировки яркости и контрастности результат распознавания был ужасным;
- вывод в PNG почему-то вызывал сегфолт у
cuneiform.