Опыт OCR на линуксе
Опубликовано 2009-12-01 в 23:56
-
Подготовка файлов. Создаём каталоги
res
иocr
, разбираем PDF на страницы:pdftoppm -png file.pdf res/out
-
Подготовка страниц; нужно увеличить разрешение, подкорректировать яркость и контрастность для лучшего распознавания:
cd res FILES=`ls *.png` cd .. for f in $FILES; do convert -geometry 1000x -modulate 90 -gamma 0.9 -contrast -fx G res/$f ocr/$f.tif done
-
Распознавание
cuneiform out-014-g.tif -o out-014-g.tif.txt
Примечания¶
- без корректировки яркости и контрастности результат распознавания был ужасным;
- вывод в PNG почему-то вызывал сегфолт у
cuneiform
.