Опыт OCR на линуксе

Опубликовано 2009-12-01 в 23:56

Подготовка файлов. Создаём каталоги res и ocr, разбираем PDF на страницы:
```
pdftoppm -png file.pdf res/out
```
Подготовка страниц; нужно увеличить разрешение, подкорректировать яркость и контрастность для лучшего распознавания:
```
cd res
FILES=`ls *.png`
cd ..

for f in $FILES; do
    convert -geometry 1000x -modulate 90 -gamma 0.9 -contrast -fx G res/$f ocr/$f.tif
done
```

Распознавание

cuneiform out-014-g.tif -o out-014-g.tif.txt

Текст комментария (допустимая разметка: *курсив*, **полужирная**, [ссылка](http://example.com) или <http://example.com>) Посетители-анонимы, обратите внимение, что более чем одна гиперссылка в тексте (включая оную из поля «веб-сайт») приведёт к блокировке комментария для модерации. Зайдите на сайта с использованием аккаунта на twitter, например, чтобы посылать комментарии без этого ограничения.
Имя (обязательно, 50 символов или меньше)
Опциональный email, на который получать ответы (не будет опубликован): Подписаться на ответы
Веб-сайт