Обсуждение статьи тематического каталога: Как научить OCR Tesseraсt русскому языку. (ocr rus lang translate)Ссылка на текст статьи: http://www.opennet.me/base/rus/osr_tesseract_rus.txt.html
Достойно уважения. Так держать!
Так получается можно хорошенько потренировать программу, а потом выложить результат в инет и будет более-менее нормальная распознавалка для линукса
Совершенно верно!
Отличная статья
Спасибо! Но лучше всего, ИМХО, обучать всем вместе и выложить результат на оф.сайт...
Для этого уже и создана группа на Гугле
http://groups.google.com/group/tesseract-ocr-russian/Милости просим всех желающих!
В статье есть ошибка: лицензия, под которой распространяется код tesseract - это лицензия Apache версии 2.0, а не GPL.
Согласен, исправил.
А что группа сдохла???
Огромное спасибо Мужик! Затрахался читать английскую версию
в версии 3.01 собирается из всех файлов один , к примеру rus.trainddata , есть ли возможность дообучить существующий язык? Тоесть получить filename.tr из этого файла и уже добавить к нему свой ,тем самым расширить словарь или добавить новые шрифты.
Тоже интересен этот вопрос. Нашли решение?
Как вариант - не удалять .box, и при появлении новых образцов вместе с ними обновлять .traineddata