URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 132605
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 5.3.4"

Отправлено opennews , 18-Янв-24 20:25 
Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=60457


Содержание

Сообщения в этом обсуждении
"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:25 
Линуксу не хватает распознавания текстов уровня FineReader

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:31 
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:42 
> в инете

а тут ничего никому загружать не нужно, всё работает _оффлайн_.


"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:45 
Без обучения все равно результат плохой.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 21:01 
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 21:09 
Ты что-ли занимаешься? Или софт вместо тебя этим занимается?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Прадед , 20-Янв-24 09:28 
Недавно занимался распознаванием документа. Потом уснул..

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 20-Янв-24 12:58 
> Недавно занимался распознаванием документа. Потом уснул..

Хреновая и неэффективная нейросеть. Заменить на робота.


"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Матвей , 18-Янв-24 22:42 
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено onanim , 19-Янв-24 10:07 
>     оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

где скачать?


"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Jh , 19-Янв-24 20:16 
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Jh , 19-Янв-24 20:18 
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Jh , 19-Янв-24 20:30 
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено robot228 , 18-Янв-24 20:42 
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Quad Romb , 18-Янв-24 21:14 
Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:46 
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено paulus , 18-Янв-24 21:26 
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Quad Romb , 18-Янв-24 21:29 
Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 22:38 
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 22:49 
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Тот_Самый_Анонимус_ , 19-Янв-24 10:01 
После файнридера приводить текст к единому стилю — то ещё удовольствие.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 22:52 
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.

Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.


"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Ильч , 19-Янв-24 10:44 
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 19-Янв-24 13:44 
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 19-Янв-24 15:06 
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.

Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.


"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Бывалый смузихлёб , 19-Янв-24 15:54 
> Если языковой барьер не мешает, то пожалуйста.

Онлайн-переводчики уже запретили ?


"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 19-Янв-24 16:10 
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено cat666 , 19-Янв-24 21:22 
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 20-Янв-24 15:25 
Китайцы безусловно молодцы, факт.

> Всё остальное просто нервно курит в сторонке по качеству распознавания.

Само-собой, нейронки нещадно нагибают классический подход.

> Я собирал на C++ и библиотеку и программу распознавания.

cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.

> Много документации на английском

Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?

Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.

В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».