URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 132605
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено opennews , 18-Янв-24 20:25

Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0...
Подробнее: https://www.opennet.me/opennews/art.shtml?num=60457

Содержание

Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 20:25 , 18-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 20:31 , 18-Янв-24
  - Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 20:42 , 18-Янв-24
    - Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 20:45 , 18-Янв-24
  - Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 21:01 , 18-Янв-24
    - Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 21:09 , 18-Янв-24
      - Релиз системы распознавания текста Tesseract 5.3.4,Прадед, 09:28 , 20-Янв-24
        
        Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 12:58 , 20-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Матвей, 22:42 , 18-Янв-24
  - Релиз системы распознавания текста Tesseract 5.3.4,onanim, 10:07 , 19-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Jh, 20:16 , 19-Янв-24
  - Релиз системы распознавания текста Tesseract 5.3.4,Jh, 20:18 , 19-Янв-24
  - Релиз системы распознавания текста Tesseract 5.3.4,Jh, 20:30 , 19-Янв-24
Релиз системы распознавания текста Tesseract 5.3.4,robot228, 20:42 , 18-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Quad Romb, 21:14 , 18-Янв-24
Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 20:46 , 18-Янв-24
Релиз системы распознавания текста Tesseract 5.3.4,paulus, 21:26 , 18-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Quad Romb, 21:29 , 18-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 22:38 , 18-Янв-24
Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 22:49 , 18-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Тот_Самый_Анонимус_, 10:01 , 19-Янв-24
Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 22:52 , 18-Янв-24
Релиз системы распознавания текста Tesseract 5.3.4,Ильч, 10:44 , 19-Янв-24
Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 13:44 , 19-Янв-24
- Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 15:06 , 19-Янв-24
  - Релиз системы распознавания текста Tesseract 5.3.4,Бывалый смузихлёб, 15:54 , 19-Янв-24
    - Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 16:10 , 19-Янв-24
  - Релиз системы распознавания текста Tesseract 5.3.4,cat666, 21:22 , 19-Янв-24
    - Релиз системы распознавания текста Tesseract 5.3.4,Аноним, 15:25 , 20-Янв-24

Сообщения в этом обсуждении

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:25

Линуксу не хватает распознавания текстов уровня FineReader

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:31

Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:42

> в инете
а тут ничего никому загружать не нужно, всё работает _оффлайн_.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:45

Без обучения все равно результат плохой.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 21:01

Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 21:09

Ты что-ли занимаешься? Или софт вместо тебя этим занимается?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Прадед , 20-Янв-24 09:28

Недавно занимался распознаванием документа. Потом уснул..

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 20-Янв-24 12:58

> Недавно занимался распознаванием документа. Потом уснул..
Хреновая и неэффективная нейросеть. Заменить на робота.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Матвей , 18-Янв-24 22:42

Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено onanim , 19-Янв-24 10:07

> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
где скачать?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Jh , 19-Янв-24 20:16

tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Jh , 19-Янв-24 20:18

не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Jh , 19-Янв-24 20:30

И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено robot228 , 18-Янв-24 20:42

Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Quad Romb , 18-Янв-24 21:14

Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 20:46

Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено paulus , 18-Янв-24 21:26

Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Quad Romb , 18-Янв-24 21:29

Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 22:38

В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 22:49

Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Тот_Самый_Анонимус_ , 19-Янв-24 10:01

После файнридера приводить текст к единому стилю — то ещё удовольствие.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 18-Янв-24 22:52

> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Ильч , 19-Янв-24 10:44

Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 19-Янв-24 13:44

Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 19-Янв-24 15:06

Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.
Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Бывалый смузихлёб , 19-Янв-24 15:54

> Если языковой барьер не мешает, то пожалуйста.
Онлайн-переводчики уже запретили ?

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 19-Янв-24 16:10

Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено cat666 , 19-Янв-24 21:22

Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.

"Релиз системы распознавания текста Tesseract 5.3.4"
Отправлено Аноним , 20-Янв-24 15:25

Китайцы безусловно молодцы, факт.
> Всё остальное просто нервно курит в сторонке по качеству распознавания.
Само-собой, нейронки нещадно нагибают классический подход.
> Я собирал на C++ и библиотеку и программу распознавания.
cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.
> Много документации на английском
Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?
Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.
В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».