The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Релиз системы распознавания текста Tesseract 5.3.4

18.01.2024 20:11

Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные улучшения:

  • Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
  • В сервере ScrollView в качестве приоритетного протокола задействован TCP.
  • При использовании команды "combine_tessdata -d" обеспечен вывод в поток stdout вместо stderr.
  • Устранены проблемы со сборкой при использовании autoconf и clang.


  1. Главная ссылка к новости (https://github.com/tesseract-o...)
  2. OpenNews: Релиз системы распознавания текста Tesseract 5.2
  3. OpenNews: WatchOCR - LiveCD для развертывания серверов распознавания отсканированных документов
  4. OpenNews: Релиз системы распознавания текстов Cuneiform 1.1.0
  5. OpenNews: Выпуск системы распознавания текста GNU Ocrad 0.28
  6. OpenNews: Новая система оптического распознавания текста EasyOCR
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/60457-tesseract
Ключевые слова: tesseract, ocr
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (30) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 20:25, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +10 +/
    Линуксу не хватает распознавания текстов уровня FineReader
     
     
  • 2.2, Аноним (2), 20:31, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • –10 +/
    Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader
     
     
  • 3.3, Аноним (3), 20:42, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +7 +/
    > в инете

    а тут ничего никому загружать не нужно, всё работает _оффлайн_.

     
     
  • 4.5, Аноним (5), 20:45, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Без обучения все равно результат плохой.
     
  • 3.8, Аноним (1), 21:01, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.
     
     
  • 4.9, Аноним (2), 21:09, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ты что-ли занимаешься? Или софт вместо тебя этим занимается?
     
     
  • 5.31, Прадед (?), 09:28, 20/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Недавно занимался распознаванием документа. Потом уснул..
     
     
  • 6.32, Аноним (-), 12:58, 20/01/2024 Скрыто ботом-модератором     [к модератору]
  • +/
     
  • 2.14, Матвей (??), 22:42, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
     
     
  • 3.19, onanim (?), 10:07, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +8 +/
    >     оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

    где скачать?

     
  • 2.27, Jh (?), 20:16, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.
     
     
  • 3.28, Jh (?), 20:18, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.
     
  • 3.29, Jh (?), 20:30, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой
     

  • 1.4, robot228 (?), 20:42, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.
     
     
  • 2.10, Quad Romb (ok), 21:14, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Fraktur очень медленно распознаёт по сравнению с FR15.
    На порядки медленнее. То есть от 200 до 400 раз медленнее.
     

  • 1.7, Аноним (7), 20:46, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.
     
  • 1.11, paulus (ok), 21:26, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?
     
     
  • 2.12, Quad Romb (ok), 21:29, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Могёт.
    Если нет особо сложной вёрстки - даже вполне пристойно могёт.
    Но очень-очень не спеша.
    Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.
     
  • 2.13, Аноним (13), 22:38, 18/01/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.
     

  • 1.15, Аноним (15), 22:49, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.
     
     
  • 2.18, Тот_Самый_Анонимус_ (?), 10:01, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +3 +/
    После файнридера приводить текст к единому стилю — то ещё удовольствие.
     

  • 1.16, Аноним (15), 22:52, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    > Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.

    Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.

     
  • 1.20, Ильч (?), 10:44, 19/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?
     
  • 1.23, Аноним (23), 13:44, 19/01/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!
     
     
  • 2.24, Аноним (24), 15:06, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.

    Ещё два момента:
    — В Tesseract тоже завезли нейронки
    — PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.

     
     
  • 3.25, Бывалый смузихлёб (?), 15:54, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Если языковой барьер не мешает, то пожалуйста.

    Онлайн-переводчики уже запретили ?

     
     
  • 4.26, Аноним (24), 16:10, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.
     
  • 3.30, cat666 (ok), 21:22, 19/01/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.
     
     
  • 4.33, Аноним (33), 15:25, 20/01/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Китайцы безусловно молодцы, факт.

    > Всё остальное просто нервно курит в сторонке по качеству распознавания.

    Само-собой, нейронки нещадно нагибают классический подход.

    > Я собирал на C++ и библиотеку и программу распознавания.

    cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.

    > Много документации на английском

    Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?

    Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.

    В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру