Поиск по сайту:

Как установить последнюю версию Tesseract OCR 5 в Ubuntu 20.04/18.04/22.04

В этом простом руководстве показано, как установить последнюю версию механизма OCR Tesseract во все текущие выпуски Ubuntu через PPA.

Tesseract — это наиболее точный механизм оптического распознавания символов с открытым исходным кодом, который считывает изображения самых разных форматов и преобразует их в текст на более чем 40 языках. Несколько дней назад был официально выпущен Tesseract 5.0.0, который включает в себя:

  • Более быстрое обучение и производительность распознавания при меньшем использовании памяти за счет «быстрого раздувания».
  • Поддержка новейших версий macOS и Apple Silicon.
  • Улучшенная поддержка ARM/ARM64.
  • Улучшения API и многое другое.

Как установить Tesseract OCR в Ubuntu:

Механизм оптического распознавания символов доступен в репозиториях Ubuntu, хотя он всегда устарел.

Благодаря Александру Позднякову, сопровождающему Tesseract OCR в официальном репозитории Debian/Ubuntu, он также поддерживает несколько PPA с последними пакетами. И большинство архитектур ЦП (amd64, i386, arm64/armhf, ppc64el , s390x).

Вариант 1. Добавьте PPA Tesseract 4.x.

Для последней версии Tesseract OCR 4 (на данный момент v4.1.3) стабильный PPA поддерживает пакеты для Ubuntu 18.04, Ubuntu 20.04, Ubuntu 21.10 и старая версия Ubuntu 16.04/14.04.

Нажмите Ctrl+Alt+T на клавиатуре, чтобы открыть терминал. Когда он откроется, выполните команду ниже, чтобы добавить PPA:

sudo add-apt-repository ppa:alex-p/tesseract-ocr

Введите пароль пользователя, когда он спросит (без визуальной обратной связи), и нажмите Enter, чтобы продолжить.

Вариант 2. Добавьте PPA Tesseract 5.

Новая серия выпусков 5.x доступна в другом PPA для Ubuntu 18.04, Ubuntu 20.04 и Ubuntu 22.04, 23.04.

Также нажмите Ctrl+Alt+T, чтобы открыть терминал и выполнить команду:

sudo add-apt-repository ppa:alex-p/tesseract-ocr5

ПРИМЕЧАНИЕ. установка OCR из этого PPA переопределит старые пакеты 4.x, хотя API не на 100 % совместим с версией 4.0.

Вариант 3. Добавьте репозиторий Tesseract для Debian:

Для Debian Stretch, Buster, Bulseye и Sid существуют подходящие репозитории как для Tesseract v4, так и для v5. Наряду с Ubuntu 21.10 пользователи могут перейти по ссылке ниже, чтобы добавить репозиторий:

Репозиторий Tesseract для Debian: https://notesalexp.org/tesseract-ocr/#tesseract_5.x

Обновите и установите Тессеракт:

После добавления PPA или репозитория из предыдущих вариантов запустите команду в терминале, чтобы обновить кеш системных пакетов, если вы все еще используете старую Ubuntu 18.04 и более ранние версии:

sudo apt update

И, наконец, установите программный движок с помощью команды:

sudo apt install tesseract-ocr

Или обновите пакет с помощью Software Updater:

Как удалить PPA и удалить Tesseract OCR:

Чтобы удалить PPA, либо запустите предыдущую команду add-apt-repository с флагом --remove, либо используйте утилиту Программное обеспечение и обновления в разделе «Другое». Вкладка «Программное обеспечение».

Чтобы удалить механизм OCR, используйте команду:

sudo apt remove --autoremove tesseract-ocr tesseract-ocr-*

Вы также можете удалить пакет libtesseract*, однако при этом будут удалены другие пакеты приложений (например, gImageReader), которые от него зависят.

Статьи по данной тематике