Как установить последнюю версию Tesseract OCR 5 в Ubuntu 20.04/18.04/22.04
В этом простом руководстве показано, как установить последнюю версию механизма OCR Tesseract во все текущие выпуски Ubuntu через PPA.
Tesseract — это наиболее точный механизм оптического распознавания символов с открытым исходным кодом, который считывает изображения самых разных форматов и преобразует их в текст на более чем 40 языках. Несколько дней назад был официально выпущен Tesseract 5.0.0, который включает в себя:
- Более быстрое обучение и производительность распознавания при меньшем использовании памяти за счет «быстрого раздувания».
- Поддержка новейших версий macOS и Apple Silicon.
- Улучшенная поддержка ARM/ARM64.
- Улучшения API и многое другое.
Как установить Tesseract OCR в Ubuntu:
Механизм оптического распознавания символов доступен в репозиториях Ubuntu, хотя он всегда устарел.
Благодаря Александру Позднякову, сопровождающему Tesseract OCR в официальном репозитории Debian/Ubuntu, он также поддерживает несколько PPA с последними пакетами. И большинство архитектур ЦП (amd64
, i386
, arm64
/armhf
, ppc64el
, s390x
).
Вариант 1. Добавьте PPA Tesseract 4.x.
Для последней версии Tesseract OCR 4 (на данный момент v4.1.3) стабильный PPA поддерживает пакеты для Ubuntu 18.04, Ubuntu 20.04, Ubuntu 21.10 и старая версия Ubuntu 16.04/14.04.
Нажмите Ctrl+Alt+T на клавиатуре, чтобы открыть терминал. Когда он откроется, выполните команду ниже, чтобы добавить PPA:
sudo add-apt-repository ppa:alex-p/tesseract-ocr
Введите пароль пользователя, когда он спросит (без визуальной обратной связи), и нажмите Enter, чтобы продолжить.
Вариант 2. Добавьте PPA Tesseract 5.
Новая серия выпусков 5.x доступна в другом PPA для Ubuntu 18.04, Ubuntu 20.04 и Ubuntu 22.04, 23.04.
Также нажмите Ctrl+Alt+T, чтобы открыть терминал и выполнить команду:
sudo add-apt-repository ppa:alex-p/tesseract-ocr5
ПРИМЕЧАНИЕ. установка OCR из этого PPA переопределит старые пакеты 4.x, хотя API не на 100 % совместим с версией 4.0.
Вариант 3. Добавьте репозиторий Tesseract для Debian:
Для Debian Stretch, Buster, Bulseye и Sid существуют подходящие репозитории как для Tesseract v4, так и для v5. Наряду с Ubuntu 21.10 пользователи могут перейти по ссылке ниже, чтобы добавить репозиторий:
Репозиторий Tesseract для Debian: https://notesalexp.org/tesseract-ocr/#tesseract_5.x
Обновите и установите Тессеракт:
После добавления PPA или репозитория из предыдущих вариантов запустите команду в терминале, чтобы обновить кеш системных пакетов, если вы все еще используете старую Ubuntu 18.04 и более ранние версии:
sudo apt update
И, наконец, установите программный движок с помощью команды:
sudo apt install tesseract-ocr
Или обновите пакет с помощью Software Updater:
Как удалить PPA и удалить Tesseract OCR:
Чтобы удалить PPA, либо запустите предыдущую команду add-apt-repository
с флагом --remove
, либо используйте утилиту Программное обеспечение и обновления в разделе «Другое». Вкладка «Программное обеспечение».
Чтобы удалить механизм OCR, используйте команду:
sudo apt remove --autoremove tesseract-ocr tesseract-ocr-*
Вы также можете удалить пакет libtesseract*
, однако при этом будут удалены другие пакеты приложений (например, gImageReader), которые от него зависят.