TesseractOCR: Дополнение для распознавания текста

  • Авторы: Rui Fontes, Ângelo Abrantes и Abel Passos do Nascimento Jr.
  • Обновлено 04/05/2023
  • Загрузить стабильную версию
  • Совместимость: NVDA 2019.3 и выше

Информация

Это дополнение использует бесплатный OCR-движок Tesseract с открытым исходным кодом для выполнения оптического распознавания символов в графическом файле PDF, JPG, TIF или другом без необходимости его открытия.

Оно также позволяет получить доступ к сканерам с поддержкой WIA для распознавания текста бумажных документов.

В меню настроек NVDA добавлен раздел TesseractOCR, в котором вы можете настроить следующее:

  • языки, которые будут использоваться при распознавании;
  • тип документов, которые должны быть распознаны;
  • следует ли запрашивать пароль для PDF-файла. Если у вас установлен этот флажок, а пароль для PDF-файла отсутствует, просто нажмите Enter в диалоге с запросом пароля;
  • Выберите сканер, который будет использоваться;
  • установите разрешение сканера в диапазоне от 150 до 400 точек на дюйм.

За исключением английского и португальского языков, которые уже включены в дополнение, остальные языки будут загружены и установлены, когда вы выберете язык, которого ещё нет в дополнении.

Обратите внимание, что по мере увеличения числа выбранных языков распознавания процесс распознавания будет занимать больше времени.

Поэтому мы рекомендуем вам использовать только те языки, которые вам нужны.

Обратите также внимание, что качество распознавания может варьироваться в зависимости от порядка использования языков.

Поэтому, если результат распознавания окажется неудовлетворительным, вы можете попробовать выполнить запрос на другом языке.

Горячие клавиши

По умолчанию используются следующие команды:

  • Windows+Control+r - чтобы распознать выбранный документ;
  • Windows+Control+w - для сканирования и распознавания документа с помощью сканера;
  • Windows+Control+c - Чтобы отменить процесс сканирования.

Пожалуйста, обратите внимание: оно должно быть оформлено до того, как появится диалог с запросом о том, хотите ли вы отсканировать больше страниц!

Затем просто подождите, пока появится доступное для просмотра сообщение с распознанным текстом.

Если вы хотите сохранить распознанный текст, не забудьте сохранить его в другой папке, так как результаты будут удалены при запуске следующего процесса распознавания!

Эти команды можно изменить в диалоге "Жесты ввода" в разделе "TesseractOCR".

Известные проблемы

При выборе опции "Разные" в выпадающем списке "Тип документов" распознанный текст, вероятно, будет содержать много пустых строк

Это известная проблема с Tesseract, и, не тратя много времени на обработку, я пока не нашел никакого решения. Но я всё ещё не сдался!

Поддерживаемые языки

Поддерживаемыми языками в этой версии являются:

  • Африкаанс
  • Албанский
  • Амхарский
  • Арабский
  • Армянский
  • Ассамский
  • Азербайджанский (латиница)
  • Basque
  • Белорусский
  • Бенгальский
  • Боснийский
  • Бретонский
  • Болгарский
  • Бернский
  • Каталонский/валенсийский
  • Cebuano
  • Чероки
  • Китайский упрощённый
  • Китайский традиционный
  • Корсиканский
  • Хорватский
  • Чешский
  • Датский
  • Немецкий
  • Дивехи
  • Голландский (фламандский)
  • Дзонгкха
  • Английский
  • Эсперанто
  • Эстонский
  • Фарерский
  • Филиппинский
  • Финский
  • Французский
  • Галисийский
  • Грузинский
  • Греческий
  • Гуджарати
  • Гаитянский
  • Иврит
  • Хинди
  • Венгерский
  • Исландский
  • Индонезийский
  • Inuktitut
  • Ирландский
  • Итальянский
  • Яванский
  • Японский
  • Каннада
  • Казахский
  • Кхмерский (центральный)
  • Киргизский
  • Корейский
  • Курдский курманджи
  • Lao
  • Латинский
  • Лативия
  • Литовский
  • Люксембургский
  • Македонский
  • Малайский
  • Malayalam
  • Мальтийский
  • Маори
  • Маратхи
  • Модуль определения математики / уравнений
  • Монгольский
  • Непальский
  • Норвежский
  • Occitan
  • Ория
  • Панджаби
  • Пушту
  • Персидский
  • Польский
  • Португальский
  • Quechua
  • Румынский/молдавский
  • Русский
  • Санскрит
  • Шотландский гэльский
  • Сербский (латиница)
  • Slovak)
  • Словенский)
  • Синдхи
  • Сингальский
  • Испанский
  • Сунданский
  • Суахили
  • Шведский
  • Сирийский
  • Таджикский
  • Тамильский
  • Татарский
  • Телугу
  • Тайский
  • Тибетский
  • Тигринья
  • Тонга
  • Турецкий
  • Уйгурский
  • Украинский
  • Урду
  • Узбекский (латиница)
  • Вьетнамский
  • Валлийский
  • Западно-фризский
  • Идиш
  • Йоруба

Поддерживаемые типы изображений

Это дополнение поддерживает следующие типы файлов:

  • PDF
  • jpg
  • tif
  • png
  • bmp
  • pnm
  • pbm
  • pgm
  • jp2
  • gif
  • jfif
  • jpeg
  • tiff
  • spix
  • webp