“TesseractOCR:

Autores: Rui Fontes, Ângelo Abrantes e Abel Passos do Nascimento Jr.
Atualizado em 04/05/2023
Download versão estável
Compatibilidade: NVDA versão 2019.3 e posteriores

Informação

Esse complemento usa o mecanismo de OCR Tesseract, gratuito e de código aberto, para realizar o reconhecimento óptico de caracteres em um arquivo de imagem, PDF, JPG, TIF ou outro, sem a necessidade de abri-lo.

Ele também permite o acesso a scanners habilitados para WIA para realizar OCR em um documento impresso.

No menu NVDA, Preferências, é adicionada uma seção TesseractOCR, na qual é possível configurar o seguinte:

idiomas a serem usados no reconhecimento;
o tipo de documentos a serem reconhecidos;
se deve ou não ser solicitada uma senha para o PDF. Se essa opção estiver marcada e o PDF não tiver uma senha, basta pressionar Enter na caixa de diálogo que solicita a senha;
Selecione o scanner a ser usado;
defina a resolução do scanner entre 150 e 400 dpi.

Com exceção do inglês e do português, que já estão incluídos no complemento, os outros idiomas serão baixados e instalados quando você selecionar um idioma que ainda não exista no complemento.

Note que, à medida que o número de idiomas de reconhecimento selecionados aumenta, o processo de OCR será mais demorado.

Portanto, recomendamos que você use apenas os idiomas necessários.

Note também que a qualidade do reconhecimento pode variar de acordo com a ordem dos idiomas.

Portanto, se o resultado do reconhecimento não for satisfatório, talvez você queira tentar ordenar outro idioma.

Atalho

Os comandos padrão são:

Windows+Control+r - para reconhecer o documento selecionado;
Windows+Control+w - para digitalizar e reconhecer um documento pelo scanner;
Windows+Control+c - Para cancelar o processo de digitalização.

Por favor Note: ela deve ser emitida antes que apareça a caixa de diálogo perguntando se você deseja digitalizar mais páginas!

Em seguida, basta aguardar a mensagem navegável aparecer com o texto reconhecido.

Se quiser preservar o texto reconhecido, não se esqueça de salvá-lo em alguma pasta, pois os resultados são excluídos no início do próximo processo de OCR!

Esses comandos podem ser modificados na caixa de diálogo “Gestos de entrada" na seção “TesseractOCR”.

Problemas conhecidos

Quando selecionar a opção “Vários” na caixa de combinação “Tipo de documentos”, o texto reconhecido provavelmente aparecerá com muitas linhas em branco

Esse é um problema conhecido do Tesseract e, sem consumir muito tempo de processamento, ainda não encontrei nenhuma solução. Mas ainda não desisti!Se deve ou não ser solicitada uma senha para o PDF. Se essa opção estiver marcada e o PDF não tiver uma senha, basta pressionar Enter na caixa de diálogo que solicita a senha!

Idiomas suportados

Os idiomas suportados nesta versão são:

Africano
Albanês
Amárico
Árabe
Armênio
Assamês
Azerbaijano (latim)
Basco
Bielorrusso
Bangladesh
Bósnio
Bretão
Búlgaro
Birmanês
Catalão/Valenciano
Cebuano
Cherokee
Chinês simplificado
Chinês tradicional
Córsega
Croata
Tcheco
Dinamarquês
Deutch
Dívehi
Neerlandês (flamengo)
Dzongkha
Inglês
Esperanto
Estoniano
Faroês
Filipino
Finlandês
Francês
Galego
Georgiano
Grego
Gujarati
Haitiano
Hebraico
Hindi
Húngaro
Islandês
Indonésio
Inuktitut
Irlandês
Italiano
Javanês
Japonês
Canadense
Cazaque
Quemer (Central)
Quirguiz
Coreano
Curdo Kurmanji
Laosiano
Latino
Letônia
Lituano
Luxemburguês
Macedônio
Malaio
Malaiala
Maltês
Maori
Marathi
Math / equation detection module
Mongolian
Nepali
Norwegian
Occitan
Oriya
Panjabi
Pashto
Persian
Polish
Português
Quechua
Romanian/Moldave
Russo
Sanskrit
Scottish Gaelic
Serbian (Latin)
Slovak)
Slovenian)
Sindhi
Sinhalese
Espanhol
Sundanese
Swahili
Swedish
Syriac
Tajik
Tamil
Tatar
Telugu
Thai
Tibetan
Tigrinya
Tonga
Turco
Uighur
Ucraniano
Urdu
Uzbek (Latin)
Vietinamita
Welsh
West Frisian
Yiddish
Yoruba

Tipos de imagem suportados

Esse complemento é compatível com os seguintes tipos de arquivos:

PDF
jpg
tif
png
bmp
pnm
pbm
pgm
jp2
gif
jfif
jpeg
tiff
spix
webp