“TesseractOCR:

  • Autores: Rui Fontes, Ângelo Abrantes e Abel Passos do Nascimento Jr.
  • Atualizado em 04/05/2023
  • Download versão estável
  • Compatibilidade: NVDA versão 2019.3 e posteriores

Informação

Esse complemento usa o mecanismo de OCR Tesseract, gratuito e de código aberto, para realizar o reconhecimento óptico de caracteres em um arquivo de imagem, PDF, JPG, TIF ou outro, sem a necessidade de abri-lo.

Ele também permite o acesso a scanners habilitados para WIA para realizar OCR em um documento impresso.

No menu NVDA, Preferências, é adicionada uma seção TesseractOCR, na qual é possível configurar o seguinte:

  • idiomas a serem usados no reconhecimento;
  • o tipo de documentos a serem reconhecidos;
  • se deve ou não ser solicitada uma senha para o PDF. Se essa opção estiver marcada e o PDF não tiver uma senha, basta pressionar Enter na caixa de diálogo que solicita a senha;
  • Selecione o scanner a ser usado;
  • defina a resolução do scanner entre 150 e 400 dpi.

Com exceção do inglês e do português, que já estão incluídos no complemento, os outros idiomas serão baixados e instalados quando você selecionar um idioma que ainda não exista no complemento.

Note que, à medida que o número de idiomas de reconhecimento selecionados aumenta, o processo de OCR será mais demorado.

Portanto, recomendamos que você use apenas os idiomas necessários.

Note também que a qualidade do reconhecimento pode variar de acordo com a ordem dos idiomas.

Portanto, se o resultado do reconhecimento não for satisfatório, talvez você queira tentar ordenar outro idioma.

Atalho

Os comandos padrão são:

  • Windows+Control+r - para reconhecer o documento selecionado;
  • Windows+Control+w - para digitalizar e reconhecer um documento pelo scanner;
  • Windows+Control+c - Para cancelar o processo de digitalização.

Por favor Note: ela deve ser emitida antes que apareça a caixa de diálogo perguntando se você deseja digitalizar mais páginas!

Em seguida, basta aguardar a mensagem navegável aparecer com o texto reconhecido.

Se quiser preservar o texto reconhecido, não se esqueça de salvá-lo em alguma pasta, pois os resultados são excluídos no início do próximo processo de OCR!

Esses comandos podem ser modificados na caixa de diálogo “Gestos de entrada" na seção “TesseractOCR”.

Problemas conhecidos

Quando selecionar a opção “Vários” na caixa de combinação “Tipo de documentos”, o texto reconhecido provavelmente aparecerá com muitas linhas em branco

Esse é um problema conhecido do Tesseract e, sem consumir muito tempo de processamento, ainda não encontrei nenhuma solução. Mas ainda não desisti!Se deve ou não ser solicitada uma senha para o PDF. Se essa opção estiver marcada e o PDF não tiver uma senha, basta pressionar Enter na caixa de diálogo que solicita a senha!

Idiomas suportados

Os idiomas suportados nesta versão são:

  • Africano
  • Albanês
  • Amharik
  • Árabe
  • Armênio
  • Assamês
  • Azerbaijano (latim)
  • Basco
  • Bielorrusso
  • Bengali
  • Bósnio
  • Bretão
  • Búlgaro
  • Burnese
  • Catalão/Valenciano
  • Cebuano
  • Cherokee
  • Chinês simplificado
  • Chinês tradicional
  • Córsega
  • Croata
  • Tcheco
  • Dannish
  • Deutch
  • Dhivehi
  • Dutch (Flemish)
  • Dzongkha
  • Inglês
  • Esperanto
  • Estonian
  • Faroese
  • Filipino
  • Finnish
  • Francês
  • Galician
  • Georgian
  • Greek
  • Gujarati
  • Haitian
  • Hebrew
  • Hindi
  • Hungarian
  • Icelandic
  • Indonesian
  • Inuktitut
  • Irish
  • Italiano
  • Javanese
  • Japonês
  • Canadense
  • Kazakh
  • Khmer (Central)
  • Kirghiz
  • Coreano
  • Kurdish Kurmanji
  • Lao
  • Latino
  • Lativia
  • Lituanian
  • Luxembourgish
  • Macedonian
  • Malay
  • Malayalam
  • Maltese
  • Maori
  • Marathi
  • Math / equation detection module
  • Mongolian
  • Nepali
  • Norwegian
  • Occitan
  • Oriya
  • Panjabi
  • Pashto
  • Persian
  • Polish
  • Português
  • Quechua
  • Romanian/Moldave
  • Russo
  • Sanskrit
  • Scottish Gaelic
  • Serbian (Latin)
  • Slovak)
  • Slovenian)
  • Sindhi
  • Sinhalese
  • Espanhol
  • Sundanese
  • Swahili
  • Swedish
  • Syriac
  • Tajik
  • Tamil
  • Tatar
  • Telugu
  • Thai
  • Tibetan
  • Tigrinya
  • Tonga
  • Turco
  • Uighur
  • Ucraniano
  • Urdu
  • Uzbek (Latin)
  • Vietinamita
  • Welsh
  • West Frisian
  • Yiddish
  • Yoruba

Tipos de imagem suportados

Esse complemento é compatível com os seguintes tipos de arquivos:

  • PDF
  • jpg
  • tif
  • png
  • bmp
  • pnm
  • pbm
  • pgm
  • jp2
  • gif
  • jfif
  • jpeg
  • tiff
  • spix
  • webp