TesseractOCR: Un complemento de OCR

Autores: Rui Fontes, Ângelo Abrantes y Abel Passos do Nascimento Jr.
Actualizado el 04/05/2023
Descargar versión estable
Compatibilidad: de NVDA 2019.3 en adelante

Información

Este complemento usa el motor gratuito y de código abierto TesseractOCR para realizar reconocimiento óptico de caracteres en archivos de imagen, PDF, JPG, Tiff u otros, sin necesidad de abrirlos.

También permite acceder a escáneres compatibles con WIA para pasar el OCR a documentos en papel.

En el menú NVDA, Preferencias, se ha añadido una sección TesseractOCR, donde se puede configurar lo siguiente:

idiomas a usar durante el reconocimiento;
los tipos de documentos a reconocer;
si se debería solicitar una contraseña para los PDF. Si esta opción está marcada y el PDF no tiene contraseña, simplemente pulsa intro en el diálogo que pide la contraseña;
Elegir el escáner que se utilizará;
configurar la resolución del escáner entre 150 y 400 DPI.

Con la excepción de inglés y portugués, que vienen ya incluidos en el complemento, los otros idiomas se descargarán e instalarán cuando elijas un idioma que no exista ya en el complemento.

Ten en cuenta que a medida que aumenten los idiomas seleccionados para el reconocimiento, el proceso de OCR durará más.

Por lo tanto, recomendamos utilizar sólo los idiomas que necesites.

Ten en cuenta también que la calidad del reconocimiento puede variar en función del orden de los idiomas.

Por lo tanto, si el resultado del reconocimiento no es satisfactorio, puedes probar a ordenar los idiomas de otra manera.

Atajos

Los atajos por defecto son:

Windows+control+r - Reconocer documento seleccionado;
Windows+control+w - Escanear y reconocer un documento desde el escáner;
Windows+control+c - Cancelar el proceso de escaneo.

¡Ten en cuenta que debes pulsarlo antes de que aparezca el diálogo preguntando si quieres escanear más páginas!

Después, espera a que aparezca el mensaje explorable con el texto reconocido.

Si quieres preservar el texto reconocido, no olvides guardarlo en alguna carpeta, ¡ya que los resultados se eliminan al iniciar el siguiente proceso de OCR!

Estas órdenes se pueden modificar en el diálogo "Gestos de entrada", en la sección "TesseractOCR".

Problemas conocidos

Al elegir la opción "varios" en el cuadro combinado "Tipo de documentos", el texto reconocido probablemente aparecerá con muchas líneas en blanco

Este es un problema conocido de Tesseract, y, sin consumir un montón de tiempo de procesamiento, todavía no he dado con ninguna solución. Sin embargo, ¡aún no me he rendido!

Idiomas soportados

Los idiomas soportados en esta versión son:

Africano
Albanés
Amárico
Árabe
Armenio
Asamés
Acerbayano (latino)
Vasco
Bielorruso
Bengalí
Bosnio
Bretón
Búlgaro
Birmano
Catalán / Valenciano
Cebuano
Cherokee
Chino simplificado
Chino tradicional
Corso
Croata
Checo
Danés
Alemán
Dhivehi
Holandés
Dzongkha
Inglés
Esperanto
Estonio
Feroés
Filipino
Finés
Francés
Gallego
Georgiano
Griego
Guyaratí
Haitiano
Hebreo
Hindi
Húngaro
Islandés
Indonesio
Inuktitut
Irlandés
Italiano
Javanés
Japonés
Canarés
Cazajo
Khmer (Central)
Quirguís
Coreano
Kurmanji curdo
Lao
Latín
Letonio
Lituano
Luxemburgués
Macedonio
Malayo
Malayalam
Maltés
Maorí
Marathi
Módulo de detección de matemáticas y ecuaciones
Mongol
Nepalí
Noruego
Occitano
Oriya
Panyabí
Pastún
Persa
Polaco
Portugués
Quechua
Rumano / Moldavo
Ruso
Sánscrito
Gaélico escocés
Serbio (latino)
Eslovaco)
Esloveno)
Sindhi
Cingalés
Español
Sundanés
Swahili
Sueco
Siríaco
Tayico
Tamil
Tártaro
Telugu
Tailandés
Tibetano
Tigrinya
Tonga
Turco
Uighur
Ucraniano
Urdu
Uzbeco (latino)
Vietnamita
Galés
Frisiano occidental
Yidis
Yoruba

Tipos de imagen soportados

Este complemento soporta los siguientes tipos de archivos:

PDF
jpg
tif
png
bmp
pnm
pbm
pgm
jp2
gif
jfif
jpeg
tiff
spix
webp