TesseractOCR: Un complemento de OCR

  • Autores: Rui Fontes, Ângelo Abrantes y Abel Passos do Nascimento Jr.
  • Actualizado el 04/05/2023
  • Descargar versión estable
  • Compatibilidad: de NVDA 2019.3 en adelante

Información

Este complemento usa el motor gratuito y de código abierto TesseractOCR para realizar reconocimiento óptico de caracteres en archivos de imagen, PDF, JPG, Tiff u otros, sin necesidad de abrirlos.

También permite acceder a escáneres compatibles con WIA para pasar el OCR a documentos en papel.

En el menú NVDA, Preferencias, se ha añadido una sección TesseractOCR, donde se puede configurar lo siguiente:

  • idiomas a usar durante el reconocimiento;
  • los tipos de documentos a reconocer;
  • si se debería solicitar una contraseña para los PDF. Si esta opción está marcada y el PDF no tiene contraseña, simplemente pulsa intro en el diálogo que pide la contraseña;
  • Elegir el escáner que se utilizará;
  • configurar la resolución del escáner entre 150 y 400 DPI.

Con la excepción de inglés y portugués, que vienen ya incluidos en el complemento, los otros idiomas se descargarán e instalarán cuando elijas un idioma que no exista ya en el complemento.

Ten en cuenta que a medida que aumenten los idiomas seleccionados para el reconocimiento, el proceso de OCR durará más.

Por lo tanto, recomendamos utilizar sólo los idiomas que necesites.

Ten en cuenta también que la calidad del reconocimiento puede variar en función del orden de los idiomas.

Por lo tanto, si el resultado del reconocimiento no es satisfactorio, puedes probar a ordenar los idiomas de otra manera.

Atajos

Los atajos por defecto son:

  • Windows+control+r - Reconocer documento seleccionado;
  • Windows+control+w - Escanear y reconocer un documento desde el escáner;
  • Windows+control+c - Cancelar el proceso de escaneo.

¡Ten en cuenta que debes pulsarlo antes de que aparezca el diálogo preguntando si quieres escanear más páginas!

Después, espera a que aparezca el mensaje explorable con el texto reconocido.

Si quieres preservar el texto reconocido, no olvides guardarlo en alguna carpeta, ¡ya que los resultados se eliminan al iniciar el siguiente proceso de OCR!

Estas órdenes se pueden modificar en el diálogo "Gestos de entrada", en la sección "TesseractOCR".

Problemas conocidos

Al elegir la opción "varios" en el cuadro combinado "Tipo de documentos", el texto reconocido probablemente aparecerá con muchas líneas en blanco

Este es un problema conocido de Tesseract, y, sin consumir un montón de tiempo de procesamiento, todavía no he dado con ninguna solución. Sin embargo, ¡aún no me he rendido!

Idiomas soportados

Los idiomas soportados en esta versión son:

  • Africano
  • Albanés
  • Amárico
  • Árabe
  • Armenio
  • Asamés
  • Acerbayano (latino)
  • Vasco
  • Bielorruso
  • Bengalí
  • Bosnio
  • Bretón
  • Búlgaro
  • Birmano
  • Catalán / Valenciano
  • Cebuano
  • Cherokee
  • Chino simplificado
  • Chino tradicional
  • Corso
  • Croata
  • Checo
  • Danés
  • Alemán
  • Dhivehi
  • Holandés
  • Dzongkha
  • Inglés
  • Esperanto
  • Estonio
  • Feroés
  • Filipino
  • Finés
  • Francés
  • Gallego
  • Georgiano
  • Griego
  • Guyaratí
  • Haitiano
  • Hebreo
  • Hindi
  • Húngaro
  • Islandés
  • Indonesio
  • Inuktitut
  • Irlandés
  • Italiano
  • Javanés
  • Japonés
  • Canarés
  • Cazajo
  • Khmer (Central)
  • Quirguís
  • Coreano
  • Kurmanji curdo
  • Lao
  • Latín
  • Letonio
  • Lituano
  • Luxemburgués
  • Macedonio
  • Malayo
  • Malayalam
  • Maltés
  • Maorí
  • Marathi
  • Módulo de detección de matemáticas y ecuaciones
  • Mongol
  • Nepalí
  • Noruego
  • Occitano
  • Oriya
  • Panyabí
  • Pastún
  • Persa
  • Polaco
  • Portugués
  • Quechua
  • Rumano / Moldavo
  • Ruso
  • Sánscrito
  • Gaélico escocés
  • Serbio (latino)
  • Eslovaco)
  • Esloveno)
  • Sindhi
  • Cingalés
  • Español
  • Sundanés
  • Swahili
  • Sueco
  • Siríaco
  • Tayico
  • Tamil
  • Tártaro
  • Telugu
  • Tailandés
  • Tibetano
  • Tigrinya
  • Tonga
  • Turco
  • Uighur
  • Ucraniano
  • Urdu
  • Uzbeco (latino)
  • Vietnamita
  • Galés
  • Frisiano occidental
  • Yidis
  • Yoruba

Tipos de imagen soportados

Este complemento soporta los siguientes tipos de archivos:

  • PDF
  • jpg
  • tif
  • png
  • bmp
  • pnm
  • pbm
  • pgm
  • jp2
  • gif
  • jfif
  • jpeg
  • tiff
  • spix
  • webp