XPoseImageCaptioner

Autores: Christopher Millsap
descargar versión de desarrollo

Este complemento puede crear un rótulo descriptivo de cualquier imagen JPG o PNG en el explorador de archivos, Microsoft Edge, Google Chrome y Firefox. Lo hace utilizando inteligencia artificial y y presenta la descripción en una ventana de tal forma que se pueda examinar el texto del rótulo, así como verbalizarlo.

Modo de uso

Primero, selecciona un archivo de imagen en el explorador de archivos o en un navegador web. Se soportan Chrome, Edge y Firefox. Con la imagen seleccionada, pulsa NVDA+x. El complemento responderá diciendo "rotulando, espera por favor..." mientras el módulo de inteligencia artificial analiza la imagen y la rotula. Dependiendo de la velocidad de tu procesador, el rotulado puede tardar de dos a cinco segundos. Después de completar el rotulado, se abrirá una ventana con el título de la imagen y este se leerá. Cuando acabes de explorar el título, puedes pulsar escape para cerrar la ventana de rotulado.

Sacar el máximo partido de XPoseImageCaptioner

Se deben tener en cuenta varias cosas al usar XPoseImageCaptioner para obtener los mejores resultados:

El rotulado de XPoseImageCaptioner funciona mejor con fotografías, dibujos animados y otras obras de arte. También funciona bastante bien con memes y anuncios. No funciona bien con gráficas y no es un sustituto de un OCR. Si tienes una imagen de un documento de texto, utiliza un complemento de OCR en lugar de XPoseImageCaptioner.
El rotulado mediante IA puede decir qué hay en una imagen, pero no por qué está ahí. El texto alternativo debería seguir usándose para averiguar el contexto de una imagen. Por ejemplo, puedes ver una imagen en un sitio web de noticias con el texto alternativo "Un general testifica en una audiencia del congreso sobre el presupuesto militar", y la descripción de la IA puede ser algo como "Un hombre con uniforme militar habla a un micrófono sentado en una sala con paneles de madera". La IA te dice lo que hay en la imagen, pero el texto alternativo debería idealmente contar por qué está ahí.
La red neuronal BLIP, en la que se basa el complemento XPoseImageCaptioner, sólo puede devolver texto en inglés. Volver a entrenar el modelo para que soporte idiomas distintos al inglés no es factible en este momento.
Aunque los títulos producidos están muy cercanos al estado del arte de la descripción de imágenes con IA, no son siempre precisos al 100%. Usa el complemento con cuidado y sentido común y nunca para sustituir un OCR. No confíes en el contenido en situaciones peligrosas o de alto riesgo.
Actualmente, XPoseImageCaptioner sólo funciona en sitios web que no requieren inicio de sesión. Por ejemplo, las páginas públicas de organizaciones como Guiding Eyes for the Blind o CNN. No se soportan todavía las páginas que requieren iniciar sesión, como Facebook o Twitter, porque el complemento necesita descargar la imagen del sitio web para describirla y no puede hacerlo si hay que iniciar sesión. Como solución temporal, se puede descargar una imagen de cualquier sitio web que requiera iniciar sesión en el equipo local y reconocerla con el complemento usando el explorador de archivos.
XPoseImageCaptioner sólo funciona en Firefox cuando la imagen no tiene texto alternativo. Firefox no proporciona un enlace directo al archivo de imagen a los lectores de pantalla si dicha imagen tiene texto alternativo. Sin esta información, el complemento no puede descargar la imagen para que la IA la describa. Chrome y Microsoft Edge no tienen esta limitación, y funcionan independientemente de que la imagen tenga o no tenga texto alternativo.

Copyright:

He aprendido mucho del complemento OCR NAO en términos de cómo trata con el explorador de archivos de Windows en NVDA. Gracias a Alessandro Albano, Davide De Carne, y Simone Dal Maso por su trabajo en ese complemento. Además, XPoseImageCaptioner usa los modelos de red neuronal BLIP y el código de Salesforce.com, pero no está afiliado ni respaldado por salesforce.com de forma alguna.

Licencia

Licenciado bajo la licencia BSD de 3 cláusulas. Este complemento no cuenta con el respaldo de salesforce.com en modo alguno.

https://github.com/cmillsap/XPoseImageCaptioner/releases/download/v0.8.4/XPoseImage.Captioner-0.8.4.nvda-addon