XPoseImageCaptioner

Cette extension peut créer une légende descriptive de toute image JPG ou PNG dans l'Explorateur de fichiers, Microsoft Edge, Google Chrome et Firefox. Il le fait en utilisant l'apprentissage automatique et présente la légende dans une fenêtre afin que le texte de la légende puisse être examiné ainsi que la parole du texte.

Utilisation

Tout d'abord, sélectionnez un fichier image dans l'Explorateur de fichiers de Windows ou dans un navigateur Web. Chrome, Edge et Firefox sont pris en charge. Avec l'image sélectionnée, appuyez sur NVDA+x. L'extension répondra par "Captioning, please wait..." car l'image est analysée par le module d'apprentissage automatique et sous-titrée. Selon la vitesse du processeur de votre machine, le sous-titrage prendra entre deux et cinq secondes. Une fois le sous-titrage terminé, une fenêtre s'ouvrira avec la légende de l'image et la légende sera lue. Lorsque vous avez fini de parcourir la légende, vous pouvez appuyer sur Échap pour fermer la fenêtre de légende.

Tirer le meilleur parti de XPoseImageCaptioner

Il y a plusieurs choses à savoir lors de l'utilisation de XPoseImageCaptioner pour obtenir les meilleurs résultats :

  1. Le sous-titrage XPoseImageCaptioner fonctionne mieux pour les photographies et les caricatures ou d'autres illustration. Il peut également fonctionner assez bien pour les mèmes et les publicités. Il ne fonctionne pas bien pour les graphiques et ne remplace pas l'OCR. Si vous avez une image d'un document texte, utilisez une extension OCR plutôt que le XPoseImageCaptioner.
  2. Le sous-titrage de l'IA peut vous dire ce qu'il y a dans une image mais ne peut pas vous dire pourquoi il est là. Le texte ALT doit toujours être utilisé pour découvrir le contexte d'une image. Par exemple, sur un site d'information, vous pouvez voir une image avec le texte ALT "Un général donne un témoignage dans une audition du Congrès sur le budget militaire", la légende de l'IA pourrait être quelque chose comme "Un homme dans un uniforme militaire formel parle dans un microphone alors qu'il était assis dans une pièce en lambris en bois". La légende de l'IA vous dit ce qu'il y a dans l'image, mais le texte ALT devrait idéalement vous dire pourquoi c'est là.
  3. Le réseau neuronal BLIP, sur lequel est basé l'extension XPoseImageCaptioner, ne peut sortir que du texte anglais. Le recyclage du modèle pour supporter les langues autres que l'anglais n'est pas possible pour le moment.
  4. Bien que les légendes produites soient actuellement très proches de l'état de l'art pour le sous-titrage de l'IA des images, elles ne sont pas toujours précises à 100%. Veuillez utiliser avec prudence et bon sens et jamais à la place de l'OCR. De plus, ne comptez pas sur la production pour des situations dangereuses ou à haut risque.
  5. Actuellement, XPoseImageCaptioner fonctionne pour des sites Web qui ne nécessitent pas de connexion. Par exemple, les pages publiques d'organisations telles que Guiding Eyes for the Blind ou CNN. Les pages qui nécessitent une connexion, telle que Facebook ou Twitter, ne sont pas encore prises en charge car l'extension doit télécharger une image du site Web indépendamment pour le légendre et ne peut pas le faire si une connexion est requise. En tant que solution de contournement, toute image des sites nécessitant une connexion peut être téléchargée sur la machine locale et sous-titrée à l'aide de l'extension dans l'Explorateur de fichiers.
  6. XPoseImageCaptioner ne fonctionne que sur Firefox lorsqu'une image n'a pas de texte ALT. Firefox ne fournit pas de lien direct vers un fichier image vers un lecteur d'écran si une image a un texte ALT. Sans ces informations, l'extension ne peut pas télécharger l'image de l'IA vers la légende. Chrome et Microsoft Edge n'ont pas cette limitation, et fonctionne, qu'il ait ou non un texte ALT ou non.

Copyright :

Copyright (c) 2023 Christopher Millsap

J'ai beaucoup appris de l'extension NAO OCR en termes de gestion de l'Explorateur de fichiers de Windows dans NVDA. Merci à Alessandro Albano, Davide de Carne et Simone Dal Maso pour leur travail sur cette extension. En outre, XPoseImageCaptioner utilise les poids et le code du réseau neuronal de BLIP par Salesforce.com, mais n'est pas affilié ou approuvé par Salesforce.com.

Licence

Sous licence de la BSD 3 Clause License. Cette extension n'est pas approuvé par Salesforce.com.

https://github.com/cmillsap/XPoseImageCaptioner/releases/download/v0.8.4/XPoseImage.Captioner-0.8.4.nvda-addon