Описание на изображения с XPose (XPoseImageCaptioner)

Тази добавка може да генерира описателен текст за всяко JPG или PNG изображение във File Explorer, Microsoft Edge, Google Chrome и Firefox. Тя прави това с помощта на машинно обучение и представя описанието в прозорец, така че текстът на описанието да може да бъде прегледан, както и да бъде прочетен.

Употреба

Първо изберете файл с изображение в Windows File Explorer или в уеб браузър. Поддържат се Chrome, Edge и Firefox. С избраното изображение натиснете NVDA+X. Добавката ще отговори с "Описва се. Моля, изчакайте...", докато изображението се анализира от модула за машинно обучение и се добавя описание. В зависимост от скоростта на процесора на вашата машина, описването ще отнема между две и пет секунди. След като описването завърши, ще се отвори прозорец с описанието на изображението и описанието ще бъде прочетено. Когато приключите с прегледа на описанието, можете да натиснете Escape, за да затворите прозореца на описанието.

Извличане на максимума от описанието на изображения с XPose

Има няколко неща, които трябва да знаете, когато използвате "Описание на изображения с XPose", за да получите най-добри резултати:

  1. "Описание на изображения с XPose" работи най-добре за снимки и карикатури или други произведения на изкуството. Също така може да работи доста добре за мемета и реклами. Не работи добре за диаграми и не е заместител на OCR. Ако имате изображение на текстов документ, използвайте добавка за OCR вместо "Описание на изображения с XPose".
  2. Описването посредством ИИ може да ви каже какво има в изображението, но не може да ви каже защо е там. Алтернативният (ALT) текст все още трябва да се използва, за да разберете за контекста на изображението. Например, на новинарски сайт може да видите изображение с алтернативен текст "генерал дава показания на изслушване в Конгреса относно военния бюджет". Описанието от ИИ може да бъде нещо като "мъж в официална военна униформа говори в микрофон стоейки в стая с дървена ламперия". Описанието от ИИ ви казва какво има в изображението, но алтернативният текст в идеалния случай трябва да ви каже защо е там.
  3. Невронната мрежа BLIP, на която се основава добавката "Описание на изображения с XPose", може да извежда текст само на английски. Допълнителното обучаване на модела за поддръжка на езици, различни от английски, не е осъществимо в момента.
  4. Докато генерираните описания в момента са много близки до най-съвременните за ИИ описания на изображения, те не винаги са 100% точни. Моля, използвайте с повишено внимание и здрав разум и никога вместо OCR. Освен това не разчитайте на резултата за опасни или високорискови ситуации.
  5. В момента "Описание на изображения с XPose" работи за уеб сайтове, които не изискват влизане. Например публичните страници на организации като Guiding Eyes for the Blind или CNN. Страници, които изискват влизане, като Facebook или Twitter, все още не се поддържат, тъй като добавката трябва да изтегли изображение от уеб сайта независимо, за да го опише, и не може да го направи, ако се изисква влизане. Като заобиколно решение всяко изображение от сайтове, изискващи влизане, може да бъде изтеглено на локалната машина и да бъде описано с помощта на добавката във File Explorer.
  6. "Описание на изображения с XPose" работи с FireFox, само когато изображението няма алтернативен (ALT) текст. FireFox не предоставя директна връзка към файл с изображение към екранния четец, ако изображението има алтернативен (ALT) текст. Без тази информация добавката не може да изтегли изображението за да го опише чрез ИИ. Chrome и Microsoft Edge нямат това ограничение и работят независимо дали дадено изображение има алтернативен (ALT) текст или не.

Авторски права

Запазено право (c) 2023 Christopher Millsap

Научих много от добавката NAO OCR по отношение на това как работи с Windows File Explorer в NVDA. Благодарности на Alessandro Albano, Davide De Carne и Simone Dal Maso за работата им по тази добавка. Освен това "Описание на изображения с XPose" използва услугите и кода на невронната мрежа BLIP от Salesforce.com, но не е обвързана с или подкрепяна от Salesforce.com по никакъв начин.

Лиценз

Лицензирано съгласно лицензионните клаузи на BSD 3. Тази добавка не е подкрепяна по никакъв начин от Salesforce.com.

https://github.com/cmillsap/XPoseImageCaptioner/releases/download/v0.8.4/XPoseImage.Captioner-0.8.4.nvda-addon