XPoseImageCaptioner

Авторы: Christopher Millsap
загрузить разрабатываемую версию

Это дополнение может создавать описание к любому изображению в формате JPG или PNG в проводнике файлов, Microsoft Edge, Google Chrome и Firefox. Оно делает это с помощью машинного обучения и отображает подпись в окне, чтобы можно было не только прочитать текст, но и произнести его вслух.

Ийспользование

Сначала выберите файл изображения в проводнике Windows или в веб-браузере. Поддерживаются Chrome, Edge и Firefox. Выбрав изображение, нажмите NVDA+x. модуль машинного обучения проанализирует изображение и добавит к нему подписи. В зависимости от скорости процессора вашего компьютера создание субтитров займет от двух до пяти секунд. После завершения создания субтитров откроется окно с подписью к изображению, и подпись будет прочитана. Когда вы закончите просмотр надписи, вы можете нажать клавишу escape, чтобы закрыть окно с надписью.

Получение максимальной отдачи от XPoseImageCaptioner

Есть несколько вещей, о которых следует помнить при использовании XPoseImageCaptioner, чтобы получить наилучшие результаты:

Субтитры XPoseImageCaptioner лучше всего подходят для фотографий, карикатур и других художественных работ. Они также могут неплохо работать с мемами и рекламой. Они плохо подходят для графиков и не заменяют распознавание текста. Если у вас есть изображение текстового документа, используйте дополнение для распознавания текста, а не XPoseImageCaptioner.
Субтитры с помощью искусственного интеллекта могут рассказать вам, что находится на изображении, но не могут объяснить, почему оно там находится. Для определения контекста изображения по-прежнему следует использовать альтернативный текст. Например, на новостном сайте вы можете увидеть изображение с альтернативным текстом "генерал даёт показания на слушаниях в Конгрессе по поводу военного бюджета", а подпись к нему с помощью искусственного интеллекта может быть примерно такой: "мужчина в военной форме говорит в микрофон, сидя в комнате, отделанной деревянными панелями". Подпись с искусственным интеллектом сообщает вам, что находится на изображении, но альтернативный текст в идеале должен объяснять вам, почему он там находится.
Нейронная сеть BLIP, на которой основано дополнение XPoseImageCaptioner, может выводить текст только на английском языке. В настоящее время невозможно перепрофилировать модель для поддержки других языков, кроме английского.
Хотя создаваемые подписи в настоящее время очень близки к современным технологиям создания субтитров к изображениям с помощью искусственного интеллекта, они не всегда точны на 100%. Пожалуйста, используйте их с осторожностью и руководствуясь здравым смыслом и ни в коем случае не вместо распознавания текста. Кроме того, не полагайтесь на выходные данные в опасных ситуациях или ситуациях повышенного риска.
В настоящее время XPoseImageCaptioner работает на веб-сайтах, которые не требуют входа в систему. Например, на общедоступных страницах таких организаций, как Guiding Eyes for the Blind или CNN. Страницы, требующие входа в систему, такие как Facebook или Twitter, пока не поддерживаются, поскольку дополнение должно самостоятельно загружать изображение с веб-сайта для подписи к нему и не может этого сделать, если требуется вход в систему. В качестве обходного решения можно загрузить любое изображение с сайтов, требующих входа в систему, на локальный компьютер и добавить подпись с помощью дополнения в проводнике файлов.
XPoseImageCaptioner работает в FireFox только в том случае, если изображение не содержит альтернативного текста. FireFox не предоставляет прямую ссылку на файл изображения для программы чтения с экрана, если изображение содержит альтернативный текст. Без этой информации дополнение не сможет загрузить изображение для подписи с помощью искусственного интеллекта. В Chrome и Microsoft Edge нет этого ограничения, и они работают независимо от того, есть ли на изображении альтернативный текст или нет.

Авторское право:

Я многому научился из дополнения NAO OCR в плане того, как оно работает с проводником Windows в NVDA. Спасибо Alessandro Albano, Davide De Carne b Simone Dal Maso за их работу над этим дополнением. Кроме того, XPoseImageCaptioner использует веса нейронной сети BLIP и код от Salesforce.com, но никоим образом не связан с Salesforce.com и не одобрен ею.

Лицензия

Лицензируется по лицензии BSD 3 Clause. Это дополнение никоим образом не одобрено Salesforce.com.

https://github.com/cmillsap/XPoseImageCaptioner/releases/download/v0.8.4/XPoseImage.Captioner-0.8.4.nvda-addon