XPoseImageCaptioner

Цей додаток може створити описовий підпис до будь-якого зображення у форматі JPG або PNG у Файловому провіднику, Microsoft Edge, Google Chrome та Firefox. Він робить це, використовуючи машинне навчання, і подає підпис у вікні, так що текст підпису можна розглянути, а також озвучити.

Використання

Спочатку виберіть файл зображення у Файловому провіднику Windows або у браузері. Підтримуються Chrome, Edge та Firefox. Вибравши зображення, натисніть NVDA+x. Додаток відповість «Captioning, please wait…», оскільки зображення буде проаналізовано модулем машинного навчання і доповнено субтитрами. Залежно від швидкості процесора вашого комп’ютера, створення субтитрів займе від двох до п'яти секунд. Після завершення створення підписів відкриється вікно з підписом до зображення, і підпис буде прочитано. Коли ви закінчите перегляд підпису, ви можете натиснути клавішу escape, щоб закрити вікно з підписом.

Отримання максимальної віддачі від XPoseImageCaptioner

Є кілька речей, про які варто пам’ятати під час використання XPoseImageCaptioner, щоб отримати найкращі результати:

  1. XPoseImageCaptioner найкраще підходить для створення підписів до фотографій, карикатур та інших зображень. Він також може досить добре працювати для мемів і оголошень. Він не дуже добре працює з діаграмами і не замінює розпізнавання тексту (OCR). Якщо у вас є зображення текстового документа, скористайтеся додатком OCR, а не XPoseImageCaptioner.
  2. Підписи від штучного інтелекту можуть розповісти вам, що показано на зображенні, але не можуть пояснити, чому воно там є. Для того, щоб дізнатися про контекст зображення, все одно варто використовувати альтернативний текст. Наприклад, на новинному сайті ви можете побачити зображення з альтернативним текстом текстом «генерал дає свідчення на слуханнях у Конгресі про військовий бюджет», а підпис ШІ може бути таким: «чоловік у військовій формі говорить у мікрофон, сидячи в кімнаті, обшитій дерев’яними панелями». ШІ-підпис розповідає, що показано на зображенні, але альтернативний текст в ідеалі має пояснювати, чому воно там.
  3. Нейронна мережа BLIP, на якій базується додаток XPoseImageCaptioner, може виводити текст лише англійською мовою. Перенавчання моделі для підтримки інших мов, окрім англійської, наразі неможливе.
  4. Хоча створені підписи наразі дуже близькі до найсучаснішого рівня підпису зображень за допомогою штучного інтелекту, вони не завжди є на 100% точними. Будь ласка, використовуйте його з обережністю та здоровим глуздом і ніколи не замінюйте ним розпізнавання тексту. Також не покладайтеся на результат у небезпечних або ризикованих ситуаціях.
  5. Наразі XPoseImageCaptioner працює для сайтів, які не потребують входу в систему. Наприклад, публічні сторінки таких організацій, як Guiding Eyes for the Blind або CNN. Сторінки, які вимагають входу в систему, такі як Facebook або Twitter, поки що не підтримуються, оскільки додаток повинен самостійно завантажити зображення з сайту, щоб додати до нього підпис, і не може цього зробити, якщо потрібен вхід в систему. Як обхідний шлях, будь-яке зображення з сайтів, які вимагають входу, можна завантажити на локальний комп'ютер і додати до нього підписи за допомогою додатка у Файловому провіднику.
  6. XPoseImageCaptioner працює у FireFox лише тоді, коли зображення не має альтернативного тексту. FireFox не надає прямого посилання на файл зображення для програми зчитування з екрана, якщо зображення має альтернативний текст. Без цієї інформації додаток не може завантажити зображення для того, щоб його підписав ШІ. Chrome і Microsoft Edge не мають цього обмеження і працюють незалежно від того, чи має зображення альтернативний текст, чи ні.

Авторське право:

Авторське право (c) 2023 Christopher Millsap

Я багато чому навчився з додатка NAO OCR у плані роботи з Файловим провідником Windows з NVDA. Дякую Алессандро Альбано, Давіде Де Карне та Сімоне Дал Масо за їхню роботу над цим додатком. Крім того, XPoseImageCaptioner використовує вміст та код нейронної мережі BLIP від Salesforce.com, але жодним чином не пов'язаний із Salesforce.com і не схвалений ним.

Ліцензія

Ліцензовано на умовах BSD 3 Clause License. Цей додаток жодним чином не підтримується Salesforce.com.

https://github.com/cmillsap/XPoseImageCaptioner/releases/download/v0.8.4/XPoseImage.Captioner-0.8.4.nvda-addon