Онлайн описание на изображения (Online image describer)

Тази добавка има за цел да добави онлайн машини за разпознаване на изображения в NVDA.

Има два вида машини: OCR и описател на изображения.

OCR извлича текста от изображението.

Описателят на изображения описва визуалните характеристики в изображението в текстов вид (например общо описание, цветни ориентири и т.н.).

За да използвате тази добавка, се изисква интернет връзка, тъй като услугите за описание на изображения се предоставят от крайни точки на ППИ в интернет.

В тази добавка те се наричат "машини".

Има три типа машини за тази добавка.

  • Машина за онлайн OCR
  • Машина за онлайн описание на изображение
  • Машина за OCR от Windows 10 (офлайн)

Също така трябва да изберете източника на изображението за разпознаване.

  • Текущия навигационен обект
  • Текущия прозорец на преден план
  • Целия екран
  • Данни за изображение или файл от клипборда
  • Име на файл с изображение или URL адрес на изображение от клипборда

Клавиатурни команди

След като изберете тези типове, можете да започнете разпознаването с жест.

NVDA+Alt+P извършва разпознаване според настройката за източник и типа машина, след което се прочита резултата. Ако бъде натиснат двукратно, се отваря виртуален документ с резултата.

Има четири допълнителни жеста, оставени неприсвоени. Моля, задайте ги преди да ги използвате.

Превключване между различните типове машини за разпознаване.

Превключване между различните типове източници за разпознаване.

Отмяна на текущото разпознаване

Тази команда може да бъде полезна, ако мислите, че сте чакали твърде дълго и искате да отмените операцията.

Също така понякога не искате да бъдете прекъсвани от съобщението за разпознаване, защото трябва да прегледате някои съобщения, получени след началото на разпознаването.

Показване на предишен резултат във виртуален документ за резултати.

Въпреки че има функция за копиране на резултата в клипборда. Информацията за позицията на знака не може да бъде запазена, така че този жест е добавен за решаване на този проблем.

Има и четири стари жеста, които са оставени неприсвоени за потребители, които предпочитат жестовете от предишните версии.

Препоръчително е да използвате нов жест и да смените типа машина според вашите нужди.

Разпознаване на текущия навигационен обект с онлайн машина за OCR и след това прочитане на резултата. При двукратно натискане – отваряне на виртуален документ с резултата.

Разпознаване на изображението в клипборда с онлайн машината за OCR и след това прочитане на резултата. При двукратно натискане – отваряне на виртуален документ с резултата.

Разпознаване на текущия навигационен обект и след това прочитане на резултата. При двукратно натискане – отваряне на виртуален документ с резултата.

Разпознаване на изображението в клипборда, след което се прочита резултата. При двукратно натискане – отваряне на виртуален документ с резултата.

Настройка на машината

Можете да изберете машините за разпознаване и да ги конфигурирате подробно в категорията "Онлайн описател на изображения" в диалоговия прозорец за настройки на NVDA.

Авторът на добавката е регистрирал акаунт с безплатна ППИ квота и е създал прокси сървър на www.nvdacn.com, за да направи тази добавка по-лесна за тестване. Тестовата квота е ограничена и може да бъде анулирана от доставчика на ППИ по всяко време.

Силно се препоръчва да регистрирате свой собствен ключ според указанията за всяка машина.

Следните настройки са приложими за всички машини.

  • Копирай резултата в клипборда след разпознаване: Ако е включено, резултатът с текста от разпознаването ще бъде копиран в клипборда след разпознаване.
  • Използвай съобщение в режим на разглеждане за текстовите резултати: Ако е включено, текстът на резултата от разпознаването ще бъде показан в изскачащ прозорец, вместо чрез реч или брайл.
  • Размени действията за еднократно и за двукратно задействане на командите: По подразбиране, резултатът се извежда във виртуален документ само ако задействате съответната команда два пъти. Ако използвате тази функция често, можете да включите тази опция, така че да ви се налага да задействате съответната команда само веднъж, за да изведете виртуалния документ с резултата.
  • Включи по-подробното протоколиране с цел отстраняването на грешки: Някои протоколи са от съществено значение за отстраняването на грешки, но засягат производителността и заемат много място. Включете тази опция само ако сте били изрично инструктирани да го направите от автора на добавката или разработчик на NVDA.
  • Тип прокси: Какъв тип прокси използвате. Ако не знаете какво е прокси, просто го оставете както си е.
  • Прокси адрес: Пълен URL адрес на прокси сървъра ви. Ако не знаете какво е прокси, просто го оставете както си е. Ако изберете да използвате прокси сървъра, проксито ви ще бъде потвърдено преди запазване, след проверка, ще има подкана да се покаже резултата.

Следните настройки са еднакви за всички машини. Описваме ги тук, за да спестим място:

  • Тип на ППИ за достъп: Това управлява начина, по който получавате достъп до съответните крайни точки на ППИ.

    • Ако изберете "Използвай публична квота", използвате безплатна квота в профил, регистриран от автора на добавката.
    • Ако изберете "Използвай моя собствен ППИ ключ", тази добавка ще използва квота от собствения Ви профил.
  • ППИ ИД, ППИ ключ или ППИ секретен ключ: Ако искате да използвате квота от собствения си профил, се изискват маркери за достъп. Някои машини се нуждаят само от ППИ ключ. Някои машини изискват два маркера. Тези са валидни, само ако изберете "Използвай мой собствен ППИ ключ" в настройката "Тип на ППИ за достъп".

Имайте предвид, че качеството и точността на резултатите се влияят от много фактори.

  • Моделите и техниките, използвани от доставчика на машината
  • Качество на каченото изображение
  • Дали навигационният обект е скрит зад нещо друго
  • Разделителна способност на екрана

Онлайн описание на изображение

Предлагаме ви три машини.

Анализиране на изображение с Microsoft Azure

Тази машина извлича богат набор от визуални възможности въз основа на съдържанието на изображението.

Тази машина поддържа само английски език. Ако искате описание на други езици, можете да използвате описателя на изображения на Microsoft Azure (Microsoft Azure Image Describer)

Визуалните характеристики включват:

  • За пълнолетни: Открива дали изображението е с порнографски характер (изобразява голота или полов акт). Също така се открива сексуално внушаващо съдържание.
  • Марки: Открива различни марки в изображение, включително приблизителното им местоположение. Аргументът "Марки" е наличен само на английски език.
  • Категории: Категоризира съдържанието на изображението според таксономия, определена в документацията.
  • Цвят: Определя акцентиращия цвят, основния цвят и дали изображението е черно-бяло.
  • Описание: Описва с цели изречения съдържанието на изображението за поддържаните езици.
  • Лица: Открива дали са налице лица. Ако са налице, генерира координати, пол и възраст.
  • Тип на изображението: Открива дали изображението е графика или чертеж.
  • Обекти: Открива различни обекти в изображението, включително приблизителното им местоположение. Аргументът "Обекти" е наличен само на английски език.
  • Етикети: Етикетира изображението с подробен списък от думи, свързани със съдържанието на изображението.

Някои функции предоставят и допълнителни подробности:

  • Знаменитости: Разпознава знаменитости, ако бъдат открити такива в изображението.
  • Забележителности: Разпознава забележителности, ако бъдат открити такива в изображението.

Описател на изображения на Microsoft Azure (Microsoft Azure Image describer)

Тази машина генерира описание на изображение на разбираем за човека език с пълни изречения. Описанието се основава на колекция от етикети за съдържанието, които също се връщат от операцията.

За всяко изображение може да се генерира повече от едно описание. Описанията са подредени по тяхната оценка за точност.

За тази машина има две настройки:

  • Език: Езикът, на който услугата ще върне описание на изображението. По подразбиране е английски.
  • Максимален брой предположения: Максималният брой предполагаеми описания, които да бъдат върнати. По подразбиране е 1.

Онлайн OCR

Онлайн машините разчитат на използването и наличието на следните услуги.

https://www.nvdacn.com

https://ocr.space/ocrapi

https://azure.microsoft.com/en-us/services/cognitive-services/

http://ai.qq.com

http://ai.baidu.com

http://ai.sogou.com/

https://intl.cloud.tencent.com

Машини

Налични са пет машини.

Tencent Cloud OCR

Този ППИ е спонсориран от Tencent Cloud и Aceessibility Research Association, с квота от 15000 на ден.

Тази машина поддържа 19 езика.

  • Смесица от китайски и английски
  • Японски
  • Корейски
  • Испански
  • Френски
  • Немски
  • Португалски
  • Виетнамски
  • Малайски
  • Руски
  • Италиански
  • Нидерландски
  • Шведски
  • Финландски
  • Датски
  • Норвежки
  • Унгарски
  • Тайландски
  • Латински

Ето ги настройките за тази машина.

  • Език: Език на текста за разпознаване. По подразбиране е зададено на "Автоматично откриване".

OCR space

Това е платен ППи с безплатна квота, осигурена от OCR Space

Той поддържа 24 езика

  • Арабски
  • Български
  • Опростен китайски
  • Традиционен китайски
  • Хърватски
  • Чешки
  • Датски
  • Нидерландски
  • Английски
  • Финландски
  • Френски
  • Немски
  • Гръцки
  • Унгарски
  • Корейски
  • Италиански
  • Японски
  • Полски
  • Португалски
  • Руски
  • Словенски
  • Испански
  • Шведски
  • Турски

Ето ги настройките за тази машина:

  • Език: Език за разпознаване на текста. По подразбиране е зададено на английски.
  • Откриване на ориентацията на изображението: Ако е зададено на "true", ППИ автоматично коригира ориентацията на изображението.
  • Мащабиране на изображението за по-добро качество: Ако е настроено на "true", ППИ прави вътрешно увеличение на мащаба. Това може значително да подобри резултата от OCR, особено за сканирани PDF файлове с ниска резолюция.
  • Оптимизиране за разпознаване на таблици: Ако е настроено на "true", логиката на OCR гарантира, че анализираният текстов резултат винаги се връща ред по ред. Включването на тази опция се препоръчва за OCR на таблици, OCR на разписки, обработка на фактури и всички други типове входни документи, които имат таблична структура.

Ако искате да използвате свой собствен ключ, трябва да посочите и ППИ ключ.

Можете да получите свой собствен безплатен ППИ ключ, като се регистрирате в OCR space

Ето простичко ръководство за целта.

Намерете връзката "Register for free API key".

Задействайте я и ще ви се зареди формуляр, който трябва да попълните.

Формулярът изисква да въведете следните данни:

  • Адрес за е-поща
  • Име
  • Фамилия
  • Как планирате да използвате ППИ за OCR?

След като го попълните, изпратете го. Може да се наложи да преминете и през код в картинка.

След това ще получите потвърждение по електронната поща.

Намерете връзката с име "Yes, subscribe me to this list" в писмото. Отворете тази връзка и скоро ще получите ППИ ключ на е-пощата.

OCR на Microsoft Azure

Тази машина използва ППИ за OCR от когнитивните услуги за компютърно зрение в Microsoft Azure (Microsoft Azure Cognitive Services Computer Vision).

Поддържа 24 езика, включително

  • Опростен китайски
  • Традиционен китайски
  • Чешки
  • Датски
  • Нидерландски
  • Английски
  • Финландски
  • Френски
  • Немски
  • Гръцки
  • Унгарски
  • Италиански
  • Японски
  • Корейски
  • Норвежки
  • Полски
  • Португалски
  • Руски
  • Испански
  • Шведски
  • Турски
  • Арабски
  • Румънски
  • Сръбски (кирилица)
  • Сръбски (латиница)
  • Словашки

Ето ги настройките за тази машина:

  • Език: Език на текста за разпознаване. По подразбиране е зададено на "Автоматично откриване".
  • Откриване на ориентацията на изображението: Ако е зададено на "true", ППИ автоматично коригира ориентацията на изображението.

Ако използвате свой собствен ключ, трябва да получите ключ за абонамент за използване на ППИ на Microsoft Computer Vision от връзката по-долу:

Стъпка 1: Създайте акаунт в сайта на Azure

Моля, обърнете внимание, че ключът трябва да бъде създаден за ППИ на Computer Vision (първият бутон с етикет "GET API key", намиращ се с навигация по първа буква в страницата). Понастоящем Microsoft предоставя възможност за създаване на пробен ключ за 7 дни. Можете също да се регистрирате за безплатен акаунт в Azure за допълнителен пробен период. Регистрирането изисква кредитна карта. Ако вече имате абонаментен акаунт, можете да пропуснете тази стъпка.

Стъпка 2: Задействайте когнитивните услуги

Сега имате акаунт в Azure.

Първо влезте в Azure Portal.

Изчакайте, докато чуете съобщението "Portal is Ready" – вече сте вписани в портала на Azure.

Намерете връзката "All Resources", намираща се след бутона "All Services" и я задействайте.

Изчакайте, докато чуете съобщението "Blade All resources are ready" – фокусът ви ще бъде в поле за редактиране. След това изпълнете командата Shift+TAB, за да намерите елемент от менюто с етикет "Add" и го задействайте.

Изчакайте, докато получите съобщението "Search the Marketplace". Напишете "Cognitive Services" и натиснете стрелка надолу.

Изчакайте, докато чуете "List of options Cognitive Services one of five", след което натиснете ENTER.

Изчакайте, докато чуете "Blade Cognitive Services is ready". Натиснете TAB или B, за да намерите бутон с име "Create". Задействайте го.

Изчакайте, докато получите съобщението "Blade Create is ready" – фокусът ви ще бъде в поле за въвеждане. Въведете име за този ресурс. Имайте предвид, че името на вашия ресурс може да включва само буквено-цифрени знаци, "", "-" и не може да завършва с "" или "-".

Аз лично избирам "NVDA_OCR".

Натиснете TAB, за да отидете в падащия списък "Subscription". Обикновено можете да го оставите както си е.

Натиснете TAB, за да отидете в падащия списък "Location". Изберете такова местоположение, което е близо до текущото ви.

Не го забравяйте, тъй като това местоположение се изисква в конфигурацията на машината.

Натиснете TAB, за да отидете в разгъващия се списък за ценообразуване ("Pricing tier"). Обикновено безплатен план като F0 е достатъчен. Ако не ви е достатъчно, можете да изберете друго ниво, след като прочетете пълните подробности за цените във връзката "View full pricing details".

Натиснете TAB, за да отидете в полето за редактиране "Create new Resource group". Трябва да създадете група, ако вече нямате такава. Натиснете TAB, за да намерите бутона "Create new".

След това натиснете TAB, за да отидете на бутона "Create", за да създадете този ресурс.

Изчакайте, докато чуете "Deployment succeeded".

След това намерете бутона "Go to resource" (понякога трябва да отидете нагоре и да задействате бутона "Notifications", преди да намерите бутона "Go to resource").

Изчакайте, докато чуете "Blade Quick Start is busy".

Намерете връзката с име "Keys" и я задействайте.

Изчакайте, докато чуете "Blade Manage keys is ready".

Намерете полето за редактиране с име "Key 1" или "Key 2". Съдържанието на това поле за редактиране е ППИ ключът, необходим за конфигурацията на машината. Натиснете Control+C, за да го копирате за конфигурацията на машината.

След това можете да попълните тези две необходими настройки, ако използвате собствен ППИ ключ.

  • Регион за ресурса на Azure: Регионът, който избрахте, когато задействахте когнитивните услуги в портала на Azure.
  • ППИ ключ: Ключът, който получихте след успешно задействане на когнитивните услуги в портала на Azure (препоръчва се "Key 2").

OCR на Baidu

Това също е платен ППИ с безплатна квота, предоставена от Baidu.

Baidu OCR поддържа 10 езика, включително:

  • Смесица от китайски и английски
  • Английски
  • Португалски
  • Френски
  • Немски
  • Италиански
  • Испански
  • Руски
  • Японски
  • Корейски

Тази машина може също така да извлече позицията на всеки символ

Ето ги и настройките:

  • Извличането на позицията за всеки символ ви позволява да изпълнявате по-прецизни действия с дадено недостъпно приложение. Задействането на тази опция ще направи разпознаването малко по-бавно.

  • Използвай прецизен ППИ: Ако е включено, ще използва различна крайна точка. Тази прецизна крайна точка отнема по-дълго време, но има по-високо качество и (Ако използвате свой собствен ППИ ключ, цената също е по-висока).

Има четири крайни точки, всяка с отделно квотно ограничение.

  • Базово OCR без никаква информация за местоположението на текста. Понастоящем 50000 заявки на ден.
  • Базово OCR с информация за местоположението на текста. Понастоящем 500 заявки на ден.
  • Прецизно OCR без никаква информация за местоположението на текста. Понастоящем 500 заявки на ден.
  • Прецизно OCR с информация за местоположението на текста. Понастоящем 50 заявки на ден.

Ако изпълните командата, която само изговаря резултата, използвате крайни точки без информация за местоположението на текста.

Ако изпълните командата, показваща резултата във виртуален документ, използвате крайни точки с информация за местоположението на текста.

Въпреки че предоставя доста голяма безплатна квота, нейният уебсайт е само на китайски и не е напълно достъпен.

Tencent AI OCR

Този ППИ е безплатен за употреба с ограничение в честотата от около две заявки за секунда.

Ако искате да заобиколите лимита, можете да регистрирате свой собствен ППИ ключ. Уебсайтът на този ППИ е само на китайски и не съвсем достъпен.

Няма информация за езиковата поддръжка в документацията на тези ППИ. Според моите тестове, се поддържат китайски и английски език и тяхната смесица.

Няма допълнителна конфигурация за този ППИ.

Списък с промените

0.19

  • Съвместимост с NVDA 2020.2
  • Добавена е поддръжка за машината Tencent Cloud OCR, спонсорирана от Tencent Cloud и Aceessibility Research Association
  • Премахнати са неработещите машини Sougou OCR и Machine Learning Engine от Oliver Edholm.
  • Поправена е публичната крайна точка на китайския сайт на NVDA

0.18

  • Съвместимост с Python3
  • Представена е концепцията за тип източник на разпознаване и тип машина с цел намаляване броя на използваните жестове.
  • Добавен е нов неприсвоен жест за превключване между различните типове източници на разпознаване.
  • Добавен е нов неприсвоен жест за превключване между различните типове машини за разпознаване.
  • Добавен е нов жест за разпознаване на базата на настройките за източника на изображението и типа на машината.
  • Добавен е нов неприсвоен жест за показване на предишен резултат във виртуален документ за резултати.

0.17

  • Поправени са следните грешки:

    • Преминаване директно към панела при превключване към "Онлайн описание на изображения" в диалоговия прозорец с настройките
    • Грешка в описанието на Azure Analyzer

0.16

  • Добавена е команда (жест) за отмяна на операцията по разпознаването
  • Поправени са следните грешки:

    • Промяната в състоянието на CheckListBox (поле за отметка) не се докладваше
    • Размяната на ефектите при неколкократно изпълнение на даден жест не работи при онлайн описателя на изображения

0.15

  • Добавена е опция за извеждане на резултата от разпознаването на текст в прозорец, вместо извеждането му само чрез реч или брайл
  • Отметките за визуалните функции на анализатора на изображения на Microsoft Azure са променени на списък с отметки (CheckBoxList).
  • Поправени са следните проблеми:

    • Не може да се зареди от клипборда файл с изображение във формат JPG
    • Обекта на документа с резултата не се извежда след разпознаване.
    • Позициите в обектите на документа с резултата не са надеждни ако изображението е преоразмерено отвътре.
    • Резултата от описателя на изображения на Microsoft Azure е на същия ред, което прави трудно обхождането наоколо.

0.14

  • Поправени са някои грешки:

    • Невъзможност за използване на собствения ви ППИ ключ в машините на Microsoft Azure
    • Невъзможност за извеждане на текстовия резултат, ако е наличен брайлов дисплей

0.13

  • Прави се проверка, че добавката работи при презареждане на добавките без рестартиране (NVDA+Control+F3)

0.12

  • Поправено е съобщението при режим на разглеждане за Microsoft Azure Image Describer
  • Акцентиращият цвят сега е представен чрез вградените в NVDA описания на цветовете.
  • Подобрен формат на резултатите от Microsoft Azure Image Analyzer
  • Подобрена е документацията на базата на обратна връзка
  • Поправена е непоследователност при жестовете.
  • Control+Shift+NVDA за клипборда и NVDA+ALT за навигационния обект.
  • Поправена е липсваща грешка за imageInfo при разпознаване

0.11

  • Добавена е възможност за описание на изображения
  • Променено е резюмето за добавката на "Онлайн описател на изображения" ("online image describer")

0.10

  • Поправена е грешка при използване на личен потребителски ППИ ключ за sougou API.
  • Отстранен е проблем с неразпознаване на панел чрез добавяне на settings към supportedSettings

0.9

  • Поправен е проблем при който двукратното задействане на командите не прави нищо.
  • Нанесени са промени в документацията, отразяващи промените в кода.
  • Уточнено е какъв вид изображение от клипборда се поддържа и как да се копира изображение за разпознаване.
  • Отстранен е проблем, при който не може да се отвори резултата във виртуален документ при разпознаване от клипборда.
  • Добавена е поддръжка за разпознаване на копиран в клипборда път към локален файл с изображение.

0.8

  • Добавено е дружелюбно известие ако резултатът от разпознаването е празен.
  • Отстранен е проблем с лошо сработване при конфигурационен път с не-ASCII символи

0.6

  • Добавени са настройки за прокси за потребителите с достъп до интернет зад определено прокси.
  • Добавени са разни общи настройки.
  • Поправен е проблем с грешка при декодиране на уникод поради изпращането на уникод URL към urllib3.

0.5

  • Отстранена е грешка с уникод ако машината за OCR качва файла с изображението директно вместо с base64 кодиране.
  • Променена е командата за разпознаване на клипборда на Control+Shift+NVDA+R, тъй като NVDA+Shift+R вече се използва в Word и Excel за указване на заглавките на редовете в таблиците или за изтриване на указанията при двукратното натискане на командата.

0.4

  • Поправена е грешка при инсталиране, когато конфигурационният път съдържа символи, различни от ASCII
  • Променена е команда, с цел избягване на конфликт с добавката "Златен курсор" ("Golden Cursor").
  • Променена е машината по подразбиране на Microsoft Azure, тъй като тя може да открива езика на текста автоматично.

0.3

  • Добавена е подробна документация за това как да се получи ППИ ключ за OCR на Microsoft Azure.
  • Отстранен е проблем при нова инсталация.
  • Премахната е функцията за автоматично OCR (auto OCR), тъй като тази функция е проблемна и може да предизвиква объркване с онлайн машините. Автоматичното OCR ще бъде отделна добавка, когато стане достатъчно стабилна.