Online-Bildbeschreiber

Autor: Larry Wang
NVDA-Kompatibilität: 2018.2 bis 2020.2
Entwicklerversion herunterladen

Diese Erweiterung stellt Online-Bilderkennung für NVDA zur Verfügung.

Es gibt 2 Arten der Erkennung: Text aus Bild (OCR und Bildbeschreibung.

Erkennen von Text in einem Bild.

Image describer describe visual features in image in text form, such as general description, color type landmarks and so on.

Internet connection is required to use this addon, since image describe services are provided by API endpoints on the Internet.

They are called engines in this addon.

There are three types of engine for this addon.

Online-Texterkennung
Online image describer engine
Windows 10 Texterkennung (offline)

You also need to choose the source of recognition image.

Aktuelles Navigatorobjekt
Aktuelles Fenster im Vordergrund
Den ganzen Bildschirm
Image data or file from clipboard
Image file pathname or image url from clipboard

Tastenbefehle

After choosing these types, you can start recognition with one gesture.

NVDA+Alt+P Perform recognize according to source and engine type setting, Then read result. If pressed twice, open a virtual result document.

There are four additional gestures left unassigned. Please assign them before using.

Cycle through different recognition engine types.

Cycle through different recognition source types.

Bricht die laufende Erkennung ab

This gesture can be useful if you think you have waited for too long and want to cancel.

Also sometimes you do not want to be disturbed by recognition message because you need to review some messages arrived after recognition start.

Show previous result in a virtual result document.

Though there is a feature to copy result to clipboard. Character position information cannot be preserved, so this gesture is added to solve this problem.

There are also four old gestures are left unassigned for users who prefer gestures in previous versions.

It is recommended to use new gesture and switch engine type according to your need.

Recognize current navigator object with online OCR engine Then read result. If pressed twice, open a virtual result document.

Recognizes image in clipboard with online OCR engine. Then read result. If pressed twice, open a virtual result document.

Recognize current navigator object Then read result. If pressed twice, open a virtual result document.

Recognizes image in clipboard . Then read result. If pressed twice, open a virtual result document.

Engine-Konfiguration

Sie können Erkennungsmodule auswählen und diese detailliert in der Kategorie Online Bildbeschreiber im Dialogfeld in den NVDA-Einstellungen konfigurieren.

The author of addon have registered account with free API quota and set up a proxy server on www.nvdacn.com to make this addon easier to test at first. Test quota is limited and may be cancelled by API provider anytime.

It is highly recommended to register your own key according to guide in each engine.

Die folgenden Einstellungen sind auf alle Engines anwendbar.

Copy recognition result to the clipboard: if enabled, recognition result text will be copied to clipboard after recognition.
Durchsuchbare Nachricht für Textergebnisse verwenden: Wenn diese Option aktiviert ist, wird der Text des Erkennungsergebnis in einem Popup-Fenster gezeigt, anstelle der Sprachausgabe oder Anzeige auf der Braillezeile.
Vertauschen Sie den Effekt eines wiederholten Tastenbefehls gegen einen anderen aus: Standardmäßig wird ein virtuelles Ergebnisdokument nur angezeigt, wenn Sie den entsprechenden Tastenbefehl zweimal drücken. Wenn Sie dies häufig verwenden, können Sie diese Option aktivieren, sodass Sie nur einmal drücken müssen, um das Ergebnis der Texterkennung zu erhalten.
Enable more verbose logging for debug purposes: some logs are essential for debugging but affects performance and takes up a lot of space. Only turn this on if specifically instructed to by the addon author or an NVDA developer.
Proxy-Typ: Welchen Proxy-Typ verwenden Sie? Wenn Sie nicht wissen, was ein Proxy ist, lassen Sie es einfach unverändert.
Proxy-Adresse: Vollständige URL Ihres Proxys. Wenn Sie nicht wissen, was ein Proxy ist, lassen Sie ihn einfach unverändert. Wenn Sie sich für die Verwendung des Proxys entscheiden, wird Ihr Proxy vor dem Speichern überprüft. Nach der Überprüfung wird Ihnen auf dem Bildschirm das Ergebnis mitgeteilt.

Die folgenden Einstellungen sind für alle Erkennungen gleich. Sie werden hier beschrieben, um Platz zu sparen.

API Access Type: this controls how you get access to the corresponding API endpoints.
- If you choose "Use public quota", you are using free quota in an account registered by addon author.
- If you choose "Use your own API key", this addon will use quota from your own account.
APP ID, API key or API Secret Key: if you want to use quota from your own account corresponding access tokens is required. Some engines only need API key. Some engines require two tokens. These are only valid if you choose "use your own API key" in API Access type.

Beachten Sie, dass die Qualität und Genauigkeit der Ergebnisse von vielen Faktoren beeinflusst wird.

Vom Anbiter der Engines verwendete Modelle und Techniken
Qualität des hochgeladenen Bildes
Ist das Navigatorobjekt hinter etwas anderem versteckt
Bildschirmauflösung

Online-Bildbeschreibung

Drei Engines sind verfügbar.

Microsoft Azure-Bildanalysierung

This engine extracts a rich set of visual features based on the image content.

This engine is english only. If you want description in other languages, you can use Microsoft Azure Image Describer

Zu den visuellen Funktionen gehören:

Erwachsener - Erkennt, ob das Bild pornografischer Natur ist (zeigt Nacktheit oder Sexualität). Sexuell anregende Inhalte werden ebenfalls erkannt.
Markenzeichen - Erkennt verschiedene Markenzeichen in einem Bild, einschließlich der ungefähren Position. Das Markenzeichen-Argument ist nur in englischer Sprache verfügbar.
Kategorien - Kategorisiert den Bildinhalt gemäß einer in der Dokumentation definierten Klassifizierung..
Farbe - Bestimmt die akzentuierte Farbe, die dominierende Farbe und ob ein Bild schwarzweiß ist.
Beschreibung - Beschreibt den Bildinhalt mit einem vollständigen Satz in den unterstützten Sprachen.
Gesichter - Erkennt, ob Gesichter vorhanden sind. Wenn vorhanden, werden die Koordinaten erzeugt, Geschlecht und Alter ermittelt.
Bildtyp - Erkennt, ob es sich bei dem Bild um ein ClipArt-Grafik oder eine Strichzeichnung handelt.
Objekte - erkennt verschiedene Objekte in einem Bild, einschließlich der ungefähren Position. Das Argument "Objekte" ist nur in englischer Sprache verfügbar.
Tags - markiert das Bild mit einer detaillierten Liste von Wörtern, die sich auf den Bildinhalt beziehen.

^Einige Funktionen bieten auch zusätzliche Details:

Celebrities - identifies celebrities if detected in the image.
Orientierungspunkte - Identifiziert im Bild erkannte Orientierungspunkte.

Microsoft Azure-Bildbeschreiber

This engine generates a description of an image in human readable language with complete sentences. The description is based on a collection of content tags, which are also returned by the operation.

More than one description can be generated for each image. Descriptions are ordered by their confidence score.

Für diese Erkennungsmethode gibt es 2 Einstellungen.

Sprache: Die Sprache, in der der Dienst eine Beschreibung des Bildes zurückgibt. Englisch ist standardmäßig voreingestellt.
Maximum Candidates: maximum number of candidate descriptions to be returned. The default is 1.

Online OCR

Online-Engines sind auf die Nutzung und Präsenz der folgenden Dienste angewiesen.

https://www.nvdacn.com

https://ocr.space/ocrapi

https://azure.microsoft.com/en-us/services/cognitive-services/

http://ai.qq.com

http://ai.baidu.com

http://ai.sogou.com/

https://intl.cloud.tencent.com

Engines

Fünf Engines sind verfügbar.

Tencent Cloud OCR

This API is sponsored by Tencent Cloud and Aceessibility Research Association, with a quota of 15000 per day.

Diese Funktion unterstützt 19 Sprachen.

Chinesische und englische Mischung
Japanisch
Koreanisch
Spanisch
Französisch
Deutsch
Portugiesisch
Vietnamesisch
Malayisch
Russisch
Italienisch
Niederländisch
Schwedisch
Finnisch
Dänisch
Norwegisch
Ungarisch
Thailändisch
Serbisch (Latein)

Es gibt folgende Einstellungen für diese Erkennungsmethode.

Sprache: Textsprache zur Erkennung. Standardmäßig automatische Erkennung.

OCR-Space

Dies ist eine kostenpflichtige API mit kostenlosem Kontingent, das von https://ocr.space bereitgestellt wird

Unterstützt werden 24 Sprachen

Arabisch
Bulgarisch
Chinesisch (vereinfacht)
Chinesisch (traditionell)
Kroatisch
Tschechisch
Dänisch
Niederländisch
Englisch
Finnisch
Französisch
Deutsch
Griechisch
Ungarisch
Koreanisch
Italienisch
Japanisch
Polnisch
Portugiesisch
Russisch
Slovenisch
Spanisch
Schwedisch
Türkisch

Einstellungen für diese Engine:

Sprache: Textsprache für die Erkennung. Standardmäßig in Englisch.
Detect image orientation: if set to true, the API autorotates the image correctly.
Bild für bessere Qualität skalieren: Wenn diese Option auf "ja" gesetzt ist, führt die API eine interne Hochskalierung durch. Dies kann das OCR-Ergebnis erheblich verbessern, insbesondere bei PDF-Scans mit niedriger Auflösung.
Optimize for table recognition: if set to true, the OCR logic makes sure that the parsed text result is always returned line by line. This switch is recommended for table OCR, receipt OCR, invoice processing and all other type of input documents that have a table like structure.

Wenn Sie Ihren eigenen Schlüssel verwenden möchten, müssen Sie auch den API-Schlüssel angeben.

You can get your own free API key by registering onOCR space

Hier ist eine einfache Anleitung.

Suchen Sie den Link "Register for free API key"

Öffnen Sie ihn und sie erhalten ein auszufüllendes Formular.

The form asks you to enter the following data

E-Mail-Adresse
Vorname
Nachname
How do you plan to use the OCR API?

After filling it and submit. You may also need to pass a captcha

Then you will receive a confirmation e-mail

Find the link named "Yes, subscribe me to this list." in that e-mail. Access that link and you will receive API key by e-mail soon.

Microsoft Azure OCR

Dieses Modul verwendet die OCR-API in Microsoft Azure Cognitive Services Computer Vision.

Es werden folgende 24 Sprachen unterstützt

Chinesisch (vereinfacht)
Chinesisch (traditionell)
Tschechisch
Dänisch
Niederländisch
Englisch
Finnisch
Französisch
Deutsch
Griechisch
Ungarisch
Italienisch
Japanisch
Koreanisch
Norwegisch
Polnisch
Portugiesisch
Russisch
Spanisch
Schwedisch
Türkisch
Arabisch
Rumänisch
Serbisch (Kyrillisch)
Serbisch (Latein)
Slowakisch

Einstellungen für diese Engine:

Language: text language for recognition. Auto detection by default.
Detect image orientation: if set to true, the API autorotates the image correctly.

If you use your own key, you should get a subscription key for using Microsoft Computer Vision API from the link below:

Step 1: Create an account on Azure website

Beachten Sie, dass der Schlüssel für die Computer Vision-API erstellt werden muss. Die erste "GET API Key" -Schaltfläche, die Sie bei der Navigation mit einer einzigen Taste finden. Derzeit bietet Microsoft die Möglichkeit, einen Testschlüssel für 7 Tage zu erstellen. Sie können sich auch für ein kostenloses Azure-Konto anmelden, um weitere Informationen zu erhalten. Die Anmeldung erfordert eine Kreditkarte. Wenn Sie bereits ein Abonnementkonto haben, können Sie diesen Schritt überspringen.

Schritt 2: Bereitstellen kognitiver Dienste

Now you have an azure account.

Anmelden beim Azure-Portal

Warten Sie, bis die Meldung "Portal ist bereit" angezeigt wird. Sie sind bei Azure Portal angemeldet.

Suchen Sie den Link "Alle Ressourcen nach allen Diensten" und aktivieren Sie ihn.

Warten Sie, bis die Meldung Blade Alle Ressourcen sind bereit angezeigt wird. Ihr Fokus ist in einem Eingabefeld . Drücken Sie dann die Umschalttaste, und suchen Sie den Menüpunkt "Hinzufügen", und aktivieren Sie ihn.

Warten Sie, bis Sie die Meldung Suche Marktplatz erhalten, geben Sie Cognitive Services ein und drücken Sie die Pfeiltaste-unten. .

Warten Sie, bis die Meldung Liste der Optionen für Cognitive Services angezeigt wird, und drücken Sie die Eingabetaste.

Warten Sie, bis Sie die Meldung erhalten, dass Blade Cognitive Services bereit ist. Drücken Sie die Tabulatortaste oder b, um eine Schaltfläche mit der Bezeichnung Erstellen zu finden, und aktivieren Sie sie.

Wait until you get the message Blade Create is ready, your focus will be an edit box, type a name for this resource. Note that Your resource name can only include alphanumeric characters, '', '-', and can't end with '' or '-'.

Ich wähle NVDA_OCR.

Press tab to go to Subscription combo box. Usually you can leave it as is.

Press tab to go to Location combo box. Choose one close to your current location.

Be sure to remember this since location is required in engine configuration.

Press tab to go to Pricing tie combo box. Usually a free tie like F0 is adequate. If that is not enough you can choose other tier after reading full pricing details in View full pricing details link.

Press tab to go to Create new Resource group edit box. You should create one if you do not have any Resource group. Press tab find Create new button.

Then press tab go to Create Button to create this resource.

Warten Sie, bis Sie die Meldung "Vorgang erfolgreich" erhalten.

Dann finden Sie die Schaltfläche Gehe zu Ressource. Manchmal müssen Sie die Schaltfläche Benachrichtigungen aktivieren, bevor Sie die Schaltfläche Gehe zu Ressource finden können.

Warten Sie, bis Sie die Meldung "Blade Quick Start ist beschäftigt" erhalten.

Suchen Sie den Link mit dem Namen Tasten und aktivieren Sie ihn dann.

Warten Sie, bis die Meldung Blade-Schlüssel verwalten angezeigt wird.

Find edit box named key 1 or key 2. The content of that edit box is the API key required in engine configuration. Press Ctrl-C to copy it for engine configuration

Then you can fill in these two settings required if you use your own API key.

Azure resource Region: the region you choose when deploying Cognitive Services in Azure Portal.
API key: the key you get after successfully deploying Cognitive Services in Azure Portal, KEY 2 is recommended.

Baidu OCR

This one is also a paid API with free quota provided by Baidu.

Baidu OCR supports 10 languages including

Chinesische und englische Mischung
Englisch
Portugiesisch
Französisch
Deutsch
Italienisch
Spanisch
Russisch
Japanisch
Koreanisch

Diese Engine kann auch jede Zeichenposition ermitteln

Es gibt folgende Einstellungen:

Jede Zeichenposition abrufen, erlaubt Ihnen bei unzugänglichen Anwendungen präziser vorgehen zu können. Wenn Sie dies aktivieren, wird die Erkennung etwas langsamer.
Use Accurate API: if is enabled will use a different endpoint. That accurate endpoint takes longer time but has higher quality and (If you use your own API key its price is also higher).

Es verfügt über vier Endpunkte mit separatem Kontingentlimit.

Basic OCR without any information about text location. Currently 50000 times a day.
Basic OCR with information about text location. Currently 500 times a day.
Accurate OCR without any information about text location. Currently 500 times a day.
Accurate with information about text location. Currently 50 times a day.

If you press the gesture which only read result, you are using endpoints without any information about text location.

If you press the gesture which shows an result viewer, you are using endpoints with information about text location.

Obwohl es ein recht großzügiges kostenloses Kontingent bietet, ist seine Website nur auf Chinesisch und nicht leicht zugänglich.

Tencent AI OCR

This API is free to use with frequency limit about two query per second.

If you want to bypass the limit you can register your own API key. The website of this API is Chinese only and not quite accessible.

In den Dokumenten sind keine Informationen zur Sprachunterstützung enthalten. Nach meinem Test werden Chinesisch und Englisch und deren Mischung unterstützt.

Für diese API gibt es keine weiteren Einstellungen.

Änderungsprotokoll

0.19

Kompatibel mit NVDA 2020.2
Add Tencent Cloud OCR engine sponsored by Tencent Cloud and Aceessibility Research Association
Sougou OCR und Machine Learning Engine von Oliver Edholm entfernt, da sie nicht mehr verfügbar sind.
Fix public endpoint on NVDA China Site

0.18

Die Erweiterung ist kompatibel mit Python 3
Introduce the concept of recognition source type and engine type to reduce gesture usage.
Add a new unassigned gesture to cycle through different recognition source types.
Add a new unassigned gesture to cycle through different recognition engine types.
Add a new gesture to recognize according to image source and engine type setting.
Add a new unassigned gesture to show previous result in a virtual result document.

0.17

Folgende Fehlerbehebungen:
- Springen Sie direkt zum Feld, wenn Sie im Einstellungsdialog zu online Bildbeschreiber wechseln
- Falsche Beschreibung in Azure Analyzer behoben

0.16

Befehl zum Abbrechen der Erkennung hinzugefügt
Folgende Fehlerbehebungen:
- CheckListBox-Statusänderung nicht angekündigt
- Befehl zum vertauschen des Effekts eines wiederholten Befehls, der in der Online-Bildbeschreibung nicht funktioniert

0.15

Option hinzugefügt, um ein Fenster mit einer Nachricht anstelle einer Sprach- oder Braille-Nachricht für Textergebnisse zu öffnen
Kontrollkästchen für visuelle Funktionen in Microsoft Azure Image Analyzer in eine CheckBoxList geändert.
Folgende Fehlerbehebungen:
- JPG-Bilddatei kann nicht aus der Zwischenablage geladen werden
- Ergebnisdokumentobjekt wird nach der Erkennung nicht angezeigt.
- Die Position in Ergebnisdokumentobjekten ist nicht zuverlässig, wenn die Bildgröße intern geändert wird.
- Das Ergebnis von Microsoft Azure Image Describer befindet sich in derselben Zeile, wodurch das Navigieren erschwert wird.

0.14

Einige Fehler behoben:
- In Microsoft Azure-Modulen kann kein eigener API-Schlüssel verwendet werden
- Das Textergebnis kann nicht angezeigt werden, wenn eine Braillezeile vorhanden ist

0.13

Sicherstellen , dass die Erweiterung funktioniert, wenn die Plug-Ins ohne Neustart neu geladen werden (NVDA + Strg + F3).

0.12

Die Meldung im Lesemodus von Microsoft Azure-Bildbeschreiber wurde korrigiert
Die akzentuierte Farbe wird jetzt als NVDA-Farbbeschreibung dargestellt.
Verbessertes Ergebnisformat von Microsoft Azure Image Analyzer
Verbesserung des Dokuments gemäß den Kommentaren zur Überprüfung
Inkonsistenz des Befehls wurde behoben.
Strg+Umschalt+NVDA für die Zwischenablage während NVDA+Alt für das Navigator-Objekt
Fehler wenn eine Bildinfo fehlt behoben.

0.11

Bildbeschreibungsfunktion hinzugefügt
Zusammenfassung der Erweiterung in Online-Bildbeschreibung geändert

0.10

Fehler in der Sougou-API behoben durch Nutzung eines benutzerspezifischen API-Schlüssels.
Behebung eines unbekannten Bedienfeldproblems durch Hinzufügen von Einstellungen zu supportedSettings

0.9

Problem der Doppelklick Geste gelöst.
Dokument überarbeitet, um Änderungen im Code widerzuspiegeln.
Klargestellt, welche Art von Zwischenablagebild unterstützt wird und wie man Bilder zur Erkennung kopiert.
Behoben, dass das Ergebnis in der Zwischenablage als Ergebnisdokument geöffnet wird.
Unterstützung hinzugefügt, um den Pfad der kopierten lokalen Bilddatei in der Zwischenablage zu erkennen.

0.8

Benutzerfreundlicher Hinweis hinzugefügt, wenn das Erkennungsergebnis leer ist.
Behoben, dass ein anderer Ort nicht gut mit nicht ASCII-Konfigurationspfad funktioniert

0.6

Proxy-Einstellungen für diejenigen mit Internetzugang hinter einem bestimmten Proxy hinzugefügt.
Es wurden mehrere allgemeine Optionen hinzugefügt.
Unicode-Dekodierungsfehler beim Senden von Unicode-URL an urllib3 behoben.

0.5

Unicode-Fehler behoben, wenn die OCR-Engine eine Bilddatei direkt anstelle der Base64-Kodierung hochlädt.
Änderung des Befehls zum Erkennen der Zwischenablage in Steuerung+Umschalt+NVDA+R, da NVDA+Umschalt+R in Word und Excel zum Definieren von Zeilenköpfen in Tabellen bzw. zum Löschen der Definitionen verwendet wird.

0.4

Installationsfehler behoben, wenn der Konfigurationspfad Nicht-ASCII-Zeichen enthält
Tastenkombination geändert, um nicht mit dem goldenen Cursor zu kollidieren.
Die Standard-Texterkennung wurde zu Microsoft Azure geändert, weil diese die Textsprache automatisch erkennen kann.

0.3

Es wurde eine ausführliche Dokumentation hinzugefügt, die beschreibt wie sie den API-Schlüssel von Microsoft Azure OCR erhalten können
Fehlerbehebung bzgl. einer Neuinstallation.
Die automatische OCR wurde entfernt, da diese Funktion problematisch ist und mit Online-Engines verwechselt werden kann. Auto-OCR wird eine separate Erweiterung sein, wenn es stabil genug ist.