Descritor en liña de imaxes

Autor: Larry Wang
Compatibilidade con NVDA: da 2018.3 á 2020.2
Descargar versión de desenvolvemento

Este complemento ten por obxecto engadir motores de recoñecemento de imaxes en liña a NVDA.

Hai dous tipos de motores. OCR e descritor de imaxes.

Un OCR extrae texto da imaxe.

Un descriptor de imaxes describe as características visuais nunha imaxe en forma de texto, como descición, color, tipo, puntos de referencia, etc.

Requírese unha conexión a internet para utilizar este complemento, xa que os servizos de descrición de imaxes se proporcionan mediante puntos de terminación API na internet.

Neste complemento chámanse motores.

Hai tres tipos de motor para este complemento.

Motor de OCR en liña
Descritor de imaxes en liña
Motor OCR de Windows 10 (fóra de liña)

Tamén precisas seleccionar a fonte da imaxe de recoñecemento.

Obxecto actualmente no navegador
Xanela actualmente en primeiro plano
A pantalla enteira
Datos de imaxe ou arquivo dende o portapapeis
Ruta a arquivo de imaxe ou URL de imaxe no portapapeis

Atallos de teclado

Una vez escollidos estes tipos, podes comezar o recoñecemento cun xesto.

NVDA+Alt+P Recoñecer obxecto actual de acordo cos axustes de tipo de orixe e motor, Logo ler resultado. Se se preme dúas veces, abrir un documento virtual de resultado.

Hai catro xestos adicionais sen asignar. Por favor asígnaos antes de usalos.

Cambiar entre os diferentes tipos de motores de recoñecemento.

Cambiar entre os diferentes tipos de fontes de recoñecemento.

Cancelar o recoñecemento actual

Este xesto pode ser útil se cres que esperaches moito tempo e queres cancelar.

Tamén algunhas veces non queres que te moleste a mensaxe de recoñecemento porque necesitas revisar mensaxes chegadas tralo comezo do recoñecemento.

Amosar resultado anterior nun documento virtual de resultado.

Aínda que hai unha característica para copiar o resultado ao portapapeis. A información de posición de caracteres non se pode preservar, de xeito que se engade este xesto para solucionar este problema.

Tamén hai catro xestos antigos que se deixaron sen asignar para os usuarios que prefiren os xestos en versións anteriores.

Recoméndase utilizar os novos xestos e cambiar o tipo de motor de acordo coas túas necesidades.

Recoñecer obxecto actual no navegador de obxectos co motor Online OCR Logo ler resultado. Se se preme dúas veces, abrir un documento virtual de resultado.

Recoñece imaxe no portapapeis co motor Online OCR. Logo ler resultado. Se se preme dúas veces, abrir un documento virtual de resultado.

Recoñecer obxecto actual no navegador Logo ler resultado. Se se preme dúas veces, abrir un documento virtual de resultado.

Recoñece imaxe no portapapeis. Logo ler resultado. Se se preme dúas veces, abrir un documento virtual de resultado.

Configuración de motores

Podes escoller motores de recoñecemento e configuralos en detalle na categoría Online Image Describer (Descritor en Liña de Imaxes) no diálogo de opcións do NVDA.

O autor do complemento rexistrou contas con cota de balde na API e configurou un proxy en www.nvdacn.com para que fose máis fácil probar o complemento de primeiras. A cota de probas é limitada e podería ser cancelada polo provedor da API en calquera momento.

É moi recomendable rexistrar unha clave propia na API de acordo coas instrucións en cada motor.

Os seguintes axustes aplícanse a tódolos motores.

Copy recognition result to clipboard (copiar resultado do recoñecemento ao portapapeis): Se está habilitado, o texto de resultado do recoñecemento copiarase ao portapapeis despois do recoñecemento.
Use browseable message for text result (Utilizar mensaxe navegable para resultados de texto): se está habilitado, o texto de resultado do recoñecemento amosarase nunha xanela emerxente no canto de mensaxes por fala e braille.
Swap the effect of repeated gesture with none repeated ones (Intercambiar o efecto de xestos repetidos co dos que non se repiten): por defecto, un documento virtual de resultado amosarase só se premes o xesto correspondente dúas veces, se o utilizas con frecuencia podes habilitar esta opción de maneira que só necesites premelo unha vez para abrir un visor do resultado.
Enable more verbose logging for debug purpose (Habilitar rexistro máis verboso para tarefas de depuración): algúns rexistros son esenciais para depurar mais afectan ao rendemento e ocupan moito espazo. Activa isto só se cho indica o autor do complemento ou un desenvolvedor de NVDA.
Proxy type (Tipo de proxy): Que tipo de proxy estás a utilizar. Se non sabes que é un proxy, só déixao como está.
Proxy address (enderezo do proxy): URL completa do teu proxy. Se non sabes que é un proxy, só déixao como está.

Os seguintes axustes serven para o mesmo en tódolos motores, descríbense aquí para aforrar espazo.

API Access Type (tipo de Acceso á API): isto controla como obtés acceso aos puntos de terminación da API correspondentes.
- Se elixes "Use public quota" (Utilizar cota pública), utilizarás cota de balde nunha conta rexistrada polo autor do complemento.
- Se escolles "Use your own API key" (Utilizar a túa propia clave na API), este complemento utilizará cota da túa propia conta.
App ID (ID da aplicación), API key (clave na API) ou API Secret Key (clave Secreta na API): Se queres utilizar cota da túa propia conta requírense os tokens de acceso correspondentes. Algúns motores só necesitan a clave na API. Algúns motores necesitan dous tokens. Só son válidos se escolles "Use your own API key" (Utilizar a túa propia clave na API) en API Access type (tipo de Acceso á API).

Ten en conta que a calidade e exactitude dos resultados están afectadas por varios factores.

Modelos e técnicas utilizados polo provedor do motor
Calidade da imaxe subida
Está o obxecto do navegador oculto tras algunha outra cousa
Reoslución da pantalla

Descrición en liña de imaxes

Aquí hai tres motores dispoñibles.

Microsoft Azure Image Analyser

Este motor extrae un rico conxunto de características visuais basadas no contido da imaxe.

Este motor só está en inglés. Se queres descricións noutros idiomas, podes utilizar Microsoft Azure Image Describer

As características visuais inclúen:

Adultos - detecta se a imaxe é pornográfica (se representa nudez ou un acto sexual). O contido sexualmente suxestivo tamén se detecta.
Marcas - detecta distintas marcas dentro dunha imaxe, incluíndo a ubicación aproximada. A discusión das marcas só está dispoñible en inglés.
Categorías - categoriza o contido da imaxe de acordo cunha taxonomía definida na documentación.
Cor - determina a cor de acento, a cor dominante, e se unha imaxe é en branco e negro.
Descrición - describe o contido da imaxe cunha oración completa nos idiomas soportados.
Caras - detecta se hai caras presentes. Se as hai, xera coordenadas, xénero e idade.
TipodeImaxe - detecta se a imaxe é clip art ou un dibuxo de liña.
Obxectos - detecta distintos obxectos dentro dunha imaxe, incluíndo a súa ubicación aproximada. A discusión de obxecto está só dispoñible en inglés.
Etiquetas - etiqueta a imaxe cunha lista detallada de palabras relacionada co contido da imaxe.

Algunhas características tamén proporcionan detalles adicionais:

Celebridades - identifica celebridades se se detectaron na imaxe.
Puntos de referencia - identifica puntos de referencia se se detectaron na imaxe.

Microsoft Azure Image describer

Este motor xera unha descrición dunha imaxe en linguaxe de lectura para humanos con oracións completas. A descrición está baseada nunha colección de etiquetas de contido, que son devoltas tamén pola operación.

Pódese xerar máis de unha descrición para cada imaxe. As descricións ordéanse pola súa nota de confiabilidade.

Hai dous axustes para este motor.

Language (Lingua): O idioma no que o servizo devolverá unha descrición da imaxe. Inglés por defecto.
Max Candidates (Máximo de Candidatas): Número máximo de descricións candidatas a ser devoltas. O predeterimnado é 1.

Online OCR (OCR en liña)

Os motores en liña confían no uso e a presenza dos seguintes servizos.

https://www.nvdacn.com

https://ocr.space/ocrapi

https://azure.microsoft.com/en-us/services/cognitive-services/

http://ai.qq.com

http://ai.baidu.com

http://ai.sogou.com/

https://intl.cloud.tencent.com

Motores

Hai cinco motores dispoñibles.

OCR de Tencent Cloud

Esta API é mantida por Tencent Cloud e Aceessibility Research Association, cunha cota de 15000 ó día.

Este motor soporta 19 idiomas.

Mestura de chinés e inglés
Xaponés
Coreano
Español
Francés
Alemán
Portugués
Vietnamita
Malaio
Ruso
Italiano
Holandés
Sueco
Finés
Dinamarqués
Noruegués
Húngaro
Tailandés
Latín

Aquí están as opcións para este motor.

Language (Lingua): Idioma do texto para recoñecemento. Detección automática por defecto.

OCR space

Ésta é unha API de pagamento con cuota de balde fornecida por OCR Space

Soporta 24 linguas

Árabe
Búlgaro
Chinés (simplificado)
Chinés (tradicional)
Croata
Checo
Dinamarqués
Holandés
Inglés
Finés
Francés
Alemán
Grego
Húngaro
Coreano
Italiano
Xaponés
Polaco
Portugués
Ruso
Esloveno
Español
Sueco
Turco

Aquí están as opcións para este motor:

Language (lingua): Idioma do texto a recoñecer. Inglés por defecto.
Detect image orientation (Detectar orientación de imaxe): Se se marca, a API autorrota a imaxe correctamente.
Escalar imaxe para mellor calidade: Se se verifica, a API fai algún escalado virtual. Isto pode mellorar o resultado do OCR de forma significativa, especialmente en escaneados PDF de baixa resolución.
Optimize for table recognition (Optimizar para recoñecemento de táboa): Se se marca, a lóxica do OCR asegúrase de que o resultado de texto analizado sexa sempre devolto liña a liña. Esta caixa de verificación recoméndase para OCR de táboas, recibos, facturas e calquera outro tipo de documentos de entrada que teñan unha estructura de táboa.

Se queres utilizar a túa propia clave, necesitas especificar tamén API Key (clave da API).

Podes obter a túa propia clave da API de balde rexistrándote en OCR space

Aquí vai unha simple guía.

Busca a ligazón "Register for free API key" (Rexistrarse para clave da API de balde)

Fai click nela e atoparás un formulario para encher.

O formulario pídeche a introdución dos seguintes datos

Email Address (enderezo de correo electrónico)
First Name (primeiro nome ou nome/s de pía)
Last Name (apelido/s)
How do you plan to use the OCR API? (como tes pensado utilizar a API OCR?)

Logo de enchelo envíao. Tamén poderías ter que pasar un captcha

Despois recibirás un e-mail de confirmación

Busca a ligazón denominada "Yes, subscribe me to this list." (Si, subscríbeme a esta listaxe.) nesa mensaxe. Acceda a dita ligazón e axiña recibirás a clave da API por correo electrónico.

Microsoft Azure OCR

Este motor utiliza OCR API en Microsoft Azure Cognitive Services Computer Vision.

Soporta 24 linguas incluíndo

Chinés simplificado
Chinés tradicional
Checo
Dinamarqués
Holandés
Inglés
Finés
Francés
Alemán
Grego
Húngaro
Italiano
Xaponés
Coreano
Noruegués
Polaco
Portugués
Ruso
Español
Sueco
Turco
Árabe
Rumano
Serbio Cirílico
Serbio Latino
Eslovaco

Aquí están as opcións para este motor:

Language (Lingua): Idioma do texto para recoñecemento. Detección automática por defecto.
Detect image orientation (Detectar orientación de imaxe): Se se marca, a API autorrota a imaxe correctamente.

Se utilizas a túa propia clave, debes obter unha clave de subscripción para utilizar a API de Microsoft computer Vision dende o link embaixo:

Paso 1: Crear unha conta no sitio web de Azure

Por favor observa que a clave debe crearse para a API de Computer vision. O primeiro botón "GET API key"(OBTER clave da API) que atopes coa navegación cunha soa letra. Actualmente Microsoft da a opción de crear una clave de proba de 7 días. Tamén podes dar de alta unha unha conta gratuíta de Azure para máis campo. O rexistro require tarxeta de crédito. Se xa tes unha conta de subscripción podes saltar este paso.

Paso 2: Despregar cognitive Services

Agora xa tes unha conta Azure.

Empeza iniciando sesión en Azure Portal

Agarda ata obter a mensaxe Portal Is Ready (Portal está listo) estás identificado en Azure Portal.

Busca a ligazón denominada all resources (tódolos recursos) despois do botón All services (tódolos servizos) e actívaa.

Agarda ata obter a mensaxe Blade all resources are ready (A lapela All resources -tódolos recursos- está lista), o teu foco estará nunha caixa de edición, logo preme shift tab busca un elemento de menú chamado add (engadir) e actívao.

Agarda ata obter a mensaxe Search the marketplace (Procurar no mercado), escribe cognitive Services e preme frecha abaixo.

Agarda ata obter a mensaxe List of options cognitive Services (Lista de opcións cognitive Services) un de cinco, logo preme intro.

Agarda ata obter a mensaxe Blade cognitive Services is ready (A lapela cognitive Serivces está lista) preme tab ou b para buscar un botón co nome de Create (Crear) actívao.

Agarda ata obter a mensaxe Blade Create is ready (A lapela Create -Crear- está lista), o teu foco estará nunha caixa de edición, escribe un nome para este recurso. Ten en conta que o teu nome de recurso só pode incluír caracteres alfanuméricos, '', '-', e non pode rematar con '' nin '-'.

Escollo NVDA_OCR.

Preme tabulador para ir á caixa combinada subscription (subscrición). Polo xeral podes deixalo como está.

Preme tabulador para ir á caixa combinada Location (Ubicación). Escolle unha preto da túa ubicación actual.

Asegúrate de recordar isto xa que a ubicación requírese na configuración do motor.

Preme tabulador para ir á caixa combinada Pricing tie (Cota). Normalmente unha cota de balde como F0 é adecuada. Se non é suficiente podes escoller outra cota tras ler os detalles completos dos prezos na ligazón view full pricing details (Ver detalles completos dos prezos).

Preme tabulador para ir á caixa de edición Create new Resource group (Crear novo grupo de Recursos). Deberías crear un se non tes ningún grupo de recursos. Preme tab busca o botón Create new (Crear novo).

Logo preme tabulador vai ao botón Create (crear) para crear este recurso.

Agarda ata obter a mensaxe Deployment succeeded (O despregamento foi exitoso).

Logo busca o botón go to resource (Ir a recurso) en ocasións necesitarás ir arriba para activar o botón Notifications (Notificacións) antes de atopar o botón go to resource.

Agarda ata obter a mensaxe blade quick Start is busy (Lapela Quick Start -Inicio Rápido- está ocupada).

Busca a ligazón denominada keys (claves), logo actívaa.

Agarda ata obter a mensaxe blade Manage keys is ready (A lapela Manage keys -Administrar claves- está lista).

Busca a caixa de edición denominada key (clave) 1 ou key 2. O contido desa caixa de edición é a clave da API precisada na configuración do motor. Preme Ctrl-C para copiala á configuración do motor.

Despois poderás encher os dous axustes requeridos se usas a túa propia clave da API.

Azure resource region (Rexión do recurso Azure): A rexión que elixiches ao despregar cognitive Services en Azure Portal.
API key (clave da API): A clave que obtiveches tras despregar con éxito Cognitive Services en Azure Portal, recoméndase a Key (Clave) 2.

Baidu OCR

Ésta tamén é unha API de pagamento con cota gratuita proporcionada por Baidu.

Baidu OCR soporta 10 idiomas, que inclúen

Mestura de chinés e inglés
Inglés
Portugués
Francés
Alemán
Italiano
Español
Ruso
Xaponés
Coreano

Este motor tamén pode obter a posición de tódolos caracteres

Aquí están os seus axustes:

Get position of every character (Obter posición de tódolos caracteres) permíteche realizar operación máis precisa nalgunhas aplicacións inaccesibles. Habilitar isto fará o recoñecemento lixeiramente máis lento.
Use Accurate API (Utilizar Accurate API -API Precisa-): se se habilita utilizará un punto de terminación diferente. Dito punto preciso gasta maior tempo mais ten maior calidade e (se utilizas a túa propia clave da API o seu prezo é tamén máis alto).

Ten catro puntos de terminación con límites de cota separados.

Basic OCR (OCR Básico) sen ningunha información sobre a ubicación do texto: Actualmente 50000 veces ao día.
Basic OCR (OCR Básico) con información sobre a ubicación do texto: Actualmente 500 veces ao día.
Accurate OCR (OCR Preciso) sen ningunha información sobre a ubicación do texto: Actualmente 500 veces ao día.
Accurate OCR (OCR Preciso) con información sobre a ubicación do texto: Actualmente 50 veces ao día.

Se premes o xesto que só le o resultado, estás a utilizar os puntos de terminación sen ningunha información sobre a ubicación do texto.

Se premes o xesto que amosa un visor de resultado, estás a utilizar o punto de terminación con información sobre ubicación do texto.

Malia proporcionar unha xenerosa cota gratuíta, o seu sitio web só está en chinés e non é moi accesible.

Tencent AI OCR

Esta API é de balde cun límite de frecuencia de sobre dúas consultas por segundo.

Se desexas saltar os límites podes rexistrar a túa propia clave da API. O sitio web desta API tamén está só en chinés e tampouco é moi accesibles.

Non hai información sobre o soporte de idiomas na documentación destas API. De acordo coas miñas probas sopórtanse chinés, inglés e estes dous mesturados.

Non hai configuración adicional para estas API.

Rexistro de Trocos

0.19

Compatible con NVDA 2020.2
Engadido o motor de OCR Tencent Cloud fornecido por Tencent Cloud e Aceessibility Research Association
Eliminados sougou OCR e Machine Learning Engine de Oliver Edholm por non estar dispoñibles.
Arranxado o punto de terminación público no sitio de NVDA China

0.18

Compatible con python3
Introducido os conceptos de tipo de fonte de recoñecemento e tipo de motor para reducir o uso de xestos.
Cngadido un novo xesto sen asignar para cambiar entre os diferentes tipos de fontes de recoñecemento.
Engadido un novo xesto sen asignar para cambiar entre os distintos tipos de motores de recoñecemento.
Engadido un novo xesto para recoñecer de acordo cos axustes de fonte da imaxe e tipo de motor.
Engadido un novo xesto sen asignar para amosar o resultado anterior nun documento virtual de resultados.

0.16

Solucionar as seguintes incidencias:
- Salta rdirectamente ao panel ao cambiar a onlineImageDescriber no diálogo de opcións
- Arranxar descricións incorrectas en azure analyzer

0.16

Engadir xesto cancelar recoñecemento
Solucionar as seguintes incidencias:
- Cambio na lista de caixas de verificación non anunciados
- Swap the effect of repeated gesture (Intercambiar efecto de xesto repetido) non funciona no descritor en liña de imaxes

0.15

Engadir opción para abrir unha xanela contendo a mensaxe no canto da mensaxe de fala ou braille en resultados de texto
Cambiar caixas de verificación para características visuais en Microsoft Azure Image analyzer a unha Lista de Caixas de Verificación.
Solucionar as seguintes incidencias:
- Imposible cargar arquivo de imaxe jpg dende o portapapeis
- Obxecto de documento de resultado non se amosa tralo recoñecemento.
- A posición en obxectos de documentos de resultado non é fiable se a imaxe se redimensionou internamente.
- O resultado de Microsoft Azure Image Describer está todo na mesma liña, que fai difícil navegar por él.

0.14

Arranxados algúns erros:
- Imposible utilizar a túa propia clave da API en motores de Microsoft Azure
- Imposible obter resultado do texto se hai unha pantalla braille

0.13

Asegurarse de que o complemento funciona ao recargar os complementos sen reiniciar (NVDA+control+F3)

0.12

Arranxada mensaxe en modo exploración de Microsoft Azure Image Describer
A cor dominante represéntase agora mediante as descricións de cores de NVDA.
Mellorar formato do resultado de Microsoft Azure Image analyzer
Mellorar documento de acordo cos comentarios de revisión
Arranxada inconsistencia en xestos.
Control+Shift+NVDA para o portapapeis e NVDA+Alt para o obxecto no navegador
Arranxado o erro missing imageInfo durante o recoñecemento.

0.11

Engadida capacidade de descricións de imaxes
Cambiar resumo do complemento a descritor en liña de imaxes

0.10

Arranxar erro ao utilizar a clave da API propia do usuario na API de sougou.
Arranxar problema de panel descoñecido engadindo os axustes a supportedSettings

0.9

Arranxar problema de non efecto de xestos de dobre presión.
Documentado revisado para reflectir cambios no código.
Clarificado que tipo de imaxe se soporta e como copiar imaxe para recoñecemento.
Arranxado o problema do recoñecemento do portapapeis non podendo abrir o visor de resultado.
Engadido soporte para recoñecer rutas de arquivos de imaxe locais copiadas no portapapeis.

0.8

Engadida notificación amigable se o resultado do recoñecemento está baleiro.
Arranxado que outro lugar non traballase ben con ruta de configuración non ASCII

0.6

Engadidos axustes de proxy para persoas con acceso a internet tras un proxy específico.
Engadidas diversas opcións xerais.
Arranxar Unicode decode error (erro de decodificación de Unicode) por enviar unha URL Unicode a urllib3.

0.5

Arranxar erro Unicode por cargar o motor OCR a imaxe directamente en lugar de codificada en base64.
Cambiado xesto para recoñecer o portapapeis a control+Shift+NVDA+R, xa que NVDA+Shift+R úsase en Word e Excel para definir os encabezamentos de fila en táboas, ou para eliminar as definicións cando se premen dúas veces.

0.4

Arranxar erro en instalación cando a ruta de configuración contén caracteres non ASCII
Cambiar xesto para evitar colisión con golden cursor.
Cambiar motor predeterminado a Microsoft azure porque pode detectar o idioma do texto automaticamente.

0.3

Engadir documentación detallada sobre como obter a clave da API de Microsoft Azure OCR
Arranxado problema relacionado con nova instalación.
Eliminado auto OCR posto que esta característica é problemática e podería confundirse cos motores en liña. auto OCR será un complemento separado, cando sexa suficientemente estable.