TesseractOCR: Une extension OCR

  • Auteurs : Rui Fontes, Ângelo Abrantes et Abel Passos do Nascimento Jr.
  • Mis à jour le 04/05/2023
  • Télécharger version stable
  • Compatibilité : NVDA Version 2019.3 et au-delà

Informations

Cette extension utilise le moteur gratuit et à source ouverte Tesseract OCR pour effectuer une reconnaissance de caractères optiques dans un fichier d'image, PDF, JPG, TIF ou autre type, sans qu'il soit nécessaire de l'ouvrir.

Elle peut également numériser et reconnaître un document papier à partir d'un scanner compatible WIA.

Dans les Préférences de NVDA, la catégorie TesseractOCR est ajoutée, où vous pouvez configurer ce qui suit :

  • les langues à utiliser pendant la reconnaissance ;
  • les types de documents à reconnaître ;
  • si doit être demandé ou non un mot de passe PDF. Si vous avez cette option cochée et que le PDF n'a pas de mot de passe, appuyez simplement sur Entrée dans la boîte de dialogue demandant le mot de passe.
  • Sélectionnez le scanner à utiliser;
  • définissez la résolution du scanner entre 150 et 400 dpi.

À l'exception de l'anglais et du portugais, qui sont déjà inclus dans l'extension, les autres langues seront téléchargées et installées lors de la sélection d'une langue qui n'existe toujours pas dans l'extension.

Gardez à l'esprit que à fur et à mesure que le nombre de langues de reconnaissance sélectionnés augmente, le processus OCR prendra plus de temps.

Par conséquent, nous vous recommandons d'utiliser uniquement les langues dont vous avez besoin.

Gardez également à l'esprit que la qualité de la reconnaissance peut varier en fonction de l'ordre des langues.

Par conséquent, si le résultat de reconnaissance n'est pas satisfaisant, Vous voudrez peut-être prouver un autre ordre des langues.

Commandes clavier

Les commandes clavier par défaut sont :

  • Windows+Contrôle+r - Pour reconnaître le document sélectionné;
  • Windows+Contrôle+w - Pour numériser et reconnaître un document à partir du scanner.
  • Windows+Contrôle+c - Pour annuler le processus de numérisation.

Veuillez noter : il doit être émis avant que la boîte de dialogue ne demande si vous souhaitez numériser plus de pages !

Ensuite, attendez simplement que le message de navigation apparaît avec le texte reconnu.

Si vous souhaitez préserver le texte reconnu, n'oubliez pas de l'enregistrer dans un quelconque dossier, car les résultats sont éliminés au début du processus OCR suivant !

Vous pouvez modifier ces commandes dans la boîte de dialogue Gestes de commandes, dans la catégorie "TesseractOCR".

Problèmes connus

Lors du choix de l'option "Divers" dans la zone de liste déroulante "Type de document", le texte reconnu peut apparaître avec de nombreuses lignes vierges.

Il s'agit d'un problème connu de Tesseract et, sans consommer beaucoup de temps de traitement, je n'ai pas encore trouvé de solution. Mais je n'ai pas encore abandonné !

Langues supportées

Les langues supportées dans cette version sont :

  • Afrikaans
  • Albanais
  • Amharique
  • Arabe
  • Arménien
  • Assamais
  • Azerbaïdjanais (Latin)
  • Basque
  • Biélorusse
  • Bengali
  • Bosniaque
  • Breton
  • Bulgare
  • Burmais
  • Catalan / Valence
  • Cébouano
  • Cherokee
  • Chinois simplifié
  • Chinois traditionnel
  • Corse
  • Croate
  • Tchèque
  • Danois
  • Allemand
  • Dhivehi
  • Néerlandais (Flamand)
  • Dzongkha
  • Anglais
  • Esperanto
  • Estonien
  • Féroïen
  • Philippin
  • Finnois
  • Français
  • Galicien
  • Géorgien
  • Grec
  • Gujarati
  • Haïtien
  • Hébreu
  • Hindi
  • Hongrois
  • Islandais
  • Indonésien
  • Inuktitut
  • Irlandais
  • Italien
  • Javanais
  • Japonais
  • Kannada
  • Kazakh
  • Khmère (Central)
  • Kirghiz
  • Coréen
  • Kurde Kurmanji
  • Laotien
  • Latin
  • Letton
  • Lituanien
  • Luxembourgeois
  • Macédonien
  • Malais
  • Malayalam
  • Maltais
  • Maori
  • Marathi
  • Équations mathématiques
  • Mongol
  • Népalais
  • Norvégien
  • Occitan
  • Oriya
  • Panjabi
  • Pashto
  • Persan
  • Polonais
  • Portugais
  • Quechua
  • Roumain / Moldave
  • Russe
  • Sanskrit
  • Gaélique écossais
  • Serbe (Latin)
  • Slovaque
  • Slovène
  • Sindhi
  • Cingalais
  • Espagnol
  • Sundanais
  • Swahili
  • Suédois
  • Syriaque
  • Tajik
  • Tamil
  • Tatar
  • Telugu
  • Thaï
  • Tibetan
  • Tigrinya
  • Tongan
  • Turc
  • Ouïgour
  • Ukrainien
  • Ourdou
  • Ouzbek (Latin)
  • Vietnamien
  • Gallois
  • Frison Ouest
  • Yiddish
  • Yoruba

Types d'images supportées

Cette extension supporte les types de fichiers suivants :

  • PDF
  • jpg
  • tif
  • png
  • bmp
  • pnm
  • pbm
  • pgm
  • jp2
  • gif
  • jfif
  • jpeg
  • tiff
  • spix
  • webp