TesseractOCR: Une extension OCR

Auteurs : Rui Fontes, Ângelo Abrantes et Abel Passos do Nascimento Jr.
Mis à jour le 04/05/2023
Télécharger version stable
Compatibilité : NVDA Version 2019.3 et au-delà

Informations

Cette extension utilise le moteur gratuit et à source ouverte Tesseract OCR pour effectuer une reconnaissance de caractères optiques dans un fichier d'image, PDF, JPG, TIF ou autre type, sans qu'il soit nécessaire de l'ouvrir.

Elle peut également numériser et reconnaître un document papier à partir d'un scanner compatible WIA.

Dans les Préférences de NVDA, la catégorie TesseractOCR est ajoutée, où vous pouvez configurer ce qui suit :

les langues à utiliser pendant la reconnaissance ;
les types de documents à reconnaître ;
si doit être demandé ou non un mot de passe PDF. Si vous avez cette option cochée et que le PDF n'a pas de mot de passe, appuyez simplement sur Entrée dans la boîte de dialogue demandant le mot de passe.
Sélectionnez le scanner à utiliser;
définissez la résolution du scanner entre 150 et 400 dpi.

À l'exception de l'anglais et du portugais, qui sont déjà inclus dans l'extension, les autres langues seront téléchargées et installées lors de la sélection d'une langue qui n'existe toujours pas dans l'extension.

Gardez à l'esprit que à fur et à mesure que le nombre de langues de reconnaissance sélectionnés augmente, le processus OCR prendra plus de temps.

Par conséquent, nous vous recommandons d'utiliser uniquement les langues dont vous avez besoin.

Gardez également à l'esprit que la qualité de la reconnaissance peut varier en fonction de l'ordre des langues.

Par conséquent, si le résultat de reconnaissance n'est pas satisfaisant, Vous voudrez peut-être prouver un autre ordre des langues.

Commandes clavier

Les commandes clavier par défaut sont :

Windows+Contrôle+r - Pour reconnaître le document sélectionné;
Windows+Contrôle+w - Pour numériser et reconnaître un document à partir du scanner.
Windows+Contrôle+c - Pour annuler le processus de numérisation.

Veuillez noter : il doit être émis avant que la boîte de dialogue ne demande si vous souhaitez numériser plus de pages !

Ensuite, attendez simplement que le message de navigation apparaît avec le texte reconnu.

Si vous souhaitez préserver le texte reconnu, n'oubliez pas de l'enregistrer dans un quelconque dossier, car les résultats sont éliminés au début du processus OCR suivant !

Vous pouvez modifier ces commandes dans la boîte de dialogue Gestes de commandes, dans la catégorie "TesseractOCR".

Problèmes connus

Lors du choix de l'option "Divers" dans la zone de liste déroulante "Type de document", le texte reconnu peut apparaître avec de nombreuses lignes vierges.

Il s'agit d'un problème connu de Tesseract et, sans consommer beaucoup de temps de traitement, je n'ai pas encore trouvé de solution. Mais je n'ai pas encore abandonné !

Langues supportées

Les langues supportées dans cette version sont :

Afrikaans
Albanais
Amharique
Arabe
Arménien
Assamais
Azerbaïdjanais (Latin)
Basque
Biélorusse
Bengali
Bosniaque
Breton
Bulgare
Burmais
Catalan / Valence
Cébouano
Cherokee
Chinois simplifié
Chinois traditionnel
Corse
Croate
Tchèque
Danois
Allemand
Dhivehi
Néerlandais (Flamand)
Dzongkha
Anglais
Esperanto
Estonien
Féroïen
Philippin
Finnois
Français
Galicien
Géorgien
Grec
Gujarati
Haïtien
Hébreu
Hindi
Hongrois
Islandais
Indonésien
Inuktitut
Irlandais
Italien
Javanais
Japonais
Kannada
Kazakh
Khmère (Central)
Kirghiz
Coréen
Kurde Kurmanji
Laotien
Latin
Letton
Lituanien
Luxembourgeois
Macédonien
Malais
Malayalam
Maltais
Maori
Marathi
Équations mathématiques
Mongol
Népalais
Norvégien
Occitan
Oriya
Panjabi
Pashto
Persan
Polonais
Portugais
Quechua
Roumain / Moldave
Russe
Sanskrit
Gaélique écossais
Serbe (Latin)
Slovaque
Slovène
Sindhi
Cingalais
Espagnol
Sundanais
Swahili
Suédois
Syriaque
Tajik
Tamil
Tatar
Telugu
Thaï
Tibetan
Tigrinya
Tongan
Turc
Ouïgour
Ukrainien
Ourdou
Ouzbek (Latin)
Vietnamien
Gallois
Frison Ouest
Yiddish
Yoruba

Types d'images supportées

Cette extension supporte les types de fichiers suivants :

PDF
jpg
tif
png
bmp
pnm
pbm
pgm
jp2
gif
jfif
jpeg
tiff
spix
webp