TesseractOCR

  • Tekijät: Rui Fontes, Ângelo Abrantes ja Abel Passos do Nascimento nuorempi
  • Päivitetty 4.5.2023
  • Lataa vakaa versio
  • Yhteensopivuus: NVDA 2019.3 ja uudemmat

Tietoa

Tämä lisäosa käyttää ilmaista, avoimen lähdekoodin Tesseract-tekstintunnistusmoottoria tekstintunnistuksen suorittamiseen kuvatiedostolle (PDF, JPG, TIF ja muut) tarvitsematta avata sitä.

Se mahdollistaa myös WIA-yhteensopivan scannerin käytön tekstintunnistuksen suorittamiseen paperimuotoisille asiakirjoille.

NVDA:n asetusvalintaikkunaan on lisätty TesseractOCR-kategoria, jossa voit muuttaa seuraavia asetuksia:

  • Tekstintunnistuksessa käytettävät kielet
  • Tunnistettavat asiakirjaformaatit
  • Kysytäänkö PDF-asiakirjan salasanaa. Jos tämä asetus on valittuna ja PDF-ää ei ole suojattu salasanalla, paina Enter salasanaa pyytävässä valintaikkunassa.
  • Valitse käytettävä skanneri
  • Määritä skannerin tarkkuus väliltä 150–400 pistettä tuumalla

Lisäosaan sisältyviä englantia ja portugalia lukuun ottamatta tunnistuskielet ladataan ja asennetaan niitä valittaessa.

Huom: Tekstintunnistus kestää sitä kauemmin, mitä enemmän tunnistuskieliä on valittuna.

Siksi suosittelemme, että käytät vain tarvitsemiasi kieliä.

Huomaa myös, että tunnistuksen laatu voi vaihdella sen mukaan, missä järjestyksessä kielet ovat.

Siksi kannattaa ehkä kokeilla järjestää kielet eri tavalla, jos tunnistuksen tulos ei ole tyydyttävä.

Pikanäppäimet

Oletuskomennot ovat:

  • Windows+Ctrl+R: Suorittaa tekstintunnistuksen valitulle asiakirjalle
  • Windows+Ctrl+W: Skannaa skannerissa olevan asiakirjan ja suorittaa sille tekstintunnistuksen
  • Windows+Ctrl+C: Peruuttaa skannauksen

Huom: Komentoa on käytettävä ennen lisäsivujen skannausta kysyvän valintaikkunan ilmestymistä.

Tunnistettu teksti ilmestyy jonkin ajan kuluttua erilliseen ikkunaan, jossa voit tarkastella sitä.

Muista tallentaa tunnistettu teksti, jos haluat säilyttää sen, koska tunnistuksen tulokset poistetaan, kun seuraava tunnistusprosessi alkaa.

Näitä komentoja on mahdollista muuttaa "Näppäinkomennot"-valintaikkunan "TesseractOCR"-osiossa.

Tunnetut ongelmat

Kun "Asiakirjan tyyppi" -yhdistelmäruudusta valitaan "Useita"-vaihtoehto, tunnistettuun tekstiin tulee todennäköisesti paljon tyhjiä rivejä.

Tämä on tunnettu ongelma Tesseractissa, eikä toistaiseksi ole löytynyt sellaista ratkaisua, jota käytettäessä tiedoston käsittely ei kestäisi kauan.

Tuetut kielet

Tämä versio tukee seuraavia kieliä:

  • afrikaans
  • albania
  • amhara
  • arabia
  • armenia
  • assami
  • azeri (latinalainen)
  • baski
  • valkovenäjä
  • bengali
  • bosnia
  • bretoni
  • bulgaria
  • burma
  • katalaani/valencia
  • cebuano
  • cherokee
  • kiina (yksinkertaistettu)
  • kiina (perinteinen)
  • korsika
  • kroatia
  • tšekki
  • tanska
  • saksa
  • divehi
  • hollanti (flaami)
  • dzongkha
  • englanti
  • esperanto
  • viro
  • fääri
  • filipino
  • suomi
  • ranska
  • galicia
  • georgia
  • kreikka
  • gudžarati
  • haitilainen kreoli
  • heprea
  • hindi
  • unkari
  • islanti
  • indonesia
  • inuktitut
  • iiri
  • italia
  • jaava
  • japani
  • kannada
  • kazakki
  • keski-khmer
  • kirgiisi
  • korea
  • kurdi (kurmandži)
  • lao
  • latina
  • latvia
  • liettua
  • luxemburg
  • makedonia
  • malaiji
  • malajalam
  • malta
  • maori
  • marathi
  • matematiikan / yhtälötunnistuksen moduuli
  • mongoli
  • nepali
  • norja
  • oksitaani
  • orija
  • pandžabi
  • paštu
  • persia
  • puola
  • portugali
  • ketšua
  • romania/moldova
  • venäjä
  • sanskrit
  • gaeli
  • serbia (latinalainen)
  • slovakki
  • sloveeni
  • sindhi
  • sinhali
  • espanja
  • sunda
  • swahili
  • ruotsi
  • syyria
  • tadžik
  • tamili
  • tataari
  • telugu
  • thai
  • tiibet
  • tigrinja
  • tonga
  • turkki
  • uiguuri
  • ukraina
  • urdu
  • uzbekki (latinalainen)
  • vietnam
  • kymri
  • länsifriisi
  • jiddiš
  • joruba

Tuetut kuvaformaatit

Tämä lisäosa tukee seuraavia tiedostotyyppejä:

  • PDF
  • JPG
  • TIF
  • PNG
  • BMP
  • PNM
  • PBM
  • PGM
  • JP2
  • GIF
  • JFIF
  • JPEG
  • TIFF
  • SPIX
  • WebP