TesseractOCR: Bir OCR eklentisi

  • Yazarlar: Rui Fontes, Ângelo Abrantes ve Abel Passos do Nascimento Jr.
  • 30/05/2023 tarihinde güncellendi
  • Kararlı sürümü indir
  • Uyumluluk: NVDA sürüm 2019.3 ve sonrası

Bilgi

Bu eklenti, bir görüntü dosyası, PDF, JPG, TIF veya diğerlerini açmaya gerek kalmadan optik karakter tanıma gerçekleştirmek için ücretsiz ve açık kaynaklı Tesseract OCR motorunu kullanır.

Ayrıca, WIA özellikli tarayıcılara erişebilmek ve bir kağıt belgeye OCR yapabilmek için wia-cmd-Tarayıcı'sı kullanır.

NVDA menüsü, Tercihler Ayarlar iletişim kutusuna aşağıdakileri yapılandırabileceğiniz bir TesseractOCR bölümü eklenir:

  • tanımada kullanılacak diller;
  • tanınacak belgelerin türü;
  • pdf parolası istenip istenmeyeceği. Bu seçeneği işaretlediyseniz ve PDF'nin parolası yoksa, parola soran iletişim kutusunda Enter tuşuna basmanız yeterlidir;
  • Kullanılacak tarayıcıyı seçin;
  • tarayıcı çözünürlüğünü 150 ile 400 dpi arasında ayarlayın.

Halihazırda eklentiye dahil olan İngilizce ve Portekizce dışında, eklentide mevcut olmayan bir dili seçtiğinizde diğer diller indirilir ve kurulur.

Seçili tanıma dillerinin sayısı arttıkça OCR işleminin daha uzun süreceğini unutmayın.

Bu nedenle, yalnızca ihtiyacınız olan dilleri kullanmanızı öneririz.

Tanıma kalitesinin dillerin sırasına göre değişebileceğini de unutmayın.

Bu nedenle, tanıma sonucu tatmin edici değilse, başka bir dil sıralaması denemek isteyebilirsiniz.

Kısayollar

Varsayılan komutlar şunlardır:

  • Windows+Control+r - seçilen belgeyi tanımak için;
  • Windows+Control+w - tarayıcı aracılığıyla bir belgeyi taramak ve tanımak için;
  • Windows+Control+c - Tarama işlemini iptal etmek için.

Lütfen dikkat: Daha fazla sayfa taramak isteyip istemediğinizi soran iletişim kutusundan önce verilmiş olması gerekir!

Ardından, göz atılabilir mesajın tanınan metinle birlikte görünmesini bekleyin.

Tanınan metni korumak istiyorsanız, bir sonraki OCR işleminin başlangıcında sonuçlar silineceğinden onu bir klasöre kaydetmeyi unutmayın!

Bu komutlar, "Girdi hareketleri" "TesseractOCR" dalındaki iletişim kutusunda değiştirilebilir.

Bilinen sorunlar

"Belge türü" açılır kutusunda "Çeşitli" seçeneğini seçerken, tanınan metin muhtemelen birçok boş satırla görünüyor

Bu Tesseract ile ilgili bilinen bir sorundur ve çok fazla işlem süresi tüketmeden henüz bir çözüm bulamadım. Ama yine de vazgeçmedim!

Desteklenen diller

Bu sürümde desteklenen diller şunlardır:

  • Afrikaner Dili
  • Arnavutça
  • Amharca
  • Arapça
  • Ermenice
  • Assam dili
  • Azerice (Latin)
  • Bask
  • Belarusça
  • Bengalce
  • Boşnakça
  • Bretonca
  • Bulgarca
  • Burnese
  • Katalanca/Valensiya Dili
  • Cebuano
  • Çeroki
  • Çince Basitleştirilmiş
  • Çince Geleneksel
  • Korsika dili
  • Hırvatça
  • Çekce
  • Danca
  • Almanca
  • Dhivehi
  • Felemenkçe (Flamanca)
  • Dzongkha
  • İngilizce
  • Esperanto
  • Estonyaca
  • Faroece
  • Filipince
  • Fince
  • Fransızca
  • Galiçyaca
  • Gürcüce
  • Yunanca
  • Gujarati
  • Haitice
  • İbranice
  • Hintçe
  • Macarca
  • İzlandaca
  • Endonezya dili
  • İnuitçe
  • İrlandaca
  • İtalyanca
  • Cava dili
  • Japonca
  • Kannada
  • Kazakça
  • Khmer (Merkezi)
  • Kırgızca
  • Korece
  • Kürtçe Kurmanci
  • Laos
  • Latince
  • Letonya
  • Litvanyaca
  • Lüksemburgca
  • Makedonca
  • Malayca
  • Malayalam
  • Malta
  • Maori
  • Marathi
  • Matematik / denklem algılama modülü
  • Moğolca
  • Nepalce
  • Norveççe
  • Oksitanca
  • Ortaca
  • Panjabi
  • Peştuca
  • Farsça
  • Lehçe
  • Portekizce
  • Keçuva
  • Romence/Moldavca
  • Rusça
  • Sanskritçe
  • İskoç Galcesi
  • Sırpça (Latin)
  • Slovakça
  • Slovence)
  • Sintçe
  • Sinhalese
  • İspanyolca
  • Sundan dili
  • Svahili
  • İsveççe
  • Süryanice
  • Tacikçe
  • Tamilce
  • Tatarca
  • Telugu
  • Tay dili
  • Tibet dili
  • Tigrinya
  • Tonga
  • Türkçe
  • Uygurca
  • Ukraynaca
  • Urduca
  • Özbekçe (Latin)
  • Vietnamca
  • Galce
  • Batı Frizce
  • Yidiş
  • Yoruba

Desteklenen resim türleri

Bu eklenti aşağıdaki dosya türlerini destekler:

  • PDF
  • jpg
  • tif
  • png
  • bmp
  • pnm
  • pbm
  • pgm
  • jp2
  • gif
  • jfif
  • jpeg
  • tiff
  • spix
  • webp