TesseractOCR: An OCR add-on

  • Authors: Rui Fontes, Ângelo Abrantes and Abel Passos do Nascimento Jr.
  • 04/05/2023更新
  • ダウンロード 安定版
  • 互換性: NVDAバージョン 2019.3以降

情報

このアドオンはフリーなオープンソースのTesseract OCRエンジンを使用し、PDF, JPG, TIF, その他の画像ファイルの光学文字認識を、ファイルを開くことなく行ないます。

また、WIAが有効なスキャナーにアクセスして紙の書類にOCRを行なえるようになります。

NVDAメニューの設定(P)に、Tesseract OCR項目が追加され、以下を設定可能です:

  • 認識に使用される言語;
  • 認識されるドキュメントの種類;
  • PDFパスワードを問い合わせするかどうか。この項目にチェックしていて、PDFがパスワードを持っていない場合、パスワードを聞くダイアログでエンターキーを押します;
  • 使用するスキャナ;
  • スキャナの解像度を150から400の間で設定。

このアドオンには英語とポルトガル語が最初から入っています。このアドオンに最初から含まれていない言語が選択されると、ダウンロードされインストールされます。

選択される認識言語が増えると、OCRの行程により時間がかかることに注意して下さい。

ですので、必要な言語のみを使用することをおすすめします。

認識の質は、言語の順序によっても異なることに注意して下さい。

よって、認識結果に満足が行かない場合、言語の順序を変更してみるのも手段の一つです。

ショートカット

初期設定のコマンド:

  • Windows+Control+r - 選択されたドキュメントを認識する;
  • Windows+Control+w -スキャナーを介してドキュメントをスキャンして認識する;
  • Windows+Control+c -スキャン工程をキャンセル。

注意: もっと紙をスキャンしたいかどうか問い合わせるダイアログが現れる前に発行しなければなりません!

認識されたテキストを含む閲覧可能なメッセージが現れるのをお待ち下さい。

認識したテキストを保存したい場合は、どこかのフォルダに保存することを忘れないで下さい。次のOCRプロセスの開始時に結果は削除されます!

このコマンドは「Tesseract OCR」セクションの「入力ジェスチャー」ダイアログで修正出来ます。

既知の問題

「ドキュメントの種類」コンボボックスにて「いろいろ」を選ぶと、認識されたテキストの中に空白行が多数含まれます

これはTesseractにおいて既知の問題で、多くのプロセス時間をかけることなく、まだ解決法が見つかっていません。けれどまだあきらめたわけではありません!

サポートされた言語

このバージョンでサポートされた言語は:

  • Afrikans
  • Albanian
  • Amharik
  • Arabic
  • Armenian
  • Assamese
  • Azerbaijani (Latin)
  • Basque
  • Belarusian
  • Bengali
  • Bosnian
  • Breton
  • Bulgarian
  • Burnese
  • Catalan/Valencian
  • Cebuano
  • Cherokee
  • Chinese simplified
  • Chinese traditional
  • Corsican
  • Croatian
  • Czech
  • Dannish
  • Deutch
  • Dhivehi
  • Dutch (Flemish)
  • Dzongkha
  • English
  • Esperanto
  • Estonian
  • Faroese
  • Filipino
  • Finnish
  • French
  • Galician
  • Georgian
  • Greek
  • Gujarati
  • Haitian
  • Hebrew
  • Hindi
  • Hungarian
  • Icelandic
  • Indonesian
  • Inuktitut
  • Irish
  • Italian
  • Javanese
  • 日本語
  • Kannada
  • Kazakh
  • Khmer (Central)
  • Kirghiz
  • Korean
  • Kurdish Kurmanji
  • Lao
  • Latin
  • Lativia
  • Lituanian
  • Luxembourgish
  • Macedonian
  • Malay
  • Malayalam
  • Maltese
  • Maori
  • Marathi
  • Math / equation detection module
  • Mongolian
  • Nepali
  • Norwegian
  • Occitan
  • Oriya
  • Panjabi
  • Pashto
  • Persian
  • Polish
  • Portuguese
  • Quechua
  • Romanian/Moldave
  • Russian
  • Sanskrit
  • Scottish Gaelic
  • Serbian (Latin)
  • Slovak)
  • Slovenian)
  • Sindhi
  • Sinhalese
  • Spanish
  • Sundanese
  • Swahili
  • Swedish
  • Syriac
  • Tajik
  • Tamil
  • Tatar
  • Telugu
  • Thai
  • Tibetan
  • Tigrinya
  • Tonga
  • Turkish
  • Uighur
  • Ukrainian
  • Urdu
  • Uzbek (Latin)
  • Vietnamese
  • Welsh
  • West Frisian
  • Yiddish
  • Yoruba

サポートされた画像の種類

このアドオンは以下の種類のファイルをサポートしています:

  • PDF
  • jpg
  • tif
  • png
  • bmp
  • pnm
  • pbm
  • pgm
  • jp2
  • gif
  • jfif
  • jpeg
  • tiff
  • spix
  • webp