Google OCR (Tesseract-OCR) 辞書と変換バグについて

ocr

#1

お世話になっております。

現在、Citrix環境でのテストを行っております。そこで2つの質問があります。

「OCR Engines in Studio - Setup and Languages」

1、v3.04の辞書で動作させる方法
上記ページの指示に従って、Tesseract-OCR v3.04の日本語辞書をダウンロードし、所定のフォルダに置くと、以下のエラーが出て実行できません。
⇒ OCR method failed to scrape this Region
これは、この辞書が使えないということでしょうか。解決策があればご教示いただけませんでしょうか。

2、v3.02の辞書で数字の読み取りがなぜか漢数字になってしまうことへの対処法
Tesseract-OCR v3.02の辞書を取得して動かしてみたところ、アラビア数字の1を漢数字の一として認識してしまい実行結果が 一996年などとなってしまい、困惑しています。
辞書が v3.02しか使えないということであれば、これらをちゃんと 1996年として認識させる方法をご教示いただけませんでしょうか。


#2

@_Chuki
カスタマーサポートから現象の再現手順とワークフローおよび再現データを送っていただけますか?(UiPath Platformご契約済み、またはご契約検討中の場合のみ)
https://www.uipath.com/ja/customer-support


#3

@_Chuki さん、こんにちは
今朝、フォーラムみたらUiPath 2018.1.0がリリースされ、Tesseract 4.0になったようなのでバージョンアップすると改善されるかもしれません。
私の所でもTesseract3.0は実用に耐えがたく、詳しい人に4.0を使えとアドバイスをもらったことがあるので。私もこれから評価します。


#4

ありがとうございます。正直、3台でCitrixの読み込みとかはあまり現実的ではなかったので早速確認させていただきます。

以上、よろしくお願いします。