PDFをOCRで読みたいのですが。

Tesseract OCR(GoogleOCR) は、 "jpn.traineddata"をダウンロードして、日本語パックを導入したのですが、精度がよくないので、Microsoft OCRを使用したいのですが、アクティビティでは選択できるので実行すると、( Error performing OCR: Unable to initialize Microsoft engine MicrosoftErrorCreateEngine)エラーとなります。画面スクレイピングを実行すると、OCR エンジンでは、Tesseract OCR しか選択できません。
Microsoft OCRを利用(選択)できるようにしようとするには、どうすれば、いいのでしょうか?その他に利用できるOCRがあればそれでもいいのですが。

2 Likes

@neko さん
外部のサイトですが、ご参考まで
精度が高い日本語対応OCRエンジン(OmniPage OCR)

@neko さん
Microsoft Office Document Imaging (MODI)が必要になります。
手順は、以下の記事を参照してください。

https://forum.uipath.com/t/ocr-screen-scraping/18399?u=akishi

UiPath標準のOCRは日本語が苦手です。どのOCR海外製なので日本語にどれだけ力を入れるかは、日本製より差が出てきてしまうのは当然かと。なので、実用性を求める場合は、日本製のOCRを導入を検討してみてください。

ui-path-example さん
ありがとうございます。
Tesseract OCRよりはるかに使えそうです。

hawaii_masayaさん
ありがとうございます。

MODIを導入してみましたが、画面スクレイピングで、Microsoft OCRが選択できるようになり[Japanese]選択できるのですが、「OCR メソッドがこの UI 要素 のスクレイピングに失敗しました」とエラーになりますね。
[English]では、エラーにはならないですね。

また、日本製のOCRはどこがお勧めですか?

SharePoint Designer 2007 のインストールは、Microsoft Office Document Imagingのみ選択しました。

@neko さん、

Setting > Time&Language > Language > Add a preferred Language
このところに言語を追加すると、Microsoft OCRに追加した言語を選べます。

僕のおすすめ精度が高いOCRは Google Cloud Vision OCR です。
OCRテスト
①Microsoft OCR


よく読めますが、日本のシンボルがあまりよめないです(特に「¥」)。
②Google Cloud Vision OCR

日本のシンボルが問題ないです。