ＰＤＦをＯＣＲで読みたいのですが。

neko · November 29, 2019, 6:32am

Tesseract OCR（GoogleOCR）は、 "jpn.traineddata"をダウンロードして、日本語パックを導入したのですが、精度がよくないので、Microsoft OCRを使用したいのですが、アクティビティでは選択できるので実行すると、（ Error performing OCR: Unable to initialize Microsoft engine MicrosoftErrorCreateEngine）エラーとなります。画面スクレイピングを実行すると、OCR エンジンでは、Tesseract OCR しか選択できません。
Microsoft OCRを利用(選択)できるようにしようとするには、どうすれば、いいのでしょうか？その他に利用できるＯＣＲがあればそれでもいいのですが。

ui-path-example · November 29, 2019, 6:39am

@neko さん
外部のサイトですが、ご参考まで
精度が高い日本語対応OCRエンジン(OmniPage OCR)

hawaii_masaya · November 29, 2019, 6:54am

@neko さん
Microsoft Office Document Imaging (MODI)が必要になります。
手順は、以下の記事を参照してください。

https://forum.uipath.com/t/ocr-screen-scraping/18399?u=akishi

UiPath標準のOCRは日本語が苦手です。どのOCR海外製なので日本語にどれだけ力を入れるかは、日本製より差が出てきてしまうのは当然かと。なので、実用性を求める場合は、日本製のOCRを導入を検討してみてください。

neko · November 29, 2019, 7:47am

ui-path-example さん
ありがとうございます。
Tesseract OCRよりはるかに使えそうです。

neko · November 29, 2019, 9:24am

hawaii_masayaさん
ありがとうございます。

ＭＯＤＩを導入してみましたが、画面スクレイピングで、Microsoft OCRが選択できるようになり[Japanese]選択できるのですが、「OCR メソッドがこの UI 要素のスクレイピングに失敗しました」とエラーになりますね。
[English]では、エラーにはならないですね。

また、日本製のＯＣＲはどこがお勧めですか？

neko · November 29, 2019, 9:42am

SharePoint Designer 2007 のインストールは、Microsoft Office Document Imagingのみ選択しました。

Natapong · November 29, 2019, 10:06am

@neko さん、

Setting > Time&Language > Language > Add a preferred Language
このところに言語を追加すると、Microsoft OCRに追加した言語を選べます。

僕のおすすめ精度が高いOCRは Google Cloud Vision OCR です。
OCRテスト
①Microsoft OCR

よく読めますが、日本のシンボルがあまりよめないです（特に「￥」）。
②Google Cloud Vision OCR

日本のシンボルが問題ないです。

Topic		Replies	Views
OCR / Screen Scrapingで日本語が利用できない。ナレッジベース ocr , studio	0	11331	December 28, 2017
How to OCR this accurately Help activities	10	15492	September 12, 2017
MicrosoftOCRが見当たりませんフォーラム studio , question , activities_panel	2	1272	May 10, 2023
Ocr日本語パックのインストールフォーラム	12	8211	May 11, 2018
OCRの使い方フォーラム	4	123	March 9, 2026

ＰＤＦをＯＣＲで読みたいのですが。

Related topics