Question
「Tesseract OCR」アクティビティで日本語を抽出する方法を教えてください。例えば下図のような日本語が記載された PDF ファイルを読み取ると英語が抽出されてしまいます。
Answer
原因
公式ガイドの「言語」プロパティに記載の対応が必要です。
・言語 -
OCR エンジンが UI 要素または画像から文字列を抽出する際に使用する言語です。Google OCR エンジンの場合、このフィールドには、ルーマニア語の場合は「ron」、イタリア語の場合は「ita」、フランス語の場合は「fra」などの言語ファイル接頭辞を含める必要があります。サポートされている言語の接頭辞は、このページにあります。
注: 言語フォルダーをこちらからダウンロードして、ローカル フォルダー %UserProfile%.nuget\packages\UiPath.vision\3.x.x\build\net461\tessdata に追加できます。言語フォルダーをローカルに追加したら、UiPath Studio アプリケーションを再起動してください。
解決策
下記手順をお試しください。
- 下記 URL へアクセスして画面右側の「⋯」をクリックして「Download」をクリックします。
- 言語ファイル「jpn.traineddata」がダウンロードフォルダーに保存されたことを確認します。
- UiPath Studio 画面左側の「プロジェクト」パネルの検索で「UiPath.Vision」と入力して依存関係パッケージ「UiPath.Vision」のバージョンを確認します。下図例では 「3.14.2」です。
- ローカルフォルダー「%UserProfile%.nuget\packages\UiPath.vision\3.x.x\build\net461\tessdata」へダウンロードした言語ファイル「jpn.traineddata」をコピーペーストします。「UiPath.Vision」のバージョンが「3.14.2」の場合は 「%UserProfile%.nuget\packages\UiPath.vision\3.14.2\build\net461\tessdata」です。
- UiPath Studio が起動している場合は一度終了してから UiPath Studio を再び起動して「Tesseract OCR」アクティビティを利用しているオートメーションプロジェクトを開き「Tesseract OCR」アクティビティの「言語」プロパティに「“jpn”」と入力します。
- 実行結果が日本語で抽出されることを確認します。