『Tesseract OCR』で日本語を抽出する方法

system · March 7, 2025, 5:27am

Question

「Tesseract OCR」アクティビティで日本語を抽出する方法を教えてください。例えば下図のような日本語が記載された PDF ファイルを読み取ると英語が抽出されてしまいます。

Answer

原因

公式ガイドの「言語」プロパティに記載の対応が必要です。

・言語 -
OCR エンジンが UI 要素または画像から文字列を抽出する際に使用する言語です。Google OCR エンジンの場合、このフィールドには、ルーマニア語の場合は「ron」、イタリア語の場合は「ita」、フランス語の場合は「fra」などの言語ファイル接頭辞を含める必要があります。サポートされている言語の接頭辞は、このページにあります。
注: 言語フォルダーをこちらからダウンロードして、ローカルフォルダー %UserProfile%.nuget\packages\UiPath.vision\3.x.x\build\net461\tessdata に追加できます。言語フォルダーをローカルに追加したら、UiPath Studio アプリケーションを再起動してください。

解決策

下記手順をお試しください。

下記 URL へアクセスして画面右側の「⋯」をクリックして「Download」をクリックします。

言語ファイル「jpn.traineddata」がダウンロードフォルダーに保存されたことを確認します。

UiPath Studio 画面左側の「プロジェクト」パネルの検索で「UiPath.Vision」と入力して依存関係パッケージ「UiPath.Vision」のバージョンを確認します。下図例では「3.14.2」です。

ローカルフォルダー「%UserProfile%.nuget\packages\UiPath.vision\3.x.x\build\net461\tessdata」へダウンロードした言語ファイル「jpn.traineddata」をコピーペーストします。「UiPath.Vision」のバージョンが「3.14.2」の場合は「%UserProfile%.nuget\packages\UiPath.vision\3.14.2\build\net461\tessdata」です。

UiPath Studio が起動している場合は一度終了してから UiPath Studio を再び起動して「Tesseract OCR」アクティビティを利用しているオートメーションプロジェクトを開き「Tesseract OCR」アクティビティの「言語」プロパティに「“jpn”」と入力します。

実行結果が日本語で抽出されることを確認します。

Topic		Replies	Views
tessdateOCRエンジンのプルダウンに"日本語"(jpn)を追加したい Studio studio , question , settings	4	2238	May 8, 2022
TesseractOCR で言語選択エラーフォーラム	3	395	March 7, 2024
Version 2021.10.0 でのOCRで InvalidInputLanguageが発生するフォーラム studio , question , activities_panel	12	2200	October 25, 2021
Tesseract OCR 日本語対応できない問題フォーラム robot , question	5	5364	April 17, 2021
OCR / Screen Scrapingで日本語が利用できない。ナレッジベース ocr , studio	0	11324	December 28, 2017

『Tesseract OCR』で日本語を抽出する方法

Question

Answer

原因

解決策

Related topics