Question/Problem
オフライン環境のUiPath Studioにおいて利用できるOCRエンジンはありますか。
Resolution
オフライン環境のUiPath Studioで以下の4つのOCRエンジンが利用できます。
PDFファイルからOCRエンジンでデータ抽出する例をご紹介します。
1.UiPath Document OCR
UiPath Studioの「パッケージを管理」より、以下の2つのアクティビティパッケージをインストールします。
・UiPath.PDF.Activities
・UiPath.DocumentUnderstanding.OCR.LocalServer
『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。
・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:UiPath Document OCR
![]()
参考:
UiPath Docment OCR
※UiPath Document OCRは日本語の読み取りはできず英語のみの読み取りが可能となります。
2.UiPath Screen OCR
UiPath Studioの「パッケージを管理」より、以下の2つのアクティビティパッケージをインストールします。
・UiPath.PDF.Activities
・UiPath.ComputerVision.LocalServer
『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。
・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:UiPath Screen OCR
![]()
UiPath Screen OCRのプロパティ:
ローカルサーバーを利用:「True」
参考:UiPath Screen OCR
※UiPath Screen OCRは日本語の読み取りはできず英語のみの読み取りが可能となります。
3.Omnipage OCR
UiPath Studioの「パッケージを管理」より、以下の3つのアクティビティパッケージをインストールします。
・UiPath.PDF.Activities
・UiPath.OmniPage.Activities
・UiPath.Omnipage.Bundle.Extended
『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。
・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:Omnipage OCR
Omnipage OCRのプロパティ:
プロファイル:「Scan」
単語抽出:チェック
言語:“jpn”
![]()
参考:
Omnipage OCR
4.Tesseract OCR
UiPath Studioの「パッケージを管理」より、以下の1つのアクティビティパッケージをインストールします。
・UiPath.PDF.Activities
次のリンクより言語ファイル(jpn.traineddata)を取得します。
https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
(サービスモードの場合)C:\Program Files\UiPath\Studioフォルダ配下にtessdataフォルダを作成します。
(ユーザーモードの場合)C:\Users\ユーザー名\AppData\Local\Programs\UiPath\Studioフォルダ配下にtessdataフォルダを作成します。
tessdataフォルダに言語ファイルを配置します。
『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。
・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:Tesseract OCR
Tesseract OCRのプロパティ:
プロファイル:「Scan」
単語抽出:チェック
言語:“jpn”
![]()
参考:
Tesseract OCR