オフライン環境のUiPath Studioで利用できるOCRエンジン

Question/Problem

オフライン環境のUiPath Studioにおいて利用できるOCRエンジンはありますか。

Resolution

オフライン環境のUiPath Studioで以下の4つのOCRエンジンが利用できます。
PDFファイルからOCRエンジンでデータ抽出する例をご紹介します。

1.UiPath Document OCR

UiPath Studioの「パッケージを管理」より、以下の2つのアクティビティパッケージをインストールします。

・UiPath.PDF.Activities
・UiPath.DocumentUnderstanding.OCR.LocalServer

『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。

・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:UiPath Document OCR

参考:
UiPath Docment OCR

※UiPath Document OCRは日本語の読み取りはできず英語のみの読み取りが可能となります。

2.UiPath Screen OCR

UiPath Studioの「パッケージを管理」より、以下の2つのアクティビティパッケージをインストールします。

・UiPath.PDF.Activities
・UiPath.ComputerVision.LocalServer

『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。

・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:UiPath Screen OCR

UiPath Screen OCRのプロパティ:

ローカルサーバーを利用:「True」

参考:UiPath Screen OCR

※UiPath Screen OCRは日本語の読み取りはできず英語のみの読み取りが可能となります。

3.Omnipage OCR

UiPath Studioの「パッケージを管理」より、以下の3つのアクティビティパッケージをインストールします。

・UiPath.PDF.Activities
・UiPath.OmniPage.Activities
・UiPath.Omnipage.Bundle.Extended

『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。
・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:Omnipage OCR

Omnipage OCRのプロパティ:

プロファイル:「Scan」
単語抽出:チェック
言語:“jpn”

参考:
Omnipage OCR

4.Tesseract OCR
UiPath Studioの「パッケージを管理」より、以下の1つのアクティビティパッケージをインストールします。

・UiPath.PDF.Activities

次のリンクより言語ファイル(jpn.traineddata)を取得します。
https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata

(サービスモードの場合)C:\Program Files\UiPath\Studioフォルダ配下にtessdataフォルダを作成します。
(ユーザーモードの場合)C:\Users\ユーザー名\AppData\Local\Programs\UiPath\Studioフォルダ配下にtessdataフォルダを作成します。

tessdataフォルダに言語ファイルを配置します。

『OCRでPDFを読み込み』アクティビティを配置し、以下の様に設定します。
・ファイル名:対象のPDFファイルのファイルパス
・OCRエンジン:Tesseract OCR

Tesseract OCRのプロパティ:
プロファイル:「Scan」
単語抽出:チェック
言語:“jpn”

参考:
Tesseract OCR