sak
March 1, 2018, 9:13am
1
テキスト認識されていない一覧表のPDFから一部のデータを抽出することは可能でしょうか?
やりたいことは以下のとおりです。
1.紙の一覧表をプリンタでスキャンしPDF化する
2.PDF内の表の特定の列の値を取得する
3.2で取得した値をExcelに書き込む
※PDFのテキスト認識はできない前提
例えば、添付ファイルの「品名コード」と「品名」の各値を取得したいです。
また、複数ページにまたがる場合は、全ページ分取得したいです。
※添付ファイルの場合はテキスト認識されていますが、実際はテキスト認識されません。
もし方法をご存知の方がいらっしゃいましたら、ご教授頂きたいです。
sample.pdf (40.2 KB)
Kingfisher
(Hiroaki Nakata)
March 1, 2018, 11:36am
2
@sak 様
UiPathによりオブジェクト認識できない、元が紙のPDFからテキストデータを取り出す処理を自動化したいということですね。また、表が複数行や複数ページにわたる場合にも対応が必要なのですね。
Get OCR Textというアクティビティを使うと画面上の画像領域をOCRしてテキストを取り出すことが可能ですが、このアクティビティでは複数行にわたる非定型のOCR処理を行うことは非常に困難です。このようなケースに対応するにはUiPathとは独立した既存のOCRソフトウェアを購入し、そのOCRソフトウェアをUiPathから操作してOCRするようオートメーションを構成することをお勧めします。
UiPathは基本的にどのようなOCRソフトウェアであっても操作が可能です。お客様の求められる要件(非定型帳票、帳票登録・分類、バリデーション、手書き認識など)に応じて最適なOCRソフトウェアを選択いただき、UiPathと組み合わせてご使用ください。
1 Like
sak
March 2, 2018, 12:33am
3
@Kingfisher 様
ご回答ありがとうございます。
テキスト認識の有無に関わらず、明細行数やページ数が可変のPDFの場合はUiPathの機能のみでは対応が難しいと理解しました。
大変参考になりました。ありがとうございました。