テキスト認識されていないpdfの読み込みについて

pdf

#1

テキスト認識されていない一覧表のPDFから一部のデータを抽出することは可能でしょうか?
やりたいことは以下のとおりです。

1.紙の一覧表をプリンタでスキャンしPDF化する
2.PDF内の表の特定の列の値を取得する
3.2で取得した値をExcelに書き込む
※PDFのテキスト認識はできない前提

例えば、添付ファイルの「品名コード」と「品名」の各値を取得したいです。
また、複数ページにまたがる場合は、全ページ分取得したいです。
※添付ファイルの場合はテキスト認識されていますが、実際はテキスト認識されません。

もし方法をご存知の方がいらっしゃいましたら、ご教授頂きたいです。
sample.pdf (40.2 KB)


#2

@sak
UiPathによりオブジェクト認識できない、元が紙のPDFからテキストデータを取り出す処理を自動化したいということですね。また、表が複数行や複数ページにわたる場合にも対応が必要なのですね。

Get OCR Textというアクティビティを使うと画面上の画像領域をOCRしてテキストを取り出すことが可能ですが、このアクティビティでは複数行にわたる非定型のOCR処理を行うことは非常に困難です。このようなケースに対応するにはUiPathとは独立した既存のOCRソフトウェアを購入し、そのOCRソフトウェアをUiPathから操作してOCRするようオートメーションを構成することをお勧めします。

UiPathは基本的にどのようなOCRソフトウェアであっても操作が可能です。お客様の求められる要件(非定型帳票、帳票登録・分類、バリデーション、手書き認識など)に応じて最適なOCRソフトウェアを選択いただき、UiPathと組み合わせてご使用ください。


#3

@Kingfisher
ご回答ありがとうございます。
テキスト認識の有無に関わらず、明細行数やページ数が可変のPDFの場合はUiPathの機能のみでは対応が難しいと理解しました。
大変参考になりました。ありがとうございました。