テキスト認識されていないpdfの読み込みについて

sak · March 1, 2018, 9:13am

テキスト認識されていない一覧表のPDFから一部のデータを抽出することは可能でしょうか？
やりたいことは以下のとおりです。

１．紙の一覧表をプリンタでスキャンしPDF化する
２．PDF内の表の特定の列の値を取得する
３．２で取得した値をExcelに書き込む
※PDFのテキスト認識はできない前提

例えば、添付ファイルの「品名コード」と「品名」の各値を取得したいです。
また、複数ページにまたがる場合は、全ページ分取得したいです。
※添付ファイルの場合はテキスト認識されていますが、実際はテキスト認識されません。

もし方法をご存知の方がいらっしゃいましたら、ご教授頂きたいです。
sample.pdf (40.2 KB)

Kingfisher · March 1, 2018, 11:36am

@sak 様
UiPathによりオブジェクト認識できない、元が紙のPDFからテキストデータを取り出す処理を自動化したいということですね。また、表が複数行や複数ページにわたる場合にも対応が必要なのですね。

Get OCR Textというアクティビティを使うと画面上の画像領域をOCRしてテキストを取り出すことが可能ですが、このアクティビティでは複数行にわたる非定型のOCR処理を行うことは非常に困難です。このようなケースに対応するにはUiPathとは独立した既存のOCRソフトウェアを購入し、そのOCRソフトウェアをUiPathから操作してOCRするようオートメーションを構成することをお勧めします。

UiPathは基本的にどのようなOCRソフトウェアであっても操作が可能です。お客様の求められる要件（非定型帳票、帳票登録・分類、バリデーション、手書き認識など）に応じて最適なOCRソフトウェアを選択いただき、UiPathと組み合わせてご使用ください。

sak · March 2, 2018, 12:33am

@Kingfisher 様
ご回答ありがとうございます。
テキスト認識の有無に関わらず、明細行数やページ数が可変のPDFの場合はUiPathの機能のみでは対応が難しいと理解しました。
大変参考になりました。ありがとうございました。

Topic		Replies	Views
PDFのテキスト化された表データをExcelに転記したいフォーラム excel , pdf , studio , studiox	11	6570	March 23, 2021
PDFからのデータ抽出フォーラム pdf , activities , question	5	3034	November 21, 2019
PDFファイルからExcelに文字列転記したいフォーラム pdf-extraction	3	1244	November 12, 2023
同一形式の帳票を複数枚スキャンしたPDFのテキスト一括読取フォーラム document_understanding	1	1405	September 11, 2021
How to extract data from digitize pdf Studio studio , question , activities_panel	4	45	March 28, 2025

テキスト認識されていないpdfの読み込みについて

Related topics