複数枚で構成されるPDFから特定の文字列を取得したい

こんにちは

現在2種類のPDFを読取り、それぞれに記載されているコード番号が一致しているかの確認を行うロボットの作成を行っています。
こちらのPDFがタグなしのため、Read PDF Textアクティビティを用いて全ての文字列を取得した上で、
対象のコードを抜き出そうとしています。

しかし、PDFは1枚ごとでなく複数枚(1万件)となっているため、
Read PDF Textを実行すると全てのページのTextを取得しようとしてしあみ、
うまく取得ができていません。

1枚ずつに分割するのでは、処理が重くなると思われ現状のPDFの構成で読取りをしたいと考えております。
分割せずに1枚ずつRead PDF Textで読取る方法があればご教示ください。

以上よろしくお願いいたします。

こんにちは

範囲プロパティを設定すると個別のページを読みこむことができると思います。

img20201015-1

あるいは各ページごとに特徴があれば、全体を読み込んでからString.SplitやRegex.Splitで
ページごとに分割する案もあるかもしれません。

ありがとうございます。

PDFの枚数取得を行った上で一枚ずつ読取り、
該当の箇所の文字列を取得することできました。

1 Like