複数枚で構成されるPDFから特定の文字列を取得したい

taichi.ueda · October 15, 2020, 1:29am

こんにちは

現在2種類のPDFを読取り、それぞれに記載されているコード番号が一致しているかの確認を行うロボットの作成を行っています。
こちらのPDFがタグなしのため、Read PDF Textアクティビティを用いて全ての文字列を取得した上で、
対象のコードを抜き出そうとしています。

しかし、PDFは1枚ごとでなく複数枚（1万件）となっているため、
Read PDF Textを実行すると全てのページのTextを取得しようとしてしあみ、
うまく取得ができていません。

1枚ずつに分割するのでは、処理が重くなると思われ現状のPDFの構成で読取りをしたいと考えております。
分割せずに1枚ずつRead PDF Textで読取る方法があればご教示ください。

以上よろしくお願いいたします。

Yoichi · October 15, 2020, 1:49am

こんにちは

範囲プロパティを設定すると個別のページを読みこむことができると思います。

img20201015-1

あるいは各ページごとに特徴があれば、全体を読み込んでからString.SplitやRegex.Splitで
ページごとに分割する案もあるかもしれません。

taichi.ueda · October 16, 2020, 8:38am

ありがとうございます。

PDFの枚数取得を行った上で一枚ずつ読取り、
該当の箇所の文字列を取得することできました。

Topic		Replies	Views
PDF注文書の情報の読み取り方フォーラム studio	5	1541	March 24, 2021
【PDFからデータが取得できません】help！！フォーラム activities , studio	7	6833	June 27, 2018
初歩的な質問ですみません。フォーラム studio	1	3865	May 22, 2018
テキスト認識されていないpdfの読み込みについてフォーラム pdf	3	5841	October 29, 2018
PDFファイルの中身を検索して別ファイルに分離したいフォーラム pdf , studio	5	582	October 3, 2023