PDFファイルの中身を検索して別ファイルに分離したい

こんにちは
PDFの操作でこまっています

○○資料一式.pdf(Nページある)というPDFファイルを開いて、
検索ワードによって、
ワードAにHITしたページを 資料Aファイル(例えば 1~2ページ目)
ワードBにHITしたページを 資料Bファイル(例えば 3~5ページ目)
ワードにHITしなかったページを 資料Cファイル(例えば 6~N(最終)ページ)
に分けて別ファイル保存したい、
というシナリオを作成しようとしています(ざっくり)
ページ数は可変で、検索ワードも複数あります

■困りごと
検索ボックスはクリックできるのですが、
検索結果の数字および検索窓を閉じる×ボタンがセレクターで選択できません

UiPath.PDF.Activities パッケージを入れてみましたが上記動作には関係なさそうでした
PDFを操作するアプリは Adobe Acrobat Reader バージョン2023.006.20320 です

なにかアドバイスいただけたら助かります!

こんにちは

AdobeReaderを使うよりもUiPathのアクティビティを使った方が良いように思えます。

抽出条件の詳細ですが、
資料Aはp1とp2それぞれにワードAが含まれるということでしょうか?

P2にワードAとワードBがともに含めれていればそれは資料A、資料Bともに抽出するのでしょうか?

ありがとうございます

→運用との兼ね合いで、
フッターあたりにワードを埋め込んでいただければワードAがHitしたページすべてを資料Aにできますが、
運用上 難しければ
ワードAがHitしたページから Nページ分を 資料Aにする、などといった仕組みにする想定です
(ワードAと対象ページ数を表にしてExcel設定ファイルとしてどこかにおいて読み込む想定)

→ワードAでHitしたらそのページは資料Aのみにします
同一ページを複数ファイルに分けることはしません

こんにちは

以下のpostにありますように、UiPath.InteligentOCRActivities packageにあるDigitize Documentアクティビティを用いると、PDFに文字データとして格納されている場合、OCRを使わずともページ単位でテキストを抽出できます。

このページ毎のテキストから、キーワードをマッチさせ必要なページを特定したうえで、
UiPath.Pdf.Activiites pacakgeにあるExtractPDFPageRangeアクティビティで必要ページを切り出せばよいかと思います。

サンプルのPDFとキーワード、期待する出力等があると、たぶんサンプル組むことは可能です。

1 Like

ありがとうございます
試してみます
PDF関連でForumを検索したのですが、類似例が見つけられませんでしたが、
こちらの事例はかなり近いので参考にさせていただきます

実ファイルは がっつり個人情報等はいっているため
サンプル用のファイルが整いましたらまたpostさせていただきます
ありがとうございます
とりいそぎご案内のpostとpakcageを参照します