PDFファイルの中身を検索して別ファイルに分離したい

111790 · October 3, 2023, 2:44am

こんにちは
PDFの操作でこまっています

○○資料一式.pdf(Ｎページある)というPDFファイルを開いて、
検索ワードによって、
ワードAにHITしたページを資料Ａファイル（例えば 1～2ページ目）
ワードBにHITしたページを資料Ｂファイル（例えば 3～5ページ目）
ワードにHITしなかったページを資料Ｃファイル（例えば 6～N(最終)ページ）
に分けて別ファイル保存したい、
というシナリオを作成しようとしています（ざっくり）
ページ数は可変で、検索ワードも複数あります

■困りごと
検索ボックスはクリックできるのですが、
検索結果の数字および検索窓を閉じる×ボタンがセレクターで選択できません

UiPath.PDF.Activities パッケージを入れてみましたが上記動作には関係なさそうでした
PDFを操作するアプリは Adobe Acrobat Reader バージョン2023.006.20320 です

なにかアドバイスいただけたら助かります！

Yoichi · October 3, 2023, 2:57am

こんにちは

AdobeReaderを使うよりもUiPathのアクティビティを使った方が良いように思えます。

抽出条件の詳細ですが、
資料Ａはp1とp2それぞれにワードＡが含まれるということでしょうか？

P2にワードＡとワードＢがともに含めれていればそれは資料Ａ、資料Ｂともに抽出するのでしょうか？

111790 · October 3, 2023, 3:03am

ありがとうございます

→運用との兼ね合いで、
フッターあたりにワードを埋め込んでいただければワードAがHitしたページすべてを資料Aにできますが、
運用上難しければ
ワードAがHitしたページから Nページ分を資料Aにする、などといった仕組みにする想定です
（ワードAと対象ページ数を表にしてExcel設定ファイルとしてどこかにおいて読み込む想定）

→ワードAでHitしたらそのページは資料Aのみにします
同一ページを複数ファイルに分けることはしません

Yoichi · October 3, 2023, 3:11am

こんにちは

以下のpostにありますように、UiPath.InteligentOCRActivities packageにあるDigitize Documentアクティビティを用いると、PDFに文字データとして格納されている場合、OCRを使わずともページ単位でテキストを抽出できます。

このページ毎のテキストから、キーワードをマッチさせ必要なページを特定したうえで、
UiPath.Pdf.Activiites pacakgeにあるExtractPDFPageRangeアクティビティで必要ページを切り出せばよいかと思います。

サンプルのPDFとキーワード、期待する出力等があると、たぶんサンプル組むことは可能です。

111790 · October 3, 2023, 3:33am

ありがとうございます
試してみます
PDF関連でForumを検索したのですが、類似例が見つけられませんでしたが、
こちらの事例はかなり近いので参考にさせていただきます

111790 · October 3, 2023, 3:52am

実ファイルはがっつり個人情報等はいっているため
サンプル用のファイルが整いましたらまたpostさせていただきます
ありがとうございます
とりいそぎご案内のpostとpakcageを参照します

Topic		Replies	Views
How to split the pdf file basis on text name Studio excel , pdf , activities , question	26	5241	August 29, 2023
Identify Pages in PDF file contain keyword string Studio studio , question , activities_panel	13	1297	June 22, 2023
Want to split the pdf file basis on text name Studio studio , question , new_feature_request	11	722	August 21, 2023
Extract Pdf pages based on key words Studio studio , question , activities_panel	6	1186	June 6, 2024
Extract PDF oages contain specific text Activities pdf , activities , question	5	1890	October 26, 2022

PDFファイルの中身を検索して別ファイルに分離したい

Related topics