gorby
(Noteworthy UiPath Forum contributer 2024)
November 12, 2023, 10:43am
1
こんばんは。UiPath Studio EnterPrise edition最新版を1週間後から使う予定の初心者です。
UiPathはまだPCにインストールしていません。
PDFファイルの文字列をExcel転記するWFを開発予定ですが、
初めてUiPathでPDFファイルを操作するため基本的なことを幾つか教えてください。
1.インストールするするパッケージはUiPath.PDF.Activitiesでよろしいでしょうか?
2.PDFファイルの文字列を変数に取得するアクティビティは、Read PDF Textアクティビティでよろしいでしょうか?
3.このアクティビティはPDFの全テキストを変数に取得するのでしょうか?回答がYESの場合、セレクタで指定して開いたPDFファイルの指定箇所の文字列を取得する方法はありませんか?PDFで表示されているのは印刷文字なのですが、Get Textアクティビティで取得できませんか?
Yoichi
(Yoichi)
November 12, 2023, 11:28pm
4
こんにちは
UiPathでPDFファイルを処理するアプローチは大きく分けて3種類が考えられます。
一つはPDFファイルをアプリケーション(Adobe reader やChrome,Edge等)を用いて開き、そのアプリケーションでのセレクターを用いて処理します。この場合必要なものUiPath.UiAutoamtion.Activiites packageになります。
二つ目はUiPath.PDF.Activities packageを使う方法です。この場合PDFファイルのページ抽出等の操作ができる反面、テキスト取得はページ単位でしかできません。必要なテキストを抽出するためには正規表現等を用います。
三つめはUiPath.IntelligentCOR.Activities packageを使う方法です。いわゆるDocumentUnderstandingFrameworkを使う方法になります。こちら抽出器は基本的にCloudのAIエンジンを使うケースが多いので、コスト面含め留意が必要です。
これらを踏まえて
1.インストールするするパッケージはUiPath.PDF.Activitiesでよろしいでしょうか?
選択肢の一つになります。
2.PDFファイルの文字列を変数に取得するアクティビティは、Read PDF Textアクティビティでよろしいでしょうか?
3.このアクティビティはPDFの全テキストを変数に取得するのでしょうか?
画像ではなく文字として埋め込まれているなら、ページ単位で取得できます。
回答がYESの場合、セレクタで指定して開いたPDFファイルの指定箇所の文字列を取得する方法はありませんか?PDFで表示されているのは印刷文字なのですが、Get Textアクティビティで取得できませんか?
GetTextを使用するのであれば上記のUiPath.UiAutaomtion.Activiities pacakgeを使う方法になりますので、UiPath.PDF.Activities packageが不要になります。(PDF packageではできません)
あるいはUiPath.IntelligentOCR.Activities packageでは座標情報も取得できるので、指定位置の文字列を取得することは可能です。ただしForm抽出器を使う場合は、AutoationCloudのAIユニット(エンタープライズでは基本的に有償)が必要になります。