PDFファイルからExcelに文字列転記したい

こんばんは。UiPath Studio EnterPrise edition最新版を1週間後から使う予定の初心者です。
UiPathはまだPCにインストールしていません。

PDFファイルの文字列をExcel転記するWFを開発予定ですが、
初めてUiPathでPDFファイルを操作するため基本的なことを幾つか教えてください。

1.インストールするするパッケージはUiPath.PDF.Activitiesでよろしいでしょうか?
2.PDFファイルの文字列を変数に取得するアクティビティは、Read PDF Textアクティビティでよろしいでしょうか?
3.このアクティビティはPDFの全テキストを変数に取得するのでしょうか?回答がYESの場合、セレクタで指定して開いたPDFファイルの指定箇所の文字列を取得する方法はありませんか?PDFで表示されているのは印刷文字なのですが、Get Textアクティビティで取得できませんか?

こんばんは。 @gorby ,

  1. You can go to '‘manager package’ and find them, some OCR packages may be useful, for Japanese text, I have used the OCR activity for Chinese, Korean, Japanese, it works well.

  2. Absolutely, reading a PDF file or reading with OCR will return a String variable.

  3. You can specify this on a specific page of that file, or extract it using regex.

  • I use google translate, hope it helps you
    Regards,

@gorby

  1. You can use pdf activities no issues
  2. Read pdf can be used to read it and then can use regex to get the values of possible …this is preferred
  3. If 2 is not an option can go with trying with du (document understanding to get the data as needed using ai center
  4. Selectors also can be used but pdf shpuld not be scanned and accessibility option should be enabled in pdf

Cheers

こんにちは

UiPathでPDFファイルを処理するアプローチは大きく分けて3種類が考えられます。
一つはPDFファイルをアプリケーション(Adobe reader やChrome,Edge等)を用いて開き、そのアプリケーションでのセレクターを用いて処理します。この場合必要なものUiPath.UiAutoamtion.Activiites packageになります。
二つ目はUiPath.PDF.Activities packageを使う方法です。この場合PDFファイルのページ抽出等の操作ができる反面、テキスト取得はページ単位でしかできません。必要なテキストを抽出するためには正規表現等を用います。
三つめはUiPath.IntelligentCOR.Activities packageを使う方法です。いわゆるDocumentUnderstandingFrameworkを使う方法になります。こちら抽出器は基本的にCloudのAIエンジンを使うケースが多いので、コスト面含め留意が必要です。

これらを踏まえて

1.インストールするするパッケージはUiPath.PDF.Activitiesでよろしいでしょうか?

選択肢の一つになります。

2.PDFファイルの文字列を変数に取得するアクティビティは、Read PDF Textアクティビティでよろしいでしょうか?
3.このアクティビティはPDFの全テキストを変数に取得するのでしょうか?

画像ではなく文字として埋め込まれているなら、ページ単位で取得できます。

回答がYESの場合、セレクタで指定して開いたPDFファイルの指定箇所の文字列を取得する方法はありませんか?PDFで表示されているのは印刷文字なのですが、Get Textアクティビティで取得できませんか?

GetTextを使用するのであれば上記のUiPath.UiAutaomtion.Activiities pacakgeを使う方法になりますので、UiPath.PDF.Activities packageが不要になります。(PDF packageではできません)

あるいはUiPath.IntelligentOCR.Activities packageでは座標情報も取得できるので、指定位置の文字列を取得することは可能です。ただしForm抽出器を使う場合は、AutoationCloudのAIユニット(エンタープライズでは基本的に有償)が必要になります。