【画面スクレイピング】PDFデータの読み取りエラーについて

UiPathStudioを起動し、画面スクレイピングを使用して、PDFデータからテキストを読み取ろうとするとPDFファイルが落ち「AUTOMATICメソッドがこのUI要素のスクレ―ピングに失敗しました。」というエラーが発生してしまいます。
PDFデータは、 AdobeAcrobatReaderDCを使用して開いており、調査したところ下記改善策があったので試してみましたが、改善されませんでした。

対処:読み上げの際にActive Accessibility を無視するように設定する
1.Adobe Readerを開き、[編集]-[読み上げ]-[読み上げ順序オプション]グループ-[文書から読み上げ順序を推測(推奨)]を選択
2.[スクリーダーオプション]グループー[文書全体を読み上げる]を選択
3.[開始]を選択

4月12日にAdobeAcrobatReaderDCがアップデート( 22.001.20117)されており、
アップデート前は問題なく実行できていたのですが、
現状エラーが出るという状況です。

現在上記アップデートに対して、UipathStudio側で何か対応中等ありますでしょうか・・・。
解決策をご教示いただきたいです。
よろしくお願いいたします。

2 Likes

こんにちは
PDFをスクリーンスクレイピングする代わりに、ここでPDFアクティビティを使用できます

1.スタジオのアクティビティパネルでPDFとして検索

  1. pdfアクティビティが表示されない場合は、[デザイン]タブ->[パッケージの管理]->[すべてのパッケージ]->[UiPath.Pdf]として検索し、インストールします。

3.2つの主な活動を見つけることができるという点で
-PDFを読む
-OCRで読む

4.デジタルドキュメントの場合は最初のものを使用できます
そのpdfが画像またはスキャンされたpdfである場合、2番目のアクティビティが使用されます

これがこれを解決するのに役立つことを願っています

乾杯Q @matsumotomiy

1 Like

こんにちは

以前は動作していたとのことなので、
取り急ぎは、UiPath.UiAutomation.Activities packageのバージョンを最新のものにしてみる(安定版21.10.5 and/or Preview版22.4.2-preview)ことが考えられます。

1 Like

Hi @matsumotomiy ,

PDAアクティベーターの使用は正しいでしょう.

1.PDF.coスコープ
PDF.coサービスへの認証を処理します。

2.PDFからテキストへ
数秒以内にPDFをテキストに変換します。強力なPDFOCRを使用して、スキャンしたPDFからテキストを抽出します。

3.PDFからJSONへ
PDFをJSONに変換します。テキストは仮想テーブルにグループ化されます。 PDF to JSONは、各テキストグループを個別の値としてJSONを生成します。

4.PDFからCSVへ
PDFをCSVファイルに変換します。 PDFからCSVへのコンバーターは大きなファイルでスムーズに動作します。

5.PDFからXMLへ
スムーズで正確なデータ処理と高速のPDFからXMLへの変換でPDFをXMLに変換します。

6.PDF分割
PDFを複数のファイルに分割します。インテリジェントなPDF分割アクティビティを使用して、特定のページを簡単かつスムーズに取得できます。

7.PDFの合併
スムーズで正確なPDFマージを使用して、任意の量のPDFドキュメントを1つのPDFにすばやく簡単にマージします。

8.PDFフィラー
テキスト、画像を既存のPDFファイルに追加します。このアクションを使用して、既存のPDFフォームとドキュメントに入力し、新しい入力可能なPDFフォームを作成できます。

9.PDF.coファイルのアップロード
一時PDFファイルをPDF.coにアップロードします。一時ファイルはデフォルトで1時間保存され、その後自動的に削除されます。

10.PDF.coAPI呼び出し
カスタマイズされたソリューションのためにPDF.coAPIを直接使用します。何百ものPDF.coAPIから選択してください。

回答いただきありがとうございます。

回答いただきありがとうございます。
UiPathStudio側も最新のもので再度インストールして試しましたが、
改善されませんでした。。。

大丈夫
このトピックに関する他の質問はありますか
そうでない場合は、適切なコメントを解決策としてマークしてこのトピックを閉じることができれば素晴らしいと思います

乾杯 @matsumotomiy

ご返信ありがとうございます。
PDFを別の方法で読み取る方法ではなく、
AdobeAcrobatReaderDCで読み取る方法をご教示いただきたいです。

こんにちは

バージョンアップ後のAcrobatReaderに対して、Studioから要素は正しく取得できそうでしょうか?
もし出来そうでしたら指定の仕方を変えてみる手はあるかもしれません。

ご返信いただきありがとうございます。
バージョンアップ後、Studioから要素を正しく取得できない状況です。

こんにちは

効果ないかもですが、要素選択中にF4を押してUiFrmeworkを変更して改善するか見てみてはと
思います。

image

ちなみに手元のActobatReaderDC 2022.001.20117 では特段問題なく要素認識できますが...
他のPDFファイルでも要素が取れない状況でしょうか?