Pdfで文字選択ができません。

imageAdobe Acrobatで開いたPDFからGet Textで要素を取得しようとしたのですが、PDF全体しか選択できません。文字選択ができるのでイメージではないのですが、どうしたら要素を選択できますでしょうか。

@mash さん
PDFファイルそのものに起因しているようです。
こちらではブラウザのページから作成したPDFでは書かれている現象が起きますが、Wordから作成したPDFではページ内の要素を選択できました。

ご回答有難うございます。
今回のPDFファイルはWebサイトにアップされたファイルをローカルに保存したものです。

Hi mash,

アクセシビリティが有効になっているAcrobat Reader DCを使用してPDFファイルを開こうとしてください。これは完全にサポートされており、要素を選択できる必要があります。

Please try to open your pdf file with Acrobat Reader DC with Accessibility enabled. It is fully supported and you should be able to select the elements.

@mash さん、複数のディスプレイをご利用ではありませんか?
私も同じ現象がアカデミーの演習中にUiPath社の提供しているPDFで起きました。
デュアルディスプレイで発生し、シングルディスプレイにすると正常になりました。
ご参考まで

@tango さんが仰ったようにPDFファイルそのものが原因(Adobe ReaderのアクセシビリティAPIが正常にロードされないことによりエレメント認識できない)で、UiPath自体に問題があるわけではありません。UiPathアカデミーでサンプルとして与えられるPDFファイル(例:Incoice A.pdf)ではエレメント認識されませんが、他のPDF(WordやTEXで作成したもの等)は認識出来ることが確認されております。
データによって挙動が変わりますが、基本的な解決策としてFull-textが上手く働かない場合は:
・Read PDF with OCRで全体をOCRで読み取る
もしくは
・Scrape Relativeで読み取り範囲を限定してOCRで読み取る
ということが挙げられます。

2 Likes

ご返信ありがとうございます。
ご意見を参考に色々と試してみたのですが、うまくいかなかったため一旦エクセルファイルにして取得を行いました。

1 Like

ご返信ありがとうございます。
基本的なことは試してみたのですが、うまくいかなかったため一旦エクセルファイルにして取得を行いました。

oviさんの言われている通り、Acrobat Reader DCのアクセスビリティの変更で読み取ることが出来ました。ただ、ファイルを閉じてしまうと駄目ですね。恒久的にするには、何かひと手間いるのでしょう。