このpdfから複数行のデータを取得できますか?

pdf
activities

#1

<やりたい事>
画像のPDFの「2 案件名」からデータを取得し、
Excelに貼り付けたいと考えております。

呪文のような”案件名”の連続(3行)を取得する方法はありますでしょうか?
annkennmei

<データの条件>
この案件名は、1行だけだったり、長ければ3行の場合もあります。

<現在の実装シナリオ>
画像認識で”案件名”を探し、案件名の先頭をクリック後、[Send Hotkey]で
Shift+Endで1行分の文字列を取得でき、Excelに貼り付けることが出来ています。

■問題点■
この案件名が【複数行】の場合がある為、Shift+↓ の操作で複数行を
選択しようとすると、”3 契約区分”まで選択してしまい、不要な文字列が
含まれてしまいます。

<他に試したこと>
1.テキストボックス内でCtrl+A ⇒ ドキュメント全体を選択してしまいNG
2.OCR系アクティビティ ⇒ 文書構成(配置)が崩れてしまいNG
3.全体を選択してテキストファイルへコピー ⇒ 文書構成(配置)が崩れてしまいNG

ご教授お願い致します!


#2

こんにちは。
案件名横のテキストボックス情報を取得したいのですよね?

テキストボックスをクリック後の[Send HoyKey]を ctrl + Aにすることで行数にかかわらず全行取得できます。
的外れな回答でしたら申し訳ありません。


#3

@mths さん
コメントありがとうございます。

業務対象のPDFが「くせ者」でして、案件名の横のテキストボックスで
Ctrl+Aすると、PDF内のテキスト全体が選択されてしまうのです。

全体をコピーしてテキストファイルに張り付けたり、
OCR系アクティビティ を使って文字データを取得すると
前後関係(配置)がめちゃくちゃになって使えませんでした。

なので、困っております、、、。


#4

一例ですが、行の数を取得した後にfor each文をその数だけ回し一行ずつ取得。
テキストボックスへappend lineを使って貼り付け。(改行が出ますのでそこでも処理が、、、)
といった処理になるかと思われます。

PDFファイルを確認していないので何とも言えませんが、セレクタをうまく操作して案件名のテキストボックスを指定、[send hotkey]でctrl + Aという処理が最もスマートかと思います。


#5

PDFは、フォーマットとして「なんでもあり」に近いので、画像だけでは判断できない部分が多分にあります。
文書をただの画像にして持たせることも、構造を維持しつつ出力するのも。あるいはその中間で、構造はバラバラだけど文字はデータとしてあるものも。すべて「PDFというフォーマットで作れる」形式なので。
つまり、PDFを出力するソフトウェアの作り次第で、行儀の良いものも、かなり悲惨なものもできます……たとえ元データが同じWordやExcelでも、です。

その上で、上記で書かれている方法で駄目なら、UiPath単体で処理するよりは、Adobe Acrobatで逆変換をかけるか、OCRソフトウェアと連携させた方が無難に思えます。


#6

コメントありがとうございます。
参考にさせて頂きます。


#7

コメントありがとうございます。

おっしゃる通り、「なんでもあり」なので、UiPath単体の処理ではなく、
別のアプリケーションの利用も検討したいと思います。


#8

案件名の枠内のテキストをトリプルクリック(シングルクリック3回)を行う事で
案件名のテキスト全体だけが選択されないでしょうか。


#9

PDFの構造がわからないので見当違いかもしれませんが・・・
Shift+End ではなく、
Ctrl+Shift+End を試してみてはいかがでしょうか。

Webサイトの複数行入力欄等では、Ctrl+Shift+Endで、全行選択することができます。