nk_tecroom
(Tsutomu Asari)
1
<やりたい事>
画像のPDFの「2 案件名」からデータを取得し、
Excelに貼り付けたいと考えております。
呪文のような”案件名”の連続(3行)を取得する方法はありますでしょうか?

<データの条件>
この案件名は、1行だけだったり、長ければ3行の場合もあります。
<現在の実装シナリオ>
画像認識で”案件名”を探し、案件名の先頭をクリック後、[Send Hotkey]で
Shift+Endで1行分の文字列を取得でき、Excelに貼り付けることが出来ています。
■問題点■
この案件名が【複数行】の場合がある為、Shift+↓ の操作で複数行を
選択しようとすると、”3 契約区分”まで選択してしまい、不要な文字列が
含まれてしまいます。
<他に試したこと>
1.テキストボックス内でCtrl+A ⇒ ドキュメント全体を選択してしまいNG
2.OCR系アクティビティ ⇒ 文書構成(配置)が崩れてしまいNG
3.全体を選択してテキストファイルへコピー ⇒ 文書構成(配置)が崩れてしまいNG
ご教授お願い致します!
mths
2
こんにちは。
案件名横のテキストボックス情報を取得したいのですよね?
テキストボックスをクリック後の[Send HoyKey]を ctrl + Aにすることで行数にかかわらず全行取得できます。
的外れな回答でしたら申し訳ありません。
nk_tecroom
(Tsutomu Asari)
3
@mths さん
コメントありがとうございます。
業務対象のPDFが「くせ者」でして、案件名の横のテキストボックスで
Ctrl+Aすると、PDF内のテキスト全体が選択されてしまうのです。
全体をコピーしてテキストファイルに張り付けたり、
OCR系アクティビティ を使って文字データを取得すると
前後関係(配置)がめちゃくちゃになって使えませんでした。
なので、困っております、、、。
mths
4
一例ですが、行の数を取得した後にfor each文をその数だけ回し一行ずつ取得。
テキストボックスへappend lineを使って貼り付け。(改行が出ますのでそこでも処理が、、、)
といった処理になるかと思われます。
PDFファイルを確認していないので何とも言えませんが、セレクタをうまく操作して案件名のテキストボックスを指定、[send hotkey]でctrl + Aという処理が最もスマートかと思います。
1 Like
Honoka
(Honoka Hayasaka)
5
PDFは、フォーマットとして「なんでもあり」に近いので、画像だけでは判断できない部分が多分にあります。
文書をただの画像にして持たせることも、構造を維持しつつ出力するのも。あるいはその中間で、構造はバラバラだけど文字はデータとしてあるものも。すべて「PDFというフォーマットで作れる」形式なので。
つまり、PDFを出力するソフトウェアの作り次第で、行儀の良いものも、かなり悲惨なものもできます……たとえ元データが同じWordやExcelでも、です。
その上で、上記で書かれている方法で駄目なら、UiPath単体で処理するよりは、Adobe Acrobatで逆変換をかけるか、OCRソフトウェアと連携させた方が無難に思えます。
1 Like
nk_tecroom
(Tsutomu Asari)
6
コメントありがとうございます。
参考にさせて頂きます。
nk_tecroom
(Tsutomu Asari)
7
コメントありがとうございます。
おっしゃる通り、「なんでもあり」なので、UiPath単体の処理ではなく、
別のアプリケーションの利用も検討したいと思います。
案件名の枠内のテキストをトリプルクリック(シングルクリック3回)を行う事で
案件名のテキスト全体だけが選択されないでしょうか。
Senoo
9
PDFの構造がわからないので見当違いかもしれませんが・・・
Shift+End ではなく、
Ctrl+Shift+End を試してみてはいかがでしょうか。
Webサイトの複数行入力欄等では、Ctrl+Shift+Endで、全行選択することができます。