seki_i
(逸平 石)
1
ブラウザに投稿されている複数記事を自動取得し、Excelに出力したいがうまくいかない。現時点では自動操作とエクセルに出力はうまくいってますが、ブラウザの複数の記事を取得しようとすると最高2件までしか取得することができない。
使用しているアクティビティは表抽出を使ってます。ほかに実現できるアクティビティってあったりしますか?
個人的に考えてのは表抽出を複数設定し行うことを考えてますが、そうすると動作や設定管理が難しくなりそうな気がしてます。
理想としては記事全部でなくても、10を超える一定数を取得したいと考えてます。
gorby
(Noteworthy UiPath Forum contributer 2024)
2
表抽出する表のセレクタに通番が付与される属性はありませんか?(例:idx属性)
もしあれば、定番の動的セレクタで行けそうな気がします。
Yoichi
(Yoichi)
3
こんにちは
実際の対象サイトの構造に依存しますので、可能でしたらそのあたりを共有いただくと良いかと思いますが、一般的なアプローチ案としましては
・表抽出(およびパラメーターチューニング)
・繰り返し(各UI要素)
・FindChildrenアクティビティ
・大きな範囲でテキスト取得して、文字列操作で分割・抽出
あたりでしょうか
1 Like
seki_i
(逸平 石)
4
今確認しましたが、通番というのは見当たりませんでした。
gorby
(Noteworthy UiPath Forum contributer 2024)
5
そうであれば、Yoichiさんのご指摘どおり、下記になるかと思われます。
『大きな範囲でテキスト取得して、文字列操作で分割・抽出』あたりが比較的簡単そうです。
・繰り返し(各UI要素)
・FindChildrenアクティビティ
・大きな範囲でテキスト取得して、文字列操作で分割・抽出
1 Like
seki_i
(逸平 石)
6
対象サイトは様々なユーザーが記事を投稿するサイトで、以下の情報を持ちます。
・投稿記事本文
・投稿者名
・投稿日時
・いいね数
・連携リンク
かつ、ページをスクロールすると情報が動的に読み込まれ、ユーザーからは見えるようになります。
その中で取得したいのは投稿記事本文とその連携リンク(例:#〇〇)です。
Yoichi
(Yoichi)
7
これが原因と思います。(動的に読み込まれるのであれば、表抽出時点ではメモリに読み込まれていない可能性があります)
これを回避するには、先に画面を下の方にスクロールしてから、表抽出で取得してみてもらえますか?マウススクロールアクティビティ等が使えると思います。
seki_i
(逸平 石)
8
アドバイス通りにマウススクロールアクティビティを使い、下の方にスクロールしてから抽出行ってみました。ただ思った結果を得られませんでした。
新たに質問ですが、表を抽出は指定した要素?を抽出する際、同類の要素も勝手に取得できるのですか?
すみません、うまく言えず、、、
Yoichi
(Yoichi)
9
これはプレビュー画面の時点で取得できていないということでしょうか?
そうであれば、別要因ですね。
新たに質問ですが、表を抽出は指定した要素?を抽出する際、同類の要素も勝手に取得できるのですか?
すみません、うまく言えず、、、
一定のパターンに基づき抽出します。可能であれば、もう少し具体的な対象の情報を共有いただくと良いかと思います。(スクリーンショット等)
seki_i
(逸平 石)
10
ありがとうございます。
仰る通りプレビュー画面の時点で取得できていないです。
現状の設定スクショを添付しますので、ご確認いただけると幸いです。
ちなみに対象サイトはXになります。
Yoichi
(Yoichi)
11
X(旧Twitter)ではスクレイピングは禁止されていますので、API経由のアプローチの方が良いかもしれません。
seki_i
(逸平 石)
12
確認しました。そのようなので、APIの方を検討します。
system
(system)
Closed
13
This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.