ブラウザからスクレイピングしたい

ブラウザに投稿されている複数記事を自動取得し、Excelに出力したいがうまくいかない。現時点では自動操作とエクセルに出力はうまくいってますが、ブラウザの複数の記事を取得しようとすると最高2件までしか取得することができない。

使用しているアクティビティは表抽出を使ってます。ほかに実現できるアクティビティってあったりしますか?
個人的に考えてのは表抽出を複数設定し行うことを考えてますが、そうすると動作や設定管理が難しくなりそうな気がしてます。

理想としては記事全部でなくても、10を超える一定数を取得したいと考えてます。

表抽出する表のセレクタに通番が付与される属性はありませんか?(例:idx属性)
もしあれば、定番の動的セレクタで行けそうな気がします。

こんにちは

実際の対象サイトの構造に依存しますので、可能でしたらそのあたりを共有いただくと良いかと思いますが、一般的なアプローチ案としましては
・表抽出(およびパラメーターチューニング)
・繰り返し(各UI要素)
・FindChildrenアクティビティ
・大きな範囲でテキスト取得して、文字列操作で分割・抽出
あたりでしょうか

1 Like

今確認しましたが、通番というのは見当たりませんでした。

そうであれば、Yoichiさんのご指摘どおり、下記になるかと思われます。
『大きな範囲でテキスト取得して、文字列操作で分割・抽出』あたりが比較的簡単そうです。

・繰り返し(各UI要素)
・FindChildrenアクティビティ
・大きな範囲でテキスト取得して、文字列操作で分割・抽出

1 Like

対象サイトは様々なユーザーが記事を投稿するサイトで、以下の情報を持ちます。
・投稿記事本文
・投稿者名
・投稿日時
・いいね数
・連携リンク
かつ、ページをスクロールすると情報が動的に読み込まれ、ユーザーからは見えるようになります。

その中で取得したいのは投稿記事本文とその連携リンク(例:#〇〇)です。

これが原因と思います。(動的に読み込まれるのであれば、表抽出時点ではメモリに読み込まれていない可能性があります)

これを回避するには、先に画面を下の方にスクロールしてから、表抽出で取得してみてもらえますか?マウススクロールアクティビティ等が使えると思います。

アドバイス通りにマウススクロールアクティビティを使い、下の方にスクロールしてから抽出行ってみました。ただ思った結果を得られませんでした。

新たに質問ですが、表を抽出は指定した要素?を抽出する際、同類の要素も勝手に取得できるのですか?
すみません、うまく言えず、、、

これはプレビュー画面の時点で取得できていないということでしょうか?
そうであれば、別要因ですね。

新たに質問ですが、表を抽出は指定した要素?を抽出する際、同類の要素も勝手に取得できるのですか?
すみません、うまく言えず、、、

一定のパターンに基づき抽出します。可能であれば、もう少し具体的な対象の情報を共有いただくと良いかと思います。(スクリーンショット等)

ありがとうございます。

仰る通りプレビュー画面の時点で取得できていないです。
現状の設定スクショを添付しますので、ご確認いただけると幸いです。

ちなみに対象サイトはXになります。


X(旧Twitter)ではスクレイピングは禁止されていますので、API経由のアプローチの方が良いかもしれません。

確認しました。そのようなので、APIの方を検討します。

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.