階層化したWebサイトのデータスクレイピング方法

みなさん、こんにちは。

から別スレッドを立てました。
階層化したWebサイトの子サイト(リンク先)のデータスクレイピング方について教えてください。


まず、こういうデータがありまして、2列目、申込番号をクリックすると、リンク先の
2
のデータ、合計部分は不要です、を取得したいのですが。
どのように記述したら教えてください。
現状下記の様に記述しています。
3

4

このように記述すると、一番下のURLに移動の移動先が、
http://0.39.211.246/
とこんな値になってしまいます。どのように記述したら教えてください。

Studio 2021.10.5 - 2022/02/01
Community License
ユーザー単位のインストール
ライセンス プロバイダー: Internal
更新チャネル: 安定
Microsoft Windows 10 Pro 64 ビット
5.0.13

です。よろしくお願いします。

現状、申込番号のリンク先には遷移しますか?
とりあえず、「URLに移動」の直後に「メッセージボックス」をいれて、
動作が止まるようにして確認してみてください。

N2027 さん、レスありがとうございました。
リンク先のアドレスが、「 申込み番号/」となっていました。1行目の項目をとっていたんですね。ならば、1行目はパスして、2行目から取得するにはどのように書けば良いか教えていただけませんか。よろしくお願いします。

条件分岐(if)で、リンク先のアドレスが「 申込み番号/」の場合にスキップすればOKです。

N2027 さん、レスありがとうございます。
IF文を使って、無事1行目をスキップし、次々に該当するページを開くことが出来ました。
続いて教えてください。それらのデータをCSVに書き出し帯のですが、現状下記の様に書いています。


これですと、CSVに書き出したときに最後の1データ分しか書き出されません。取得する度に追記して行くにはどのように記述したら良いか教えてください。よろしくお願いします。

[CSVに書き出し]を、繰り返しの外に移動してみてください。

[構造化データを抽出]は、処理毎にデータテーブルの末尾にデータが追記されていきます。
これで、全てのデータが出力されるはずです。

※[構造化データを抽出]のプロパティで、「結果の最大数」がデフォルトで100になっています。
これだと、データ100件しかとれないので、上限無制限にする場合は 0 を指定してください。

あと、2つある[構造化データを抽出] の出力変数 ExtractDataTable 、異なる変数名を付けてください。

N2027 さん、レスありがとうございました。
無事1600件ほどのデータを取得することが出来ました。
助かりました。本当にありがとうございました。

1 Like