データスクレイピング抽出すると一部重複

初めまして、超初心者です。大変困っておりまして、ご教授お願いいたします。
会社のWEBデータをExcelに表示するためにデータスクレイピング機能を使いました。
・WEBデータは3枚のタブがあり、スクレイピングでは複数ページ指定で次へ
ボタンをクリック
・現在全件406件あるのですが、将来を考えて結果件数の最大値を500にして
抽出

タブは1-2枚200件ずつ、3枚目は6件入っている状態です。
抽出したデータは400件まではきちんと入っているのですが、
最後のタブの6件が最大値500件になるまで6×複数行抽出されます。

将来的に全件が406件から増えていくので、増えてもその時の全件が
取りたいのですがどうすればいいのでしょうか。
どうしてこのようになるのでしょうか。

どうかよろしくお願いいたします。

こんにちは

データスクレイピングで複数ページ対応させる際に指定している「次へ」ボタンが最終ページにも存在しているため、上限まで取得し続けているのではないでしょうか?

このあたりはページの構造にもよりますが
複数ページ対応の「次リンクのセレクター」プロパティを見直す
あるいは
データスクレイピング自体は1ページづつ行い、次ページ遷移や終了判定を自分で実装する
等が対応案としてあると思います。

ご連絡いただきましてありがとうございます。

>データスクレイピングで複数ページ対応させる際に指定している「次へ」ボタン>が最終ページにも存在しているため、上限まで取得し続けているのではないでし>ょうか?
ボタンが<<最初 1⃣2⃣3⃣ 次> 最後>>とボタンがあり最終ページでは
グレーアウトしていますが、ボタン自体は存在しています。
これがこのような現状が起きる原因なんでしょうか。

次リンクのセレクターは

になっていますが、これをどのように変更すればいいのでしょうか。

<データスクレイピンブログ自作体は1ページづつ行い、次ページ遷移あや終了判<定を自作実装

というのは分岐処理をするのですが、どのように記述する方法になるのでしょうか。

初めてデータスクレイピングを行ってみてこの状態になり、どうすればいいのか
本当に困っています。どうかぜひご教示いただけますようお願いいたします。
(会社のデータなので、本来は貼り付けして見ていただきたいのにできずに
すみまぜん)

1 Like

次リンクのセレクター

無題
次リンクのセレクターを画像にとってアップロードしましたが、
ご確認できますでしょうか。

こんにちは

最終ページに非活性の次へボタンがあるとのことなので、実際に画面遷移がされているかはおいておいて、動作的には正常に次へボタンがクリック出来ていると判断され、動作が継続しているものと思われます。

対応策は前述した通りですが、まずは、UiExplorerを使って、通常ボタンにあって、非活性ボタンにないセレクター属性が無いかを確認し、もしあれば、それを含めて指定すれば良いと思います。

こんばんは。ご連絡ありがとうございます。
UiExplorerの使い方を調べて実際に画面を見ていますが、まだ使いこなせていなくて言われたことがまだできていない状態です。
引き続き調べたり勉強したりしてみます。

1ページずつ取得するという方法も興味があります。
もし参考になるページなどありましたら、教えていただけないでしょうか。
書き方など参考にできれば・・と面ます。

いろいろとありがとうございます。よろしくお願いいたします。

1 Like