構造化データを抽出でurlを取得時、冒頭部分が抜ける

練習でamazonの商品名と商品リンクを抽出したところ
href属性が相対パスだから(?)なのか、「http~co.jp」の部分が抜けてしまいます。
解決方法はございますでしょうか。1590625267

前提として、Amazonはスクレイピングを規約で禁止していた記憶がありますので、可否についてご自身でご確認ください。

その上でホスト部分が抜けることに対しては、ちょうど同様の問題を抱えていまして調べておりましたが、解決策はないようです。対象のURLにご自身でホスト部分を追記する形になろうかと思います。

2 Likes

ご返信ありがとうございます。
そういうことだったのですね!完全に確認不足でした。

作業自体の解決策に関してもご回答ありがとうございます。
抽出工程ではなくあとから追記という形で補うのですね。
イメージができました。

ありがとうございました!

1 Like

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.