練習でamazonの商品名と商品リンクを抽出したところ
href属性が相対パスだから(?)なのか、「http~co.jp」の部分が抜けてしまいます。
解決方法はございますでしょうか。
前提として、Amazonはスクレイピングを規約で禁止していた記憶がありますので、可否についてご自身でご確認ください。
その上でホスト部分が抜けることに対しては、ちょうど同様の問題を抱えていまして調べておりましたが、解決策はないようです。対象のURLにご自身でホスト部分を追記する形になろうかと思います。
2 Likes
ご返信ありがとうございます。
そういうことだったのですね!完全に確認不足でした。
作業自体の解決策に関してもご回答ありがとうございます。
抽出工程ではなくあとから追記という形で補うのですね。
イメージができました。
ありがとうございました!
1 Like
This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.