niconico
(niconico)
1
こんにちは。
初心者です。ご教授お願い致します。
データスクレイピング機能を使い、UiPathプレスリリース( https://www.uipath.com/ja/newsroom )から、日付とタイトルとURLを先頭ページから末尾のページ、全件を抽出しCSVへ出力後エクセルファイルで表示したいです。
①UiPathプレスリリース( https://www.uipath.com/ja/newsroom )にて1ページの日付とタイトルとURLの抽出条件をセットし、「データは複数ページにわたりますか?」と聞かれた際に、「はい」を押下後、「Load more」アイコンから次のページに遷移し、次のページの情報を取得したいのですが、下記のファイルのように、2020年の抽出件数は多いのですが、2019年以前のデータはとびとびになっており全件抽出できておりません。
プレスリリース.xlsx (14.6 キロバイト)
わたしのコード
データスクレイピング.xaml (8.3 キロバイト)
②CSV出力したファイルがテキスト表示されるので、エクセルファイルで標準に開くように設定したい
③エクセルファイルで開いた内部の情報の内容に、改行などで不揃いのデータになるが、事前に全体の表示の仕方を合わせることができないか
以上
おかしな質問も多いかとは思いますが、どなたかご教授ください。
よろしくお願い致します。
Yoichi
(Yoichi)
2
こんにちは
とりあえず1ですが
当該ページ確認しましたが、対象要素の取り方を変えると、Load Moreをクリックせずとも全件取得できるような感じです。
リンクURLを含めて取得しようとすると、Wizardだけですとうまく取れないので、ExtractMetaDataを少し修正したものですが、下記一度お試しください。(リンクURLが不要であればWizard操作だけでも取得できます)
Sequence.xaml (7.2 KB)
2は最初からExcel Application Scopeなどを用いxlsx形式で出力すればよいのではと思います。
niconico
(niconico)
3
こんにちは。
今回の章は、パターン化された構造のデータスクレイピング方法で、
一定のパターンでトピックの日付・タイトルなどが並んでいる UiPath のプレスリリースのページから、このページに掲載されているトピックの日付・タイトル・URL の情報をデータ抽出し、「プレスリリース.csv」という名前の CSVファイルに出力するワークフローの作成方法を学習しています。
一定のパターンで構成された Web ページの情報を、データスクレイピングで抽出する方法を学習しているので、今回よくある次へに値する「Lead More」を押下して情報を全件抽出する方法がわからず難航しています。
データスクレイピング機能を使い「Lead More」を押下して情報を全件抽出する方法をご存じでしたらお伺いしたいです。もし、ページのバグなどでしたら出来ないとは思いますが…
以上
よろしくお願い致します。
niconico
(niconico)
4
こんにちは。
同じ章のUiPathDemo内の経費一覧 ( UiPath Demo )で、表の情報をデータスクレイピング機能を使い「次へ」ボタンを押下し、全20件取得できました。
そのため、UiPathの問題ではないようです。
データスクレイピングの勉強.xaml (7.2 キロバイト)
データスクレイピング機能の勉強.xlsx (10.3 キロバイト)
以上
よろしくお願い致します。
1 Like