こんにちは
現在、通販サイトの構造化データから複数のデータ(各サイトページのタイトル、URL、在庫状況など)を一括で抽出し、それらを全てExcelに書き出すワークフローを作成しています。
その際、Excelに書き出されたURLから全てドメイン部のみが消えてしまっており、困っております。
原因と対処方法をご教授頂ければ幸いです。
他の要素(タイトルなど)は問題なく抽出できています。
こんにちは
原因は、当該リンクが、同一ホスト(サイト)へのリンクのため、HTML内での記述上、
ホスト名部分が省略されて記述されているためです。
これについてはホスト名を自身で補完してあげると良いと思います。
そのサイトのURLが固定的であれば、それを付加する。
動的であれば、DataScrapingするページをGet Attribute アクティビティを
用い、属性名 url で取得するとホスト名部分も含めて取得できると思いますので
それを例えば
System.Text.RegularExpressions.Regex.Match(url,"https?://.+?/").Value
のような正規表現でホスト名より前の部分を抽出して、DataScrapingで得た
パス情報と結合させればよいと思います。