以下についてお分かりの方がいましたら、ご教示いただきたいです。
やりたいこと:
chromeで特定のサイトをスクレイピングし、データをCSVで出力したい
詳細:
以下のように表抽出をしようとしています。
メタデータ抽出の設定内容は以下のような内容です。
<extract>
<column extract='1' name='Column0' attr='text'>
<webctrl tag='span' class='Hoge1' />
</column>
<column extract='1' name='Column1' attr='text'>
<webctrl tag='h3' class='Hoge2' />
</column>
<column extract='1' name='Column2' attr='style'>
<webctrl tag='div' class='Hoge3' />
</column>
</extract>
表の設定は以下のような設定をしています。
<Table xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns:xsd='http://www.w3.org/2001/XMLSchema' Type='Structured'>
<Column xsi:type='DataColumn' ReferenceName='Column0' Name='Hoge1'>
<Format xsi:type='TextColumnFormat' />
</Column>
<Column xsi:type='DataColumn' ReferenceName='Column1' Name='Hoge2'>
<Format xsi:type='TextColumnFormat' />
</Column>
<Column xsi:type='DataColumn' ReferenceName='Column2' Name='Hoge3'>
<Format xsi:type='TextColumnFormat' />
</Column>
</Table>
困っていること:
上記でCSVの出力までは出来るのですが、出力データが以下のようになります。
データをぼかしていますが、例えば5行目、7行目のデータのように、データの数(列)が足りない状態になっています。
この行についてはHoge2のデータがそもそもサイト上になく取得ができないのですが、こうした場合に列をずらさずに空白セルとすることはできるのでしょうか。
本来C列のHoge3に格納されるべきデータがHoge2のB列に格納されてしまっているのを解消できればと考えております。
実行環境:
Studio 2021.10.4 - 2021/12/06
Enterprise License
サービス モードのインストールライセンス プロバイダー: Orchestrator
アクティベーション ID:Microsoft Windows 10 Pro 64 ビット
5.0.12
よろしくお願いします。