Pdfファイルから抽出した文字列の一部を正規表現で抽出する方法を教えて欲しい

実現したいことは以下です。
20250114_Quotations_OSE_Commodity_Futures_and_Options.pdf (443.8 KB)
添付のpdfファイルを
pdfファイルのテキストを抽出 アクティビティで抽出した文字列変数に対して
以下、部分を正規表現で抽出してExcelに書き込みしたい。

条件としてpdfファイルの
金ミニ先物のページと白金標準先物のページのみ対象です。
各ページから抽出した文字列はそれぞれ別の変数に代入したい。

また正規表現より良い方法があれば、そちらも教えて欲しいです。

こんにちは

例えば以下でしょうか。

mc = System.Text.RegularExpressions.Regex.Matches(strPdf,"(?<=Unit 単位\r?\n)[\s\S]+?(?=※金限日先物)")

いつもありがとうございます!
試してみたのですが、今回の正規表現の式の対象が金標準先物のページを抽出する式になっている認識ですが、それ以外のページの値も抽出していました、、

特定のページの情報が必要でしたら、このケースですとページ単位で処理したほうが良いかと思います。

例えば以下の様になると思います。

 System.Text.RegularExpressions.Regex.Match(strPdf,$"(?<=^{strTarget}[\s\S]*?Unit 単位\r?\n)[\s\S]+?(?=※金限日先物)").Value

Sample20250116-1.zip (423.3 KB)

なるほど!!
やりたいことできるようになりました!
ありがとうございました。

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.