Pdfファイルから抽出した文字列の一部を正規表現で抽出する方法を教えて欲しい

Tatsuya.d · January 15, 2025, 11:47am

実現したいことは以下です。
20250114_Quotations_OSE_Commodity_Futures_and_Options.pdf (443.8 KB)
添付のpdfファイルを
pdfファイルのテキストを抽出アクティビティで抽出した文字列変数に対して
以下、部分を正規表現で抽出してExcelに書き込みしたい。

条件としてpdfファイルの
金ミニ先物のページと白金標準先物のページのみ対象です。
各ページから抽出した文字列はそれぞれ別の変数に代入したい。

また正規表現より良い方法があれば、そちらも教えて欲しいです。

Yoichi · January 15, 2025, 2:21pm

こんにちは

例えば以下でしょうか。

mc = System.Text.RegularExpressions.Regex.Matches(strPdf,"(?<=Unit 単位\r?\n)[\s\S]+?(?=※金限日先物)")

Tatsuya.d · January 16, 2025, 1:30am

いつもありがとうございます！
試してみたのですが、今回の正規表現の式の対象が金標準先物のページを抽出する式になっている認識ですが、それ以外のページの値も抽出していました、、

Yoichi · January 16, 2025, 1:56am

特定のページの情報が必要でしたら、このケースですとページ単位で処理したほうが良いかと思います。

例えば以下の様になると思います。

 System.Text.RegularExpressions.Regex.Match(strPdf,$"(?<=^{strTarget}[\s\S]*?Unit 単位\r?\n)[\s\S]+?(?=※金限日先物)").Value

Sample20250116-1.zip (423.3 KB)

Tatsuya.d · January 16, 2025, 11:40am

なるほど！！
やりたいことできるようになりました！
ありがとうございました。

system · January 19, 2025, 11:41am

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Pdf自動化フォーラム	1	3519	May 26, 2018
PDFファイルを読み込んでデータテーブルに変換してCSV保存繰り返し Help studio , question	8	3888	December 3, 2020
複数のexcelをPDF化したいフォーラム	2	69	August 27, 2024
PDFファイルから取得した複数行のテキストをExcelの複数行に貼り付ける方法フォーラム	7	1676	December 19, 2022
データテーブル内での正規表現についてフォーラム question	5	3424	March 8, 2020

Pdfファイルから抽出した文字列の一部を正規表現で抽出する方法を教えて欲しい

Related topics