PDFを読み込んでテキスト化した情報の文字列の中で時刻型の文字列を抽出したい。

image

こんにちは。宜しくお願いいたします。

PDFを読み込んでテキスト化したしたなかで時刻型の「12:41PM」という文字列を抽出したいです。この時刻については可変の値といたします。
読み込んだテキストをデータテーブル化して各行の繰り返しで検索かけて抽出しようと思うのですがAM/PMとかの文字列で検索かけてしまうと間違えてヒットしてしまう可能性もあり何か良い案がないかと悩んでおります。(写真はデータテーブル化したあとのもので6行目で時刻型を検知して抽出出来たらよいと考えております。)
何か良い手法がある方はご回答いただけますと幸いに存じます。宜しくお願い致します。

こんにちは

正規表現が使えると思います。例えば以下になります。

System.Text.RegularExpressions.Regex.Match(strPdf,"\d{1,2}:\d{1,2}\s*[AP]M").Value

もう少し詳細な条件があれば、より厳密に抽出できるかもしれません

Yoichi様
ご回答いただきありがとうございます。
上記で解決することができました。必要に応じて正規表現をカスタムして対応いたします。
よろしくお願いいたします。

1 Like

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.