エレメントが選択できないPDFファイルの場合、特定の位置の項目の値を取得するにはOCR機能を利用するほかに取得手段はないでしょうか。
テキスト認識できる値のため、可能であればOCRを使わずGetText等で取得したいです。
sample.pdf (40.2 KB)
こんにちは
sample.pdf拝見しました。
Acrobat Readerの設定を適切にしてやれば、個別の文字もGet Textで取得はできましたが、
それよりはRead PDF Text アクティビティで文字列を一括で取ってきて、
それを処理する方が良さそうに思えました。
いかがでしょうか?
@Yoichi 様
ご回答ありがとうございます。
とは、具体的にはどのような手順でしょうか?
[編集]>アクセシビリティ>読み上げオプションを変更>開始 でしょうか?
すみませんが、教えて頂けますと助かります。
@sak 様
@Yoichi 様がお書きになった通り、Read PDF Textを使い、文字列を処理する方法もあります。
例を添付しますので、ご参考ください:SamplePDFExtractText.zip (40.4 KB)
@sak さん
PDFのアクセシビリティの機能を使うのですが、単にPDFファイルを開くだけではこれが有効にならないケースがあるので、その場合は
[編集]>アクセシビリティ>読み上げオプションを変更>開始
や
[表示] - [読み上げ] -[読み上げを開始] (ctrl + shift + Y でも可。ただし本当に読み上げますので、ワークフローに組み込むときは2回送ると良いかもしれません。)
などで、読み上げの機能を強制的にActiveにしてやるとGet Textでもつかめるようになります。
なお[編集] - [環境設定] - [読み上げ] の設定で結果が変わることがあるので、適切なものを選択してもらう必要があります。
一応サンプルつけておきます。(一文字目が欠落していますが...)
TestPdfGetText.zip (2.7 KB)
sample.pdfの場所は書き換えてください。
Adobe Acrobat Reader DCで確認しています。
どうもうまく取れないケースが多いので、個人的にはRead PDF Text使って文字列処理したほうが安定していると思っています。
よろしくお願いします。
@Yoichi 様
ご返信ありがとうございます。
また、資料の添付ありがとうございます。
とても参考になり、大変助かります。
たしかに、読み上げ設定をいろいろ試してみたのですが、
欲しいとおりの値がなかなか取得できないので、
Yoichiさんのおっしゃるとおり ReadPDFTextの方が有効そうですね。
ReadPDFTextでチャレンジしてみます!