エレメントが選択できないpdfから値を取得する方法


#1

エレメントが選択できないPDFファイルの場合、特定の位置の項目の値を取得するにはOCR機能を利用するほかに取得手段はないでしょうか。
テキスト認識できる値のため、可能であればOCRを使わずGetText等で取得したいです。
sample.pdf (40.2 KB)


#2

こんにちは

sample.pdf拝見しました。
Acrobat Readerの設定を適切にしてやれば、個別の文字もGet Textで取得はできましたが、
それよりはRead PDF Text アクティビティで文字列を一括で取ってきて、
それを処理する方が良さそうに思えました。

いかがでしょうか?


#3

@Yoichi

ご回答ありがとうございます。

とは、具体的にはどのような手順でしょうか?
[編集]>アクセシビリティ>読み上げオプションを変更>開始 でしょうか?
すみませんが、教えて頂けますと助かります。


#4

@sak

@Yoichi 様がお書きになった通り、Read PDF Textを使い、文字列を処理する方法もあります。
例を添付しますので、ご参考ください:SamplePDFExtractText.zip (40.4 KB)


#5

@sak さん

PDFのアクセシビリティの機能を使うのですが、単にPDFファイルを開くだけではこれが有効にならないケースがあるので、その場合は
[編集]>アクセシビリティ>読み上げオプションを変更>開始

[表示] - [読み上げ] -[読み上げを開始] (ctrl + shift + Y でも可。ただし本当に読み上げますので、ワークフローに組み込むときは2回送ると良いかもしれません。)
などで、読み上げの機能を強制的にActiveにしてやるとGet Textでもつかめるようになります。

なお[編集] - [環境設定] - [読み上げ] の設定で結果が変わることがあるので、適切なものを選択してもらう必要があります。

一応サンプルつけておきます。(一文字目が欠落していますが...)

TestPdfGetText.zip (2.7 KB)

sample.pdfの場所は書き換えてください。
Adobe Acrobat Reader DCで確認しています。

どうもうまく取れないケースが多いので、個人的にはRead PDF Text使って文字列処理したほうが安定していると思っています。

よろしくお願いします。


#6

@Mateus_Cruz

ご回答、サンプルの添付ありがとうございます。
大変参考になりました。
頂いたサンプルを参考に、いろいろ検証してみます。


#7

@Yoichi

ご返信ありがとうございます。
また、資料の添付ありがとうございます。
とても参考になり、大変助かります。

たしかに、読み上げ設定をいろいろ試してみたのですが、
欲しいとおりの値がなかなか取得できないので、
Yoichiさんのおっしゃるとおり ReadPDFTextの方が有効そうですね。
ReadPDFTextでチャレンジしてみます!