OCRで「1」が「-」になる

「OCRでテキストを取得」
アクティビディで,文字をPDFの文字を読み込ませたところ

2019年10月29日が「20-9年-0月29日」
2014号が「20-4号」

など,
「1」が「-」
になってしまいます。
雑誌の表紙で,手書き文字ではないので,認識はしやすいのになんででしょうか。

tessdataフォルダに「jpn.traineddata」は保存済。
プロパティに"ja"設定済です。

よろしくおねがいします!

@111119 さん、

OCRは完璧なものじゃないので、特に日本語とか、中国語とか、おかしい出力がいっぱいありますよ。

この場合はMicrosoft OCRかわりに使ってください。

tesseract-ocr :

Microsoft OCR :

良い出力必要場合は 有料なOCR Engineを使ったほうがいいです。
僕のすすめは Google Cloud Vision です。

Microsoft OCR
パッケージ探してやってみました。

無事に読み取りできました!感動です!
ありがとうございます!!

1 Like

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.