「OCRでテキストを取得」
アクティビディで,文字をPDFの文字を読み込ませたところ
2019年10月29日が「20-9年-0月29日」
2014号が「20-4号」
など,
「1」が「-」
になってしまいます。
雑誌の表紙で,手書き文字ではないので,認識はしやすいのになんででしょうか。
tessdataフォルダに「jpn.traineddata」は保存済。
プロパティに"ja"設定済です。
よろしくおねがいします!
「OCRでテキストを取得」
アクティビディで,文字をPDFの文字を読み込ませたところ
2019年10月29日が「20-9年-0月29日」
2014号が「20-4号」
など,
「1」が「-」
になってしまいます。
雑誌の表紙で,手書き文字ではないので,認識はしやすいのになんででしょうか。
tessdataフォルダに「jpn.traineddata」は保存済。
プロパティに"ja"設定済です。
よろしくおねがいします!
@111119 さん、
OCRは完璧なものじゃないので、特に日本語とか、中国語とか、おかしい出力がいっぱいありますよ。
この場合はMicrosoft OCRかわりに使ってください。
tesseract-ocr :
Microsoft OCR :
良い出力必要場合は 有料なOCR Engineを使ったほうがいいです。
僕のすすめは Google Cloud Vision です。
Microsoft OCR
パッケージ探してやってみました。
無事に読み取りできました!感動です!
ありがとうございます!!
This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.