• 締切済み

OCRのtesseractで文字の一致率を出したい

OCRソフトのtesseractを使ってそれぞれの文字の一致率を出したいのですがどうしたらいいでしょうか。 ご存知の方いましたら教えていただけないでしょうか。

みんなの回答

  • tukuneto
  • ベストアンサー率26% (12/45)
回答No.2

「Github Tesseract」で検索してみて、ソースコードを見てみました。 C言語は詳しくないですが、面白そうではありますね。 https://github.com/tesseract-ocr/tesseract でも、お礼もコピペだし、締め切ったりもしないので、情報提供する気がなくなるわー。

noname#247825
noname#247825
回答No.1

ベイズ統計を使えば、文字の一致率も出るとは思うけど、一致率の定義の仕方にもよるかな。 更に詳しく回答したかったが、お礼率0%だと、けっこう回答したくないと考える人は意外と多い。 かく言う私も、その一人だ。 こう注目されるように出されると、誰でも気になるよ。 もし、質問に回答がつかなかったり、すぐに回答が無かったりする場合は、思い出してほしい。 特に専門的な質問は、回答者が限られてくるので、いかなる理由であろうと1人に見限られると、つくはずだった回答がつかないことが起こりえる。 あとは、あなたの損得次第なので、私はあまり気にしない。

maruboro007
質問者

お礼

ありがとうございます。

関連するQ&A

  • 文字の一致率を出せる高性能なOCRソフト

    高性能なOCRソフトで文字の一致率が何%だったのか取得できるものはないでしょうか。 日本語、英語、数字が認識できるものがいいです。 できれば無料のものがいいです。体験版でできるものでも可です。 どなたか教えていただけないでしょうか。

  • 手書き文字のOCRで認識率が高いものを探しています

    手書き文字のOCRで認識率が高いものを探しています。 実際に読み取りたいものは(当然ながら)今は紙に書かれた文字です。 それらはすべてA4用紙ですが、いったん複合機でPDF化をしようと思います。 そのPDFを大量に読み込ませて順次OCRしたいのですが、どのようなソフトかサイトを使うと認識率が高いでしょうか。 AI-OCRは有料になるでしょうが、そこまでのものは求めていません。 Google Lensがちょうどよいのですが、それだとせっかくPDFファイルになっていてもカメラ撮影をしなければならないようで断念しました。(枚数が多いのと、カメラ持ち込みNGの作業場のため)

  • OCRについて教えて下さい。

    会社の資料やPDFをOCRを使って文字認識させて目的の語句がどこかに記載されて いないか検索したいのですが、『読んでココ』、『読み取り革命』等、いくつか有るOCRソフトで 一番認識率の高い優れたソフトは何でしょうか? また、どうやら会社で使っているリコーの業務用コピー複合機にもOCR機能が付いている ようですが、こんな大きくて高価な機械についているOCRの性能はやはり優れているでしょうか? 大きな機械でのOCRは使った事が無いので分かりません。 実際に使った事の有る方は、感想も教えて下さい。 よろしくお願いします m(_ _)m

  • 英文のOCRについて

    OSX(10.3.4)です。 スキャニングした英文をテキスト化するOCRソフトを探しています。現在、スキャナーについていたOCRソフトを使っているのですが、日本語OCRソフトなので、「H」や「E」を「且」と認識したりと、全然使い物になりません。英語モードのようなものがあるOCRソフトか、英文専用OCRソフトだと、もう少し認識率がいいのではないかと思うのですが? 1)日本語OCRソフトで英語モードがあるもの、2)英文専用(英語のソフト可)で評判のいいOCRソフト、をご存知の方は教えて下さい。

    • ベストアンサー
    • Mac
  • 手書き文字用OCRソフトをさがしています。

    手書き文字を認識するOCRソフトをさがしています。予算は10万前後です。 認識率は高いことに越したことはありませんが50%程度は欲しいものです。 用途は昔から手書きで、付けていた日記(日誌とかメモ書きです)を認識した文字をタイトルにして、必要なとき取り出して読みたいのです。それを開いたとき時間があれば認識されていなかった部分(またはご誤認識されていた部分)で重要と思われるところは手で直したいとか、不要と思われる部分は削除してスリムな形にしたいと思っています。 どなたか、こういうソフトをご存じでしたら教えてください。出来れば国産であり、サポートを受けられるソフトがいいです。よろしくお願いいたします。

  • OCRソフト「読んdeココ」「やさしくPDF OCR」の認識率

    OCRソフト「読んdeココ Ver10」または「やさしくPDF OCR」を持っている方、ぜひ教えてください。 テキストを取り出せないPDFを、スキャナを使わずにテキスト化したいのです。 「読んdeココ Ver10」のクリップOCR機能や、「やさしくPDF OCR」の認識率は、どんなもんでしょうか。 画像から直接読むと精度が落ちたりするのか、それともスキャナでも画像化するのだから同じことなのか? 経験のある方、認識率についての感想をお聞かせください!

  • OCR用紙に書き込むソフトご存知ありませんか?

    お世話になります。 OCR用紙をスキャナで読み込み、画面を見ながら文字を入力し、プリントアウトしたいのですが、そのようなソフトはありませんか? 「読取革命」があったので、もしやと思いやってみましたが、OCRソフトというのは、OCRを読み込むソフト、ということですよね。^^; WORDに変換したら、文字を入れる四角の部分までプリントされてしまうことに気がつき、唖然としました。(というか当たり前。苦笑) OCR用紙に書き込めるソフトというのをご存知の方がいらっしゃいましたら教えてください。

  • 一致率について(統計)

    一致率にはいわゆる「一致率(κ)」と「重みづけ一致率」 というのがあり、僕の持っている統計ソフトでは両方計算できてしまうのですが、違いが分かんないです。 違いと適用を教えて頂ければ幸いです。

  • 認識率のいいOCRソフト

    今度、数ヶ月かけて数千ページに及ぶ文書(日本語文字のみ・明朝体10.5ポイント横書き活字)を、スキャナで文字認識させテキスト化します。 OCRは誤認識があることは十分承知していますが、文書の量が多いので、あとで修正することはできません。どんどん入力していくだけです。とにかく認識率がいいOCRソフトを紹介してください。 eTypistエントリーは持っています。 現在購入を考えているものは、eTypistの製品版か、読んdeココです。(どちらも解像度600dpi)

  • tesseractの内部データの一致率を取得したい

    一致率というのはtesseractにある字体データと対象の文字を比較したスコアという意味です。結果的に文字があっていたかどうかではありません。  http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version このサイトにある ↓0.125という数字は一致率0.875以上だった場合、Good Matchを返すって意味だと思います。  matcher_good_threshold 0.125 Good Match (0-1) matcher_perfect_threshold 0.02 Perfect Match (0-1) やりたいことはこの一致率が指定した値以下だった場合、テキストファイルになにも書き込まないという処理をしたいです。 読み込む画像はすべて1行です。 一致率を取得できればほかのプログラムと組み合わせてできるようになります。 もしくはこのサイトの関数をうまく使えばできそうです。 それらしいものをいじってみたけどうまくいきませんでした。

専門家に質問してみよう