• ベストアンサー

日本語の認識率が高いOCR

活字文字データですが画像として認識されているPDFファイルがあります。このPDFを元に文字データとしてWordやExcelで使いたいためOCRを探しています。 データは例えば住所氏名電話番号などのように日本語(漢字カタカナひらがな)と英数字です。 出来るだけ高い認識率がいいです。できればフリー、有償でも2,3万以内でないでしょうか。有償の場合試用期間があり試せるものが良いです。 パソコンはWindows7です。 よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
noname#139854
noname#139854
回答No.1

OCRソフトは体験版で試すしかないですが、設定で認識率が向上します。 私は「読んでココ」と「本格読取」を使っており、前者は取り込んだ後画像の補正でゴミ取りをやり、日本語英語混在などを指定するとけっこういけます。 後者も安いですが実用レベルにはあると思います。 http://ai2you.com/ocr/product/koko13/koko13.asp http://www.sourcenext.com/titles/use/124260/ 体験版はないので、開発元のものを当たってください。 http://panasonic.co.jp/sn/psn/pstc/products/yomikaku/ 当然ながらご認識はあるので、それを修正して辞書を鍛えていくとだんだん認識率が上がります。

AkiraHari
質問者

お礼

ありがとうございました。

関連するQ&A

  • 手書き文字のOCRで認識率が高いものを探しています

    手書き文字のOCRで認識率が高いものを探しています。 実際に読み取りたいものは(当然ながら)今は紙に書かれた文字です。 それらはすべてA4用紙ですが、いったん複合機でPDF化をしようと思います。 そのPDFを大量に読み込ませて順次OCRしたいのですが、どのようなソフトかサイトを使うと認識率が高いでしょうか。 AI-OCRは有料になるでしょうが、そこまでのものは求めていません。 Google Lensがちょうどよいのですが、それだとせっかくPDFファイルになっていてもカメラ撮影をしなければならないようで断念しました。(枚数が多いのと、カメラ持ち込みNGの作業場のため)

  • 認識率のいいOCRソフト

    今度、数ヶ月かけて数千ページに及ぶ文書(日本語文字のみ・明朝体10.5ポイント横書き活字)を、スキャナで文字認識させテキスト化します。 OCRは誤認識があることは十分承知していますが、文書の量が多いので、あとで修正することはできません。どんどん入力していくだけです。とにかく認識率がいいOCRソフトを紹介してください。 eTypistエントリーは持っています。 現在購入を考えているものは、eTypistの製品版か、読んdeココです。(どちらも解像度600dpi)

  • OCRソフト「読んdeココ」「やさしくPDF OCR」の認識率

    OCRソフト「読んdeココ Ver10」または「やさしくPDF OCR」を持っている方、ぜひ教えてください。 テキストを取り出せないPDFを、スキャナを使わずにテキスト化したいのです。 「読んdeココ Ver10」のクリップOCR機能や、「やさしくPDF OCR」の認識率は、どんなもんでしょうか。 画像から直接読むと精度が落ちたりするのか、それともスキャナでも画像化するのだから同じことなのか? 経験のある方、認識率についての感想をお聞かせください!

  • 完全認識率のスキャナソフト、OCRソフトは?

    ないのでしょうか?? 「e.Typist」と「読んで!ココ」を試用しましたが、テキストの100%の認識率ではありませんでした。 特に雑誌などの独特の字体など不完全です。現状はどのソフトもこうなのでしょうか? 誤認識されたものは、PDFファイルにも、そのまま反映されてしまうのでしょうか? また、完璧とまではいかなくても、完璧に近い、これは満足!というスキャナーやOCRのソフトがあればご紹介ください。

  • OCR認識率をあげるコツ

    OCRソフトを使い下の手順でテキストを取り出しています。 紙・PDF → 画像 → テキスト 認識率を高める画像化などのコツはありますでしょうか? 解像度、色数、設定等いろいろ試行錯誤しているのですが、oが・と認識されたりと、いまいち認識率が低くて困っています。 使っているソフトはsmartocrlite(開発会社倒産)です。

  • 日本人と日本語について

    日本人は平仮名カタカナ漢字、英数字など使い分けています。 カタカナを使って表現が絶妙な時もあります。 中国ではなんでも漢字で表します。 韓国はハングル文字と漢字です。 アメリカは英数字などだと思います。 他に知ってるのはフランス語です。 フランスは数字の表現が変だと思いました。 それぞれのお国柄で異なると思います。 ところでプログラミング言語は英数字ですね。 日本人の弱いところにもなるようです。 母国語の意味。 日本の言葉は奥が深くてとても難しいと思います。 日本語の表現についてのご考察をお願い申し上げます。

  • 日本語英語同時に認識できるOCRは

    英語と日本語の文を同時に認識するOCRは ないでしょうか? e-typist 8.0と「読んでココ」の2年ほど前のversionを使っています。日本語に標準をあわせれば 英語も認識されヒット率もかなり高い(漢字も混ざるが)ですが、2者ともに単語が繋がってしまい分かち書きになりません。  

  • OCRについて教えて下さい。

    会社の資料やPDFをOCRを使って文字認識させて目的の語句がどこかに記載されて いないか検索したいのですが、『読んでココ』、『読み取り革命』等、いくつか有るOCRソフトで 一番認識率の高い優れたソフトは何でしょうか? また、どうやら会社で使っているリコーの業務用コピー複合機にもOCR機能が付いている ようですが、こんな大きくて高価な機械についているOCRの性能はやはり優れているでしょうか? 大きな機械でのOCRは使った事が無いので分かりません。 実際に使った事の有る方は、感想も教えて下さい。 よろしくお願いします m(_ _)m

  • EPSONのOCR認識率を上げる設定について

    EPSONスキャナーで出力したPDFファイルのOCR認識率を上げたいのですが、OCR認識率UPに関係すると思われるスキャニングソフトの設定として以下のパラメータがあると思っているのですが、他に関連しそうな設定等がありますでしょうか? ・イメージタイプ(自動、カラー、グレー、モノクロ) ・解像度(75~300、400、600、1200) ・圧縮レベル(標準圧縮、高圧縮) ・テキスト検索(対応、非対応) よろしくお願い致します。 ※OKWAVEより補足:「EPSON社製品」についての質問です。

  • OCRの認識率が低いのですがお金を払わなければいけないのでしょうか

    宜しくお願い致します。 うちの工場ではOCRで生産日報を読み込む処理をしています。 読み込み対象は数字のみです。 しかしそのOCR読み取りが上手くいきません。 メーカーに問い合わせても、 「このように書いて下さい」という資料が送られてくるだけです。 その通りに数字を書いているつもりですがやはり認識されません。 99%の認識率をうたっている製品なのですが。 日に90枚の生産日報の読み込み処理をするのですが 半分近くがよみこみエラーとなってしまいます。 目視ではちゃんと数字として認識できるのですが。 文字が薄いから?と、濃いめに書く指導をしているのですが それでも認識しません。 メーカーの対応も悪いので、保守契約も結ぶ気になれません。 メーカーに、現地に来て現状を見てもらおうと連絡すると 「費用請求させて頂く」との回答です。 動かないものを納品されたにも関わらず、 費用請求されたらお金をはらわなければいけないのでしょうか。

専門家に質問してみよう