• ベストアンサー

画像ファイル中の文字をテキスト化するソフト

画像になっている文書の文字をテキストデータにする、2~3千円の安いソフトはないでしょうか。 今すぐ必要なのでダウンロードできるものがよいです。 PDFの文字をテキスト化したいのですが、コピーペーストしすると意味不明の記号になります。制限は何もかかってないし、文字列の選択もできます。 で、画像としてキャプチャして、テキストにできないかと思うのですが・・・Webで探して、高価なOCRソフトが見つかったのですが、の今回だけのために買うのはもったいないし・・・「読んdeココ」は、体験版だとクリップボードからのOCR機能がないので、だめでした。 よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • foxfire
  • ベストアンサー率36% (22/61)
回答No.4

>スキャナで読み取るのではなく、PC上で画像として保存すればよいのですよね そうです。 PC上で画像での処理で大丈夫です。 デジカメ、TWAIN、画像からの読み込みが可能です。

toyboys
質問者

お礼

どうもありがとうございました。 安いので買ってみました。「e」が全部「c」になったりして文字化けは多いですが、ゼロから手入力するよりはずっと楽なので、モトは取れた感じです。

その他の回答 (3)

  • foxfire
  • ベストアンサー率36% (22/61)
回答No.3

>画像としてキャプチャして、テキストにできないかと思うのですが・・・ PDFデータをキャプチャーして、JPG等のデータにしてからなら ソースネクストの「本格読取(R)」で可能かと思います。 直接PDFデータを読み込む事は出来ないので、一度Acrobat Reader で読み出してから キャプチャーして別形式データで保存後に「本格読取(R)」で編集って流れです。 私は使用してますが、かなり便利です。 スキャナーで読み取った雑誌をワード形式で編集出来たりします。 「本格読取(R)」の仕様は参考URLにて確認してみて下さい。(値段は2,079円で即DL可能です)

参考URL:
http://www.sourcenext.com/products/honkaku_y/
toyboys
質問者

補足

ありがとうございます!よさそうですね。 スキャナで読み取るのではなく、PC上で画像として保存すればよいのですよね(スキャナを持ってないので)。 Webサイトの説明では確信が持てなかったのですが・・・

  • s_yoshi_6
  • ベストアンサー率73% (1113/1519)
回答No.2

下記ページに、 『…和文フォントを含むPDFファイルを作成する場合、Acrobat3互換形式を選択してPDFファイルを作成すると、和文フォントはエンコーディング=ビルトインでPDFファイル中に埋め込まれてしまいます。この形式で作成されたPDFファイルはAcrobat3、Acrobat4で正常に表示・印刷されるように見えますが、Acrobat3 環境では以下の不具合が見られます。 1.テキストの再利用が不可(コピー&ペーストで他アプリで文字化け) 2.テキスト検索不可 』 との旨、記述があります。 (元ページが見つからないのでGoogleのキャッシュです) http://www.google.co.jp/search?q=cache:1berJqDZNpcJ:www1.kcn.ne.jp/~k-tm/KTworld/tandt/driverwin.html+PDF+%E3%83%95%E3%82%A9%E3%83%B3%E3%83%88%E3%80%80%E3%82%B3%E3%83%94%E3%83%BC%E3%80%80%E6%96%87%E5%AD%97%E5%8C%96%E3%81%91&hl=ja PDF書類の閲覧には、どのようなソフトをお使いでしょうか。もしAcrobat Reader 3.0xなど古いバージョンのソフトをお使いでしたら、新しいバージョンのものをインストールすると、もしかしたらコピー&ペーストの際の文字化けが解消するかもしれません。 http://www.adobe.co.jp/products/acrobat/readstep2.html

参考URL:
http://www.adobe.co.jp/products/acrobat/readstep2.html
toyboys
質問者

補足

詳しくありがとうございます。 Acrobat5.0で開いています。また、中身は英文だけなので、和文フォントの問題ではなさそうです。説明不足ですいませんでした。(でも今後の参考になります。) 作成時のソフトのバージョンは不明です。 単にファイルが壊れているのかも・・・

noname#236902
noname#236902
回答No.1

> PDFの文字をテキスト化したいのですが、コピーペーストしすると意味不明の記号になります。 PDFの中の文字はちゃんとテキストなんですよね。だったらコピペでうまくいくと思うんですが。 何のソフトにペーストしていますか?そのソフトのフォント設定によっては化けてしまうことがあります。 例えば、『あ』と入力して日本語になることを確認した後、その『あ』を選択してペーストしてみて下さい。 それでもだめでしょうか?

toyboys
質問者

補足

ありがとうございます。 テキストエディタDanaやMS Wordにコピーしたのですが、だめです。Acrobatで、txtやrtfで保存しても同じ結果です。(たまに、こういうPDFに出会います。。。) PDF内で文字列検索できないので、そもそも文字として認識されないようです。

関連するQ&A

  • OCRソフト「読んdeココ」「やさしくPDF OCR」の認識率

    OCRソフト「読んdeココ Ver10」または「やさしくPDF OCR」を持っている方、ぜひ教えてください。 テキストを取り出せないPDFを、スキャナを使わずにテキスト化したいのです。 「読んdeココ Ver10」のクリップOCR機能や、「やさしくPDF OCR」の認識率は、どんなもんでしょうか。 画像から直接読むと精度が落ちたりするのか、それともスキャナでも画像化するのだから同じことなのか? 経験のある方、認識率についての感想をお聞かせください!

  • 画像ファイルの中から 文字をテキスト化できますか?

    JPGや PDFのマニュアルなど画像化されてて 文字テキスト編集できませんよね? それの 文字編集する為に 画像ファイルの中から 文字をテキスト化できるソフトってありますか? たとえば 印刷物なら OCRソフト使えば スキャナーから印刷した文字の テキスト化はできますよね それって JPGの中の 文字や PDFの文字部分のみ 取り出すことはできるのでしょうか? ご教授おねがいいたします

  • OCR

    読んでココなどのソフトで、デジカメや、スキャナーで読み取った文書は、文書でも画像として扱われますがOCRソフトを使用するとWord文書DEテキスト、HTML,PDF形式で書き込んだり書き換えたりできますか。文字の認識ができ編集や変更や書き直しができるわけでしょうか?

  • 透明テキスト付きPDFファイルを作成したい

    pdMaker for ScanPaper や 読んde!!ココ 等のOCRソフトでは、スキャン後、認識した文字を透明テキストにてPDFに付加し、その情報をもとに文字情報を検索できることがわかりました。 この「透明テキスト」は、adobe Acrobat 7.0でも 作成することは出来るのでしょうか。 Acrobat 7.0評価版をダウンロードしたのですが、「透明テキスト」というような項目はないようです。 なお、Acrobat7.0の メニュー→文書→透かしと背景の追加 機能が同等の機能かとも思うのですが、よくわかりませんでした。 既存のPDF形式のデータに、検索可能な文字情報を付加する方法を教えてください。

  • 画像とテキストが混在したPDFファイルをOCR認識させる方法

     1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。  この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。  スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。  できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。  なお、当方のOSはWindowsXPです。  以上よろしくお願いします。

  • pdf文書内にある文字を1文字単位で画像化したい

    お世話になります。 pdf文書内にある文字を1文字単位で画像化したいと 考えております。 ※OCRではなく、画像化したいのです。 有償・無償どちらでも結構ですので、 そのような変換機能が付いたソフトを教えて頂けないでしょうか? 何卒よろしくお願いします。

  • 文字(画像)を文字にするソフト

     文字(画像)を文字にするソフトないですか? できたらフリー。 ※とある教材を文字としてワードなどでまとめたいんです。 その教材はフラッシュを使っています。 印刷してOCRでするのはインクOR紙がもったいないので。

  • 透明テキスト付きPDFをバッチ処理でOCR

    中途半端に透明テキストのついたPDFがたくさんあり, バッチ処理にて新たにOCRをかけなおしたいと考えています. 手元には Acrobat 6 Professional Acrobat 7 Standard 読んdeココ Ver13 読み取り革命 Ver12 があります. Acrobat 6.0 ProfessionalのPaper Captureだと 元の透明テキストのせいかOCRがかけられません. (テキスト付きで完全な画像ファイルではないと言われます) 読んdeココはバッチ処理ができないが, 個別であれば期待した処理ができます. 読取革命はフォルダーウォッチャーという機能がありますが PDF→PDFは不可・・・ といった具合なのですが, バッチ処理でどうにかする方法はないでしょうか. 数万以内であればあらたにソフトウェア購入もできます. よろしくお願いします.

  • PDFファイルに直接テキストを入力する方法がありますか。

    (例えば)国税庁は税務申告サイトで各種添付書類などをPDFファイル(Adobe Reader)で提供していますが、これらは画像ファイルのため、記載事項を直接テキスト入力することができません。 このため私は一旦PhotoshopでPDFファイルを開き(又は書類現物をスキャン、Photoshopファイル化し)、それにテキスト入力しております。 PDFファイルをコピーしてWordやExcelにペーストしてみましたが、やはり画像のため直接入力ができません。 「読んdeココ」などOCRソフトで読み込んでもほとんどグチャグチャになって使えません。 このサイトでも検索してみたところ、何かテキストボックスなどを開くことが可能みたいな回答も一部見受けましたが、そもそもファイルツールにそのようなものが現われないのです。 そもそも国税庁などが書式をExcelファイルで提供してくれればベストなのですが、現状では期待できないので、どなたか元の書式に直接テキスト入力する方法か、又は他のアプリケーションファイルにコピーしてそれに入力する良い方法をご存知でしたらご教示ください。

  • 古い文献走査におけるPDFファイルのテキスト情報

    最近では、100年~数十年前の古い公的文書や論文が大量にスキャンされてPDF化されています。 それらをPDF化する前提として、それらの電子化テキストは存在しません(現在では、論文は電子化テキストで提出もおこなわれていますので、テキスト情報の付加に際して電子化テキストを別途利用できると思います)。 疑問に思ったのは、そういった古い文書のPDFファイルにおいて、テキスト部分の情報がテキスト情報としてファイルに含まれていることです。つまり、テキストの部分を選択したり、その上でテキストの部分をクリップボードにコピーしたりすることができるということです。 最初ふと思ったのは、OCRによってテキスト情報を付加したのかなということでした。 しかし、スキャンの元となる文献には活字印刷が汚い部分が極めて多く存在します。また、現在までに膨大な文書を調べた限り、PDFでの表示とテキスト情報とが一致しない部分は一つも存在していません。英文の文書にはいくらラテンアルファベットやいくつかの記号しかないとはいえ、OCRとわずかばかりの手作業による修正で、ここまで完璧にできるとは思えません。 こういうきわめて大量の古い文書をPDFファイルとして出してくるまでの一連の作業過程はどうなっているのでしょうか。 例については、数十年前の古い学術論文を任意で見ていただけたらと思います。

専門家に質問してみよう