• ベストアンサー

学術書を部分的に文字データ化したい。

学術書の1ページをスキャナーでスキャンしてPDF化して変換ソフトでワード文書にすることは可能なのでしょうか。 雑誌などで、変換効率は100%ではないが、できるとなってますが、どの程度の実用性があるのでしょうか。 お勧めソフト等があればお知らせ下さい。

質問者が選んだベストアンサー

  • ベストアンサー
  • mark-wada
  • ベストアンサー率43% (273/633)
回答No.4

>学術書の1ページをスキャナーでスキャンしてPDF化 ここまでは十分可能で、実用的です。 私が使っているスキャナーの場合、自動的にOCRがかかって、「テキストデータつきPDFファイル」という形式になります。 (テキストデータが埋め込まれていて、取り出しも容易) それをワード文書にすることも可能ですが、実用性はまず、期待できません。 テキストデータが不正確だからです。 今までの回答にあるように、「雑誌」「1枚紙」より厚みのある「書籍」はスキャナーは苦手です。 またOCRソフトとしては、バンドルされていた 「読んde!!ココ」または「e.Typist」の体験版から有料の製品版にアップグレードするのが、やりやすいでしょう。 製品版ならOCR性能はかなり向上しますが、それでも正しい日本語を読み取るのは難しいです。 まして、英文・数字が混じっていてはお手上げ、 部分的に文字データにするなら、No.3さんのおっしゃる、 「自分で打った方が早かったのでは?」は、まさにそのとおりです。 結局書籍を、 「画像データとしてPDFファイルに残す」 という目的なら実用的です。 また自動でOCRがかかっているので、部分的に正しくOCRがかかっているところもあるでしょうから、 「キーワード検索で、そのキーワードが含まれるPDFを探す」 という目的にも使えます。

takabontetsu
質問者

お礼

ありがとうございました。 e.Typist体験版を試してみましたが、まだまだ実用の域にないことを理解しました。部分的には正しく変換されているのに残念です。導入はしばらく見合わせます。

その他の回答 (3)

  • sokojaso
  • ベストアンサー率38% (581/1509)
回答No.3

読んde!!ココとe.Typistはスキャナに簡略版がバンドルされているなど、有名です。 「学術書」の中身にもよりますが、英語と日本語が混じったような文書や、数式、ルビ、などは非常に苦手だと言えます。 一応、学習機能も備わっており、昔に比べれば賢くはなっていますが、例えば、lと1のように見た目が似ている文字、mwのように連続すると潰れがちな文字などが多いと修正作業が多くなり「自分で打った方が早かったのでは?」と思うこともしばしばです。 前述のソフトは無料の体験版が用意されているので、何はともあれ、御自分で試すのが一番です。スキャナをお持ちでなければ、デジカメで撮った画像でも試すことが可能です。 http://ai2you.com/ocr/product/koko13/koko13.asp http://pac.mediadrive.jp/et/

takabontetsu
質問者

お礼

ありがとうございます。 e.Typistの体験版で試してみました。縦書きの哲学書を読み込ませましたが、変換結果は悲惨です。まず、部分的に挿入されているドイツ語を変換していません。強調記号やルビがぜんぜん変換できてません。 たしかに、これでは打った方が早いでしょう。

  • Tasuke22
  • ベストアンサー率33% (1799/5383)
回答No.2

本の場合は紙がゆがんでいるので、かなり難しいと思います。 破ったり、思いっきり広げたり出来ないでしょうから。 また、紙が薄くて裏が写るようであれば、ますます厳しい でしょう。 あまり、期待しないほうが無難でしょう。 ソフトはやはり付属ソフトがいいでしょう。 なお、OCRで文字化したらPDFではなくてテキストファイルにな ると思います。どのようなソフトにでも流し込めるでしょう。

takabontetsu
質問者

お礼

ありがとうございます。 本をスキャンしましたが、難しいです。真ん中が黒くなります。

  • neKo_deux
  • ベストアンサー率44% (5541/12319)
回答No.1

スキャナーの性能と、元の原稿の状況、字体など次第です。 > お勧めソフト等があればお知らせ下さい。 最近のスキャナであれば、OCRソフトは付属しているかと思いますので、まずはそちらを試して見る事をお勧めします。

takabontetsu
質問者

お礼

ありがとうございました。 試してみます。

takabontetsu
質問者

補足

ありがとうございます。 試してみます。

関連するQ&A

  • ファイルのPDF書き換えソフトについて

    超初心者です。 ワードやエクセルで作成した文書または スキャナーで、スキャンした画像(文書)を PDF化するソフトを探しています。 アドビのPDFは個人では手がでません フリーソフトか安価なソフトを紹介願います。 単に変換できればよい程度です。 ためしにプリンタドライバーに入れるタイプは 試していますがいまいち使いにくいです。

  • PDFをテキストデータに直ちに変換できなくする方法

    ワードで入力した文書をPDFに変換した場合、コピペまたはPDF→ワードへの変換により直ちにテキストデータに変換できますよね。 ワードで入力した文書をPDFに変換した後に、その「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」があれば、お教え下さい。 なお、いったん紙にプリントアウトしてからスキャンしてPDFにする方法も、「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」 の一つです。 この場合、「スキャンしたPDF」は、OCRソフトによりテキストデータにできますが、OCRソフトを介すること、又はグーグルドキユメントなどのwebサービスを介することが必要なので、「直ちに変換できる」とは言えません。 このような、いったん紙にしてスキャンしてPDFにするという方法ではない、それ以外の、「PDFを、ワードなどのテキストデータに直ちに変換できないようにする方法」の質問です。

  • 文書をコピーして編集できるソフト

    文書をプリンターでスキャンコピーして、Wordなどに変換して「編集」ができるフリーソフトのお奨めがありましたら、教えてください。 「Aiseesoft PDF Word変換」というソフトを使っていますが、いまいち完璧に編集ができないものですから。 ある程度の不便な部分は、我慢でしょうかね?このようなソフトは。

  • A4より大きいスキャナーを探しています

    1ページがA4より大きい雑誌をスキャンできるスキャナーを探しています。 どう検索したらいいでしょうか? 雑誌や書籍で解体できないものを 1ページずつページを繰ってはスキャンします。 そしてPDFにします。お薦めのスキャナーはどれでしょうか?

  • PDF文書作成について

    PDF文書作成について 20P(ページ)程度のワード文書を目的別にPDFに変換したいのです。 変換ソフトはオフィス2007の標準ソフトで実施します。 例えば20Pのワード文書をそのままで1-5P、12-18Pのみ(必要なページのみ)PDFに変換する方法を教えてください。

  • PDFの変換の仕方・・・

     ワードで作成した文書をPDFに変換したいと思っています。フリーソフトでワードの文書をPDFに変換することが可能みたいなんですが、どれをインストールしたら良いか良く分かりません。  簡単にPDFに変換できるフリーソフトでお勧めの物があったら教えてください。よろしくお願いいたします。

  • MG6930のスキャナーについて 

    スキャナー機能でExcel文書をスキャンすると今まではPDFで保存されてました。 今日スキャンしてみると『PDFから編集可能なWord文章に変換します。この処理には・・・・・・』と表示されうまくPDFに変換されません。 どうしたらいいですか?教えてください。 ※OKWAVEより補足:「キヤノン製品」についての質問です。

  • ワードの文書結合について

    PDF文書をスキャンしてワード文書に変換するソフトでワード文書を作成しました。元の文書は10ページの1ワード文書をコピーした紙の文書ですが、当然そのような過程で作りましたので、10個のワード文書となってます。これを1ファイル10ページのワード文書にまとめたいのです。印刷などで両面印刷なども必要となってきますので、今の10ファイルの状態では不可能です。このような別のワード文書を同じ文書の複数ページに結合する方法があれば教えてください。とても困っております。宜しくお願いいたします。

  • スキャンしてPDFファイルに変換

    こんにちは。 とある文書をPDFで受け取ったのですが、それを印刷後、必要事項を記入してスキャンし、またPDFファイルに変換して送り返したいのですが、スキャンしてPDFにする方法がよくわかりません。 スキャンの時点で直接PDFにできるのでしょうか?もしくは、無料ソフトなど、手軽にできる方法があったら教えてください。 よろしくお願いします。 ちなみにスキャナーはHPです。

  • PDFファイルからテキストへ

    皆様こんにちは。パソコン初心者の者です。 スキャナーでイメージとして読み込んだPDFファイルを、テキストに変換する事は出来るのでしょうか?出来るのであれば、どうすれば良いのでしょうか?そういうことが出来るソフトはあるのでしょうか? ワードで作成した文書等から、PDFに変換した文書であれば、テキストに変換することは出来るようなのですが。

専門家に質問してみよう