• 締切済み

OCRソフトで作成した「透明テキスト付きPDFファイル」の,あまりにも《巨大》なファイル・サイズ

 諸先輩方に質問させていただきたく存じます。  これまでバインダーに綴じていた,ある1冊の単行本のコピーを電子化しようと思い,富士通の「ScanSnap S510」というスキャナで取り込み(白黒・600dpiの画質),取り敢えずPDFファイルにしました。A4×230枚で,ファイル・サイズは47MBです(画像データのサイズとしては常識的だと思います)。  このファイルを,「e.Typist(version 12.0)」というソフトを使って「透明テキスト付きPDF」に変換したところ,ファイル・サイズが,同じA4×230枚であるのに,何と946MBにもなってしまいました(もとのサイズの20倍)。小さい文字がびっしりの原稿ですが,そうだとしても,あまりにも大きすぎるサイズではないかと思います。  今回は,もともとのPDFファイルのイメージ・レイアウト等を動かしたくなかったので,(1)PDFファイルから画像を読み込む→(2)文字を認識させる→(3)認識結果をAdobe Acrobatに転送する(再びPDF化する),という手順を踏みました。  もちろん,文字を認識させた後,いったんWORDファイルに変換したうえで,改めてPDF化すれば,ファイル・サイズを大幅に小さくできるのは承知しています。  しかし,やはり,もともとの書籍のイメージ・レイアウト等を崩したくありません。この場合,ファイルのサイズが,このように巨大なものになってしまうのは,避けられないことなのでしょうか。    ご教示いただければ幸いです。

みんなの回答

  • wand88
  • ベストアンサー率20% (409/1958)
回答No.1

e.TypistでもAcrobatでも小さくする事は可能 オプションの設定方法をちゃんと見ましょう

Laza2006
質問者

お礼

ご教示ありがとうございます。設定方法の詳細を調べた結果,PDFファイルからの画像の読み込み方法が,「フルカラー」モードになっていることに気付きました。「白黒」モードに切り替えたところ,解像度を全く落としていないにもかかわらず,変換後のファイル・サイズは,逆に小さくなって,33MBになりました。お恥ずかしい限りです。いずれにせよ問題は解決しました。どうもありがとうございました。

関連するQ&A

  • PDFファイルのファイルサイズを圧縮したい

    イメージスキャナー(PIXUS MX850)に書類を取り込んでPDFファイル化してパソコンに保存する機能があるのですが、PDFファイルのサイズが大きくなりすぎてしまいます。カラー書類を10ページくらい取り込んでPDF化すると、数十MBになってしまいます。PDFファイルを1ページずつばらしてJPG画像化して、JPG画像の状態でファイルサイズを小さくして、再度PDF化すれば、PDFファイルのファイルサイズを小さくできるのですが、とても手間がかかります。そこで、ファイルサイズの大きなPDFファイル(中身はスキャナーで取り込んだ画像ファイル)をPDFファイルのまま小さくする方法は無いでしょうか?できれば数十MBのサイズを数MBくらいに圧縮したいです。良い方法があれば、是非教えてください。

  • PDFファイルにするとファイルサイズが大きくなります。

    パワーポイントの資料を、Acrobat4を使用してPDFファイルに変換したのですが、 ファイルサイズが大きくなってしまいました。 1.5MBだったPPTが4.7MBのPDFになっています。 PDFにするとファイルサイズがこんなにも違ってしまうのでしょうか。

  • 英文のPDFファイルのOCRソフト

    紙の英文文書をスキャナーで取り込んだ、PDF形式の画像ファイルをOCRソフトで英文の文字認識をさせて、word形式の英文文字ファイルに変換したいのですが、英文の文字認識エンジンを搭載したOCRソフトを紹介してください。 もし、フリーソフトでなければ有料ソフトでもいいのですが、 eTypistとかいろんなメーカーから販売されていて、どの製品が英文の認識率が高いかよくわかりません。どの製品が良いか教えてください。

  • PDFファイルのサイズを小さくしたい

    スキャナから解像度300dpi、カラーで取り込んで作成したPDFファイルがあります。そのPDFのファイルサイズを小さくしたいです。 そこで、カラーのPDFをグレースケールに変換してファイルサイズを小さくしようと考えています。 カラーのPDFファイルからグレースケールのPDFを作成する方法をご存知の方がいましたら、どうか教えて下さい。 当方のOSはWindows XPです。 ちなみに、スキャンした元の資料は破棄してしまいました。

  • PDF変換後のファイルサイズは使用した変換ソフトで違ってきますか?

    デジカメで撮ったJPEG画像(各画像とも2MB前後)を「縮小専用」でそれぞれ40~50KB程度に縮小してワードに貼り付け、タイトルと数行の説明文(いずれも書体は明朝)を加え、A4版・5ページの写真集のようなワード文書を作りました。 このワード文書のファイルサイズは1.66MBでしたので、PDF化すればサイズはもう少し小さくなり、ワードを持たない相手にもメールで送れるのではと考えましたが、PDF変換後のサイズは6.29MBと、大幅に大きくなり期待はずれでした。 本来PDFはファイルサイズの縮小を目的としたものではなく、種々の要因により逆にサイズが大きくなる場合があることは、このコミュニティのQ&Aなどで承知していましたが、正直言って少々未練が残ります。そこで質問です。今回PDF変換に使ったのは「ライブPDFプリンタ」というフリーソフトですが、使うソフト次第で仕上がりサイズに相違が生じるようなことはあるでしょうか(別のソフトを使えばサイズを小さくする可能性があるでしょうか)。また、これに関連して当方何か大きな誤解や考え違いをしておりましたら併せてご指摘ください。

  • 画像とテキストが混在したPDFファイルをOCR認識させる方法

     1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。  この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。  スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。  できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。  なお、当方のOSはWindowsXPです。  以上よろしくお願いします。

  • PDFのOCR化でファイルサイズが小さくなる理由

    すみません。  どなたか、回答よろしくお願いします。  印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。  これはなぜでしょうか。  最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。  そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。  でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。  そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。  よろしくお願いします。

  • サイズの大きいTIFFファイルのPDF化

    サイズの大きいTIFFファイル(100MB以上)をPDF化したいのですが、 そのまま変換すると変換後のファイルサイズがとても大きくなります。 どのようにすればファイルサイズを小さくすることができますでしょうか? 変換前に元ファイルのサイズを小さくする必要があるのでしょうか?

  • PDFのファイルサイズについて

    5年程前のスキャナを使用しています。Acrobatからスキャナを起動させ書類をスキャン しているのですがファイルサイズが大き過ぎて困っています。ワードからPDFに変換すると 10kB程度になるのが普通だと思うのですがスキャナからだとPDF形式で350kB、jpg形式で 150kBになりました。 気になったので調べたところPDFの特徴としてファイルを1/10位に圧縮できるということ を知りました。 スキャナからPDF変換してもBMP位のデータサイズの大きい画像として認識するため 1/10位に圧縮しても出力されたPDFファイルのデータサイズはは大きくなってしまう ということなのでしょうか? また、下記のHPで Hyper-Compact PDF なるものを見つけたのですがこの機能は 最新のスキャナには標準で備わっているものなのでしょうか? http://www.hypergear.com/hc-pdf/index.htm 以上、宜しくお願い致します。

  • PDFファイルのOCR

    文字と罫線だけのPDFファイルから基のデータと同等のファイルを作成したいのですが、どのソフトが一番変換が良いのか教えて下さい。 なお、「sourcenext」の「いきなりPDF to Data(EL)」で実施したところ、ある程度変換したのですが、テキストボックに変換されてしまいました。テキストボックスでなく通常の文字として変換したいと思っています。 よろしく御願いします。

専門家に質問してみよう