• 締切済み

透明テキスト付きPDFへの変換ソフトを紹介して

複数の英語の書籍を、画像スキャナーで読み込んで、PDFに変換してファイル化しています。いずれもページ数は500枚から700枚程度です。 これを透明テキスト付きPDFにして、Acorbatで検索できるようにしたいと考えています。 そこでこれらの画像PDFファイルを、OCRでテキスト化し、その上で各ページに透明テキストを埋め込んでくれるソフトを紹介してくださいませんか。 特にOCRに日本語がなくても結構です(もちろんあればそれにこしたことはありませんが、限定しません)。 また価格はできれば安いにこしたことはありませんが、特にこれも限定しません。なおソフトよりもハードを買った方が安いとのご提案があれば、そのご提案も歓迎したいと思います。 私は現在日本国外におり、情報に疎い状況にあります。 ただ申し訳ないのですが、いくつか条件があります。 1)元のPDFファイルはそのままで、透明テキストを付加したいのです。  PDFファイルは、深い階層までしおりを付けています。これを崩したくありません。  また以前持っていたe.Typistは、元のPDFをページごとにPDFファイルとしてしまうため、再度結合(組み立て直しを)せねばなりませんでした。  元のPDFファイルのページ数が500枚以上あるため、できるだけ面倒な操作をしたくないのです。 2)PDFのバージョンは、古いPDFで(できればAcrobat6で)保存したい。 3)ソフトウエアの場合、できればダウンロード販売のあるものが良い。 以上、よろしくお願いいたします。

みんなの回答

  • Hoyat
  • ベストアンサー率52% (4897/9300)
回答No.3

#1です。 Acrobatを奨めているのは「最終的にPDF化される」からですし「ダウンロード販売がある」からです。 https://store3.adobe.com/cfusion/store/html/index.cfm?store=OLS-JP&event=displayProduct&categoryPath=/Applications/AcrobatPro&distributionMethod=FULL >キャプチャーの機械等を、資機材と一緒に送ってもらうことも考えました OCRはハードウェア依存ではありません。ソフトウェア依存です。 またスキャナーなどでPDF化するにあたっては必ずAcrobatが使用されています。 (定評のある富士通のScanSnapもAcrobatがバンドルされています) >白黒、解像度300dpi、PDFバージョンは不明だが古いと思われる データの詳細がわかりませんから透明テキストが何故Acrobat6日本語版で「機能しない」かは不明ですが、単純に下位互換保存していないからではないかと思います。つまり古いデータなのではなく逆に新しい(バージョンの)データだからだと思います(古いデータなら機能しますので)。 因みに現状でAcrobat6は4世代前のバージョンになってしまいますので、恐らくは「バージョンが古いから機能が足りない」というオチだと思います。 Adobe Readerは容易にアップグレードできます(無償でダウンロード&インストールできる)から、データ制作者が下位互換を意識されていないのでは?

  • kokubosino
  • ベストアンサー率19% (697/3530)
回答No.2

OCRの識字率は80%なんで全ての文字を確認して修正しなければいけません。 500ページもあるんだったら、そっちのほーが面倒で、後の作業というのは微々たる物ですよ Adobe社のAcrobatを買いましょう。

cobaco
質問者

補足

早速ありがとうございます。  日本のように簡単にAcrobatが買えればよいのですが。また下記に書かせていただいたように、必ずしも最新のAcrobatで対応できるとも限らない点が、心配なところです。  ところで英文も認識率80%なのでしょうか。10年以上も前のことですが、日本のOCRは漢字認識の技術と英文辞書の高効率化から、比較的金額の高くないOCRソフトであっても、英文はほぼ100%に近い(特殊な文字を除いて、一般の書籍の文字はほぼ間違いなく認識される)と、当時の技術屋が言っていたことを覚えています。  ご教授をよろしくお願いします。

  • Hoyat
  • ベストアンサー率52% (4897/9300)
回答No.1

そもそもpdfはAdobe Acrobatが本家なんで、編集もAcrobatでやるのが一番柔軟性があります。 で、確か、透明テキストの付与はAcrobat6で出来るはずですが? OCR機能も付いていたはずですし・・・(既に自分のところには無いバージョンなんで確認できませんが) ※Acrobatは新しいバージョンでも、旧バージョンとの互換性は付与できますので新しいもの(現バージョンはX)でも出来る事ではありますけどね。

cobaco
質問者

補足

早速ありがとうございます。  こちらはODA各国の様々な仕様が混乱しており、こちらで作成したキャプチャーから作成するPDFは、たぶん仕様の混乱のせいだと思うのですが、私の持っているAcrobat6.06日本語版では透明テキストが機能しません。Acrobatの求める仕様を満足している(白黒、解像度300dpi、PDFバージョンは不明だが古いと思われる)はずなのですが。  たとえ原因が解明したところで、こちらはそれに対処できる環境ではないため、Acrobatはあきらめらめて、OCRソフトを考えたのです。Acrobatは最新版を購入して試してみることも考えましたが、最新版を購入できる環境にないこと、また購入してダメだった場合、価格的に他の業務を圧迫する(こちらの人件費を考えると莫大な予算なのです)こと、さらにダウンロードで簡単には買いにくい、これらがAcrobatをあきらめた主な原因なのです。OCRならば、Acorbatのバージョンにあまり左右されないのではないかと考えました。まぁ同じ事なのかも知れませんが。 またOCR等のソフトでの対応が難しいのであれば、キャプチャーの機械等を、資機材と一緒に送ってもらうことも考えました。これならばAcrobatに依存せずに、書籍のPDF化ができます。ただこれだと、1ヶ月以上待たねばならなくなり、それもまた厳しいのです。 よろしくお願いします。 (ネットに接続するため時間がかかる場合があり、返事が遅くなります。)

関連するQ&A

  • 「劣化なし」で透明テキスト付きPDFを作成したい

    スキャナから紙文書を読み込んで、これにOCR処理を施し、透明テキスト付きPDFを作成したいと考えています。そのため、市販のOCRソフト(読んde!!又はe.typistを検討しています)の購入を検討しています。 ただ、市販のソフトはどれも入力、又は出力(保存)の時点で解像度の低下、ファイル形式の変換を行っているようです。 私は、元ソースである「画像のみのPDFファイル」はそのままに、透明テキストのみを付加したいのですが、それは不可能でしょうか。また、そのようなソフトがあればご紹介ください。 メーカーに問い合わせてみましたが、返事がありません・・・。というわけで、詳しい方がいらっしゃれば回答いただけると幸いです。

  • PDF作成ソフト

    PDF作成ソフト PDF作成ソフトを探しています。 ページ数は400ページくらいになります。 しおりを付けたいです。 このような事ができるPDF作成ソフトはないでしょうか? よろしくお願いします。

  • PDFからテキストだけ抜き出すには

    OCR機能のついたフリーソフトのクセロReaderZeroを使ってテキストの埋め込まれたPDFファイルを作りました。ここからノートパッドかワードにテキストだけコピーしたいのですが、どのようにしたらいいのかわかりません。教えてください。(このソフトのほかにAdobe Reader 8 と Adobe Acrobat 6 をインストールしてあります。)

  • PDFファイルを一括して透明テキスト付PDFファイルにするソフトはありませんか?

    書類をスキャンした数千のPDFファイルがあります。このファイルを管理するために、透明テキスト付きにしてデスクトップ検索ソフトを使いたいと思います。 複数のPDFファイルをOCRにかけて一気に透明テキスト付きにしてくれるソフトはありませんか。 キーワードを引っかけられればいいので、認識精度をうるさくは言いませんが、斜めにスキャンされたものを自動修正して文字認識してくれるようであれば最高だなぁと思います。

  • pdfファイルをテキストファイルに変換できるソフト

    インターネットなどでダウンロードしたpdfファイルで、 あるテキスト部分をドラックしてコピーして、ワードファイルやテキストファイルにペーストしても、そのコピーされません。 pdfファイル上では、そのテキスト部分はドラックすると、ドラックした部分が黒色に変わるので、そのテキスト部分は画像化はされていないと思うのですが、ワードファイルやテキストファイルにペーストしても、そのコピーされません。 なにかセキュリティ設定でもされているかもしれません。 そこで、このようなPDFファイルをワードファイルやテキストファイルに変換できるフリーソフトを教えてください。

  • PDFをワードに変換

    Microsoft ワードの「ファイル」の「開く」でPDFのファイルを指定すると、そのPDFの内容がワードファイルとして読み込まれます。  PDFに図面が混じっている場合や余白部分にページ番号等が記載されている場合に意味不明なワード文章となることは仕方ないと思います。  しかしPDFが文章だけの場合でも、読み取ったワード文章にワードのフォントと画像(文字表す画像)とが混在する場合があります。  もう少し優れたPDF→ワード変換ソフトは開発されていないのでしょうか。元のPDFデータを一度濃く印字してOCRで読み直してから、変換した方が正確に変換される場合もあるでしょうか。

  • PDFからエクセルへの変換についてフリーソフト等

    PDFファイルをエクセルにしたくて、こちらにお尋ねしました。 いつもはよくPDFファイルになっている表をワードにコンバートする、ということはよくやっているのですが、おなじPDFといっても、テキストの編集可能なものと、まったく触れないもの(画像)のものと二種ありますよね?今回はその後者のほうのお尋ねです。 PDFの表があるのですが、スキャナで読み取り、画像としてPDFになったものがあります。 それを編集したいので、エクセルにテキストとして落としたいのですが、そういったことは可能でしょうか?おおよそ思いつくもの(ネット検索で調べてみた)をあたってはみたのですが、 その検索先の説明が難しかったり、やってみてもやはりこのファイルは無理だったり、、で、うまくいきませんでした。 また、手持ちのものにエプソンのスキャナがあり、OCR(だったかな?)の機能があり、それで読み取ってみたりもしたのですが、うまく読み取らない&改行などが狂いすぎて表を維持しておらず、とても使えませんでした。 お金のかからないもので、こういう方法がある、というのがあればぜひ教えていただけないでしょうか。

  • PDFの変換ソフトについて

    会社の資料を整理したいのですがペーパーでなくデータ(テキストファイル)で保存したいと思っています。資料をスキャンしPDF化するのはすぐですが画像データはPCの容量を食うのでPDFファイルから変換ソフトを使ってテキスト化できればと思っています。フリーソフトでFirstPDFというものを使ってみましたが、文字化けが多くうまく変換できません。よいソフトを紹介してください。

  • 完全認識率のスキャナソフト、OCRソフトは?

    ないのでしょうか?? 「e.Typist」と「読んで!ココ」を試用しましたが、テキストの100%の認識率ではありませんでした。 特に雑誌などの独特の字体など不完全です。現状はどのソフトもこうなのでしょうか? 誤認識されたものは、PDFファイルにも、そのまま反映されてしまうのでしょうか? また、完璧とまではいかなくても、完璧に近い、これは満足!というスキャナーやOCRのソフトがあればご紹介ください。

  • PDF内の画像文字からテキストを抽出できるOCR

    現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20~30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。 文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、 すこし誤変換が多いような気がしました。 このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。

専門家に質問してみよう