• 締切済み

PDFで読み込んだ画像データから文字列を検索

いつもお世話になっています。 6項目で30行程の表を読み込んだPDFデータが300枚ほどありますが、 データが画像化されているのでデータを検索できず困っています。 理想はエクセルVBAでPDFの画像化されたデータを テキストデータ化してエクセルに取り込みたいのですが、何か方法はないでしょうか? (こちらは若干VBAが使用できる程度のレベルです) 1枚毎の表と内容(アルファベットと数字のみ)はシンプルなのですが、 OCRソフトを使用しないと無理でしょうか? (OCRソフトは持っておらず、いろいろ誤表記もあるということなんで迷っています) もしくは画像化されたデータから文字列を検索する方法があれば教えていただきたいです。 現在、windows7、エクセル2007、AcrobatReader の環境です。 よろしくお願いします。

みんなの回答

  • yasuto07
  • ベストアンサー率12% (1344/10625)
回答No.2

スキャンする時に、、、検索できるPDF、というスイッチがあるソフトがあります。 六項目、30行、、、180項目、300枚、、、テキスト入力できない量じゃないかもね。 アクセスやファイルメーカーに、入力するのが良いでしょう。

  • lv4u
  • ベストアンサー率27% (1862/6715)
回答No.1

>>理想はエクセルVBAでPDFの画像化されたデータを テキストデータ化してエクセルに取り込みたいのですが、何か方法はないでしょうか? エクセルVBAを駆使しても、画像化されたデータからテキストは取り出せません。 >>OCRソフトを使用しないと無理でしょうか? (OCRソフトは持っておらず、いろいろ誤表記もあるということなんで迷っています) OCRソフトを使わないと無理です。

okwv-first
質問者

お礼

早速の回答ありがとうございます。 やはり無理なんですね。 かなり単純な表とデータなので、ひょっとしたら?と思い 質問させていただきました。 ありがとうございました。

関連するQ&A

  • PDFデータをエクセルにしたい

    表形式のPDFデータがあります。これをエクセル形式に直したいのですが、いい方法はありますか? 元のデータは、たくさんの空セルがあり、セル内が二行のものもあったりするので、コピー&ペーストすると、文字自体は、きちんと再現されますが、表に直すため、区切り位置を設定しようとしても、とても難しい状態です。 以前、「いきなりPDF to Data」というソフトを使ったことがありますが、単純にコピーするだけでちゃんと読み取ってくれるはずのデータをOCRソフトで、読み取って変換するようで、その結果は悲惨なものでした。多くの文字が文字として認識されないような状態でした。 PDFに入っている元データは、コピーするだけで、ちゃんと文字データとして、読み取れるので、あとは、元の表の体裁のまま、エクセルに変換できないか?ということです。

  • PDF内の画像文字からテキストを抽出できるOCR

    現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20~30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。 文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、 すこし誤変換が多いような気がしました。 このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。

  • 画像データをPDFにした後文字を検索したい。

    画像データ付の文書ファイルをPDFにした後、その画像ファイル内の文字(文字を画像ファイルとして取込したもの。例:新聞紙面を画像データで保存)をPDFファイルで検索機能を使って検索できますか。 教えてください。

  • 大量のpdfデータをエクセルで集計したい

    ある定型の書式で存在するPDFの情報が大量にあり、これをエクセル上に一覧表形式で落とし込みたいのですが、最短の時間、効率的に作業できる方法をどなたかご存じないでしょうか? 私が思いついた方法としては、おそらく、PDFのデータはOCR変換できると思いますで、テキストデータ化します。そのあと、エクセルに読み込むのができることは知っているのですが、単に読み込んだだけだと、一覧表にならないため、何かデータベース関数を用いて、PDFデータ一枚につきエクセル一行として整理し直したいのですが、良い手法はありますでしょうか?

  • PDFからエクセルへの変換についてフリーソフト等

    PDFファイルをエクセルにしたくて、こちらにお尋ねしました。 いつもはよくPDFファイルになっている表をワードにコンバートする、ということはよくやっているのですが、おなじPDFといっても、テキストの編集可能なものと、まったく触れないもの(画像)のものと二種ありますよね?今回はその後者のほうのお尋ねです。 PDFの表があるのですが、スキャナで読み取り、画像としてPDFになったものがあります。 それを編集したいので、エクセルにテキストとして落としたいのですが、そういったことは可能でしょうか?おおよそ思いつくもの(ネット検索で調べてみた)をあたってはみたのですが、 その検索先の説明が難しかったり、やってみてもやはりこのファイルは無理だったり、、で、うまくいきませんでした。 また、手持ちのものにエプソンのスキャナがあり、OCR(だったかな?)の機能があり、それで読み取ってみたりもしたのですが、うまく読み取らない&改行などが狂いすぎて表を維持しておらず、とても使えませんでした。 お金のかからないもので、こういう方法がある、というのがあればぜひ教えていただけないでしょうか。

  • PDFデータの文字情報

    PDFデータやワードなどのデータは現状の会社の設備では難しいと営業の方などにはお願いしてるにもかかわらず、PDFでの入稿がありました。お客さんや営業の方は画面上できれいに確認できるので、それをそのまま印刷してくれればいいと言うのですが、リップでフォントのエラーが出てしまいます。 フォントが多少変わってもいいなら、PDFにする前の(多分エクセル)データをもらえれば、なんとかしようと思っても、エクセルのデータは手元にないから、PDFのデータでなんとかしてくれと言われています。 自分で考えられる打開策として、データはモノクロのため、PDFのデータをフォトショップでラスタライズしてTIF画像にしてしまおうと思っているのですが、一応エラーは出ずにラスタライズできるのですが、エクセルの細い線が、何箇所か消えてしまいます。PDFリーダーでは確かに綺麗になっているのですが、どうしてもそのまま画像にできません、こんな場合の解決策ってありますか?もしなにか方法が思いつく方がいればアドバイスを下さい。 また、皆さんは、PDFでの入稿などに、どのように対応しているのでしょうか?多少高価でも解決できるようなソフトがあれば教えて下さい。もしくは、どうすれば営業の方、お客さんに画面で見えても印刷できない理由を分かりやすく説明できるでしょうか?私自身一応編集機などは問題なく使用できるのですが、機械自体にあまり強い方ではないので、アドバイスお願いします。

  • OCRソフトでPDF形式の表を読み込みしたいです

    複合機のスキャナー機能を使い、ワードで作った用紙をパソコンにPDF形式でデータ(文字と表)でおくりました。そしてOCRソフトでワード形式に変換しましたが表がうまく読み取れていません。(文字はだいたい読み取れました) ちなみにワード2007を使用しています 1、OCRソフトで表を読み込むのは難しいのですか? 2、OCRソフト以外に表を読み取る方法はありますか?あったら教えてください。 お手数おかけしますが回答よろしくお願いします

  • Googleのpdfデータが直接開けない

    Googleで検索したpdfデータがAcrobatReader8または9でないと 表示出来ないと出ます いったん保存してAcobat6で開くことは出来るのですが 直接AcobatReader9でひらく設定にする方法がわかりません PCにはAcobat6とAcobatReader9の両方を入れています どなたかアドバイスお願いします

  • いきなりPDF to DATAについて

    いきなりPDF to DATA で、 PDFで作成された、表をエクセルにしようと思ったら、全く、話になりませんでした。元の文字がむちゃくちゃに表示されます。このソフトは、そのレベルのソフトなんでしょうか? 元のPDFには、データとして、入力されており、手でコピー&ペーストすると、データとして、エクセルに貼り付けできるのですが、コピー&ペーストだと、表の形にならず、1列にすべてのデータが表示されます。よって、表の形にしようとすると、その後、非常に多くの作業で手直しする必要があります。量が多いこともあり、できれば元の形式のまま表示されることを期待しています。 いい方法がありましたら、教えてください。

  • pdf文書内にある文字を1文字単位で画像化したい

    お世話になります。 pdf文書内にある文字を1文字単位で画像化したいと 考えております。 ※OCRではなく、画像化したいのです。 有償・無償どちらでも結構ですので、 そのような変換機能が付いたソフトを教えて頂けないでしょうか? 何卒よろしくお願いします。

専門家に質問してみよう