• 締切済み

スキャナで取り込んだPDF→エクセル変換→自社データへ

PDFファイル→エクセルのデータへ変換→自社専用データへの流れについて 最も効率の良い方法はないでしょうか? 私(エクセル初心者)が考える方法以外に アドバイスがあればお願い致します。 現在サイト構築に対する見積もりを 出す上での説明に必要な内容ですので、 先方へわかりやすくお伝えしたいです。 質問内容に対する重要項目を記載させていただきます。 ※PDFファイルはスキャナで取り込まれたものしか入手できません 【最終目的】 PDFファイルの中から「必要な文章」と「必要な数値」を抜き出し、 自社データとして管理し、その後、自社サイトへその情報を公開したいです。 なお、抜き出したデータはそのまま使用するものもあるのですが、 そのデータに基づいて算出したい情報もあります。 (例) 文章Aならば、答えは文章Bとなる設定 数値Cならば、答えは数値Dとなる設定      抜き出したAやCといった情報をBやDといった 答えに導き、その情報をサイトへアップしたいと思っています。   私が考えた流れ (1)PDFファイルをOCRソフトで認識させる (2)エクセルのデータへ変換させる (3)変換後のデータから「手動」で   セルにあらかじめ組んだ数式(?)へ貼り付けると   必要な情報が導きだされる (4)算出された情報をサイト専用のフォームへ「手動」で   貼り付けなどして、サイト上で閲覧できるようになる エクセル素人レベルで申し訳ありません。 エクセルでなくてもかまわないのですが、 上記に記載した最終目的に対して 限りなく「自動化」しなければいけない状況にあります。 なお、OCRソフト(PDF認識ソフト?)もいくつかあるようですが、 OCRソフトの精度は高いに越したことがないので、 今は【日本語・英語活字カラーOCRソフト「読取革命Ver.12】 の体験版を使用して試案している状況です。 「メディアドライブ」のほうが認識率が高い聞くこともあるので、 そちらを使用する予定ではあります。 もし、現時点でPDFファイルを認識するソフトで こちらのソフト以上のものをご存知でしたら 合わせてお答えいただけると非常に助かります。 大変わかりにくい文章で申し訳ありませんが よろしくお願い致します。

みんなの回答

  • ralf124c
  • ベストアンサー率52% (232/446)
回答No.2

他と比較したことが無いのでよくわかりませんが、いきなりPDFtoDATAと言うのがあります。 認識は取り込む原版によるところが大きいのでなんともいえませんが、一世代古いバージョンを持っていて重宝しています。

参考URL:
http://www.sourcenext.com/titles/use/92000/?i=o_ranking
HASH88
質問者

お礼

ありがとうございます。リンク先にあった5製品の評価が参考になりました

回答No.1

固定帳票から数値を取り込まれるのであれば、 以下のような製品もあります。

参考URL:
http://biz.mediadrive.jp/products/package/formocr/
HASH88
質問者

お礼

ありがとうございます。参考にさせていただきます。

関連するQ&A

  • PDFファイルをエクセルに変換する

    PDFファイルをエクセルに変換する OCRソフトを探しています。 認識率の高いものを希望しています。 おすすめのソフトを教えていただけると嬉しいです。

  • スキャナで読み込んだデータをエクセルデータに変換したい

    ペーパーからスキャナで取り込んだデータですが、表形式になっているので、エクセルへ変換できないか試しています。先日『いきなりPDF to DATA』というソフトを購入しましたが、ペーパーからでは図形としか認識せず、エクセルへの出力が出来ません。ペーパーデータをエクセルへ変換する方法がございましたら、ご教授願います。当方、ACROBATといきなりPDF to DATAのソフトは所有しています。

  • PDFデータをエクセルにしたい

    表形式のPDFデータがあります。これをエクセル形式に直したいのですが、いい方法はありますか? 元のデータは、たくさんの空セルがあり、セル内が二行のものもあったりするので、コピー&ペーストすると、文字自体は、きちんと再現されますが、表に直すため、区切り位置を設定しようとしても、とても難しい状態です。 以前、「いきなりPDF to Data」というソフトを使ったことがありますが、単純にコピーするだけでちゃんと読み取ってくれるはずのデータをOCRソフトで、読み取って変換するようで、その結果は悲惨なものでした。多くの文字が文字として認識されないような状態でした。 PDFに入っている元データは、コピーするだけで、ちゃんと文字データとして、読み取れるので、あとは、元の表の体裁のまま、エクセルに変換できないか?ということです。

  • PDFのOCR変換

    お世話になります。 現在やさしくPDF OCR v2.0を使用しているのですが、昨日スキャナでデータをエクセルに取り込んで保存形式をPDFにして、その保存したものを上記ソフトでテキストに変換しようとしたのですがファイルを読み込んでくれません。 PDFでも変換可能なものもあるのでなぜこの場合ができないのかわかりません。(PDFのバージョンやエクセルでのPDFは何かAcrobatと違う?) 使用OSはWinVistaHomeです。 どうか宜しくお願いします。

  • PDFファイルをWordかExcelに変換したい。

    PDFファイル中の文字が、なぜか少しにじんで、文字として読めるのですが、テキストとして認識しません。このような状態のPDFファイルをWordに変換するOCRソフトを教えて下さい。できたらフリーがいいですが、なければシェアウェアでもいいです。

  • PDFをテキストデータに直ちに変換できなくする方法

    ワードで入力した文書をPDFに変換した場合、コピペまたはPDF→ワードへの変換により直ちにテキストデータに変換できますよね。 ワードで入力した文書をPDFに変換した後に、その「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」があれば、お教え下さい。 なお、いったん紙にプリントアウトしてからスキャンしてPDFにする方法も、「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」 の一つです。 この場合、「スキャンしたPDF」は、OCRソフトによりテキストデータにできますが、OCRソフトを介すること、又はグーグルドキユメントなどのwebサービスを介することが必要なので、「直ちに変換できる」とは言えません。 このような、いったん紙にしてスキャンしてPDFにするという方法ではない、それ以外の、「PDFを、ワードなどのテキストデータに直ちに変換できないようにする方法」の質問です。

  • PDFをワードに変換

    Microsoft ワードの「ファイル」の「開く」でPDFのファイルを指定すると、そのPDFの内容がワードファイルとして読み込まれます。  PDFに図面が混じっている場合や余白部分にページ番号等が記載されている場合に意味不明なワード文章となることは仕方ないと思います。  しかしPDFが文章だけの場合でも、読み取ったワード文章にワードのフォントと画像(文字表す画像)とが混在する場合があります。  もう少し優れたPDF→ワード変換ソフトは開発されていないのでしょうか。元のPDFデータを一度濃く印字してOCRで読み直してから、変換した方が正確に変換される場合もあるでしょうか。

  • PDF をワードやエクセルに変換すると文字化けする

    よろしくお願い致します。 PDF をワードやエクセルに変換すると文字化けするのは何故でしょうか? 卒業文集の文章を、ブラザーの複合機でスキャンしpdfにしました。 それを変換ソフトを使って(変換中ocrと表示されます)ワードやエクセルにすると 文字化けしてしまいます。 どうにか文字化けしないようにするにはどうしたら良いでしょうか? ご教授下さいませ。

  • 「いきなりPDF to DATA」でEXCELへ変換できません。

    「いきなりPDF to DATA」を購入しPDFからEXCELへ変換しようとしましたが、PDFが立ち上がった後、EXCELが起動しはじめるのですが、「メモリーが足りません」とのメッセージが現れ、うまく変換することが出来ません。ちなみにPDFファイルでも比較的軽い物は変換可能なようです。 皆様方のお知恵をいただければ幸いです。

  • OCR機能のないスキャナで取り込んだPDFをOCR化できる?

    OCR機能のないスキャナで取り込んだPDFファイルが多数あります。 このPDFファイルを、OCR情報を含んだPDFファイルに変換する方法はあるのでしょうか? 要は、最初からOCR付スキャナで処理すれば良かったのですが・・・。

専門家に質問してみよう