• ベストアンサー

PDFを全文検索するプログラム

Acrobatの提供するJavascriptオブジェクトやAPIを使用して、PDFを対象とした 全文検索ツールを作りたいのですが、書籍等も少なく、なかなか有効な情報に 出会えません。どなたか実際にそのような開発に携わったことがあれば、 その手法に関する情報をご提供頂けないでしょうか? なお、市販のPDF全文検索ソフトもいろいろあるのですが、ライセンス フリーなものが今回必要となり、自作を検討しております。 用途はPDFをCD-Rに焼き、そのCD-R内にCD-R内全文検索プログラムを 組み込むというものです。 よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • imogasi
  • ベストアンサー率27% (4737/17068)
回答No.2

私は経験も知識も無いものですが、 A.PDFファイルを直接読んで検索する。 B.人間が操作して、下記RTFファイルまたはテキストファイルに抽出して、検索する。の2つが考えられると思います。 お手許にPDFファイルのファイルフォーマットは既にあるのでしょうか。 その後Adobe社にこの形式のファイルを読み検索するアプリを作成する(その後貴社でソフトを販売するのですか?それを明確に伝えて)のに認諾や契約や有償が必要なのか確認されましたか。 (1)AcrobatファイルはRTF形式にテキスト部分のみ落とせるとのことです。 http://www.keiyu.com/doc/pdftxt.htm http://search.luky.org/linux-users.8/msg00983.html http://www.pdf-seek.com/jyouhou/index.html http://pc-training.hp.infoseek.co.jp/pdf.html http://www.y-adagio.com/public/standards/tr_pdf/pdfmain.htm (この中に「著作権認諾」のことも載っている。) 相当調べられたふうですが、「PDF」「テキスト」「ファイル形式」「ファイルフォーマット」などでWEB検索してみてください。 (2)この落としたファイルを対象に、自作の検索プログラムを作り、走らせる。 (3)(1)はAcrobatの「操作」ですから、その通り操作でやると オフラインバッチ処理的になり、1ステップ入ってしまいます。 それで良いのでしょうか。もし操作を自動的にするマクロのようなものが あればAと近くなり、良いのでしょうが。 (3)バッチ的になって良いなら、(1)を操作でさせて、RTFファイルを読みこみ、扱う方法を習得すれば、検索プログラムが出来ると思います。 検索は「JavascriptオブジェクトやAPI」にそのものズバリはあるはずは 無いと思います。WINやJAVAやその他で検索エンジンまでAPIになっている例があるのでしょうか。 すなわち言いたいことは、RTFの形式のフォーマット詳細を調べるとかして勉強し、処理言語を決めて扱える事ができるようになることがターゲットでしょう。 (4)あと文章検索について色々なアルゴリズムがあるようですので、それを調べて勉強し、その処理言語で使用できるようになることでしょう。クラスモジュールのようなものが販売されておれば、使えると早いでしょうが。 経験のないものがあれこれいっておりますが、目指し進む方向がちょっと 気になりましたので。得るものがあれば幸甚です。

yaya999
質問者

お礼

返答が遅れまして、申し訳ございませんでした。 色々と調べて頂き、ご助言頂きまして大変恐縮です。 その後調査を致しましたところ、http://partners.adobe.com/asn/developer/acrosdk/main.html のDevelopment Kitにて、VC用のヘッダーファイルや、Javascript オブジェクトを使用したVBのサンプルコードが公開されていました。 まだ深くは解読していませんが、そこで使用されているオブジェクト &メッソドを使用すれば、テキストベースに変換したりだとかいう ステップは省略できそうです。 ただ、Acrobat Readerのプラグインツールとして開発するのであれば Adobe社の開発キット等を購入する必要があるようです。 また、Adobe社へ問い合わせ致しましたところ、 「PDFのテキスト情報を検索する」 というアプリケーションを開発するにあたっては、特に許諾などは 必要ないということです。 意外とPDFの需要は伸びてきているようなので、そういったPDFを対象とした 開発に関するKnowHow資料も、書籍などでもっと欲しいところですね。 いろいろアドバイス頂き、誠に有難うございました。

その他の回答 (1)

  • Spur
  • ベストアンサー率25% (453/1783)
回答No.1

自分でプログラムを作るということでしょうか? それなら、Adobe社と契約が必要になりますし、契約すればモジュールとマニュアルを供給してもらえますよ。 私の会社はそれで作りました。

yaya999
質問者

お礼

早速のご返信ありがとうございます。 Adobe社との契約が必要なのですか。 やはりAdobe社からの情報無しでは難しいのでしょうか? PDFからテキスト情報を取得するAPIでも分かれば VBやVCあたりでできそうな気もするのですが・・・ ありがとうございます。検討してみます。

関連するQ&A

  • ライセンスフリーのPDF全文検索ソフト

    ライセンスフリーのPDF全文検索ソフトを探しています。 PDFFinder等、問い合わせましたが、CD-ROM出版数にて ライセンス料が発生するようです。 どなたかライセンスフリーのソフトをご存知でしたら、 ぜひ情報のご提供をよろしくお願いします。

  • VistaでPDFの全文検索は?

    Vistaの「検索」はパソコン内にあるPDFの全文検索(本文の検索)には対応していないのでしょうか?当然できるものと思っていたのですが,いまのところまだ成功していません。 XP+Windows Desktop Search (WDS) 3.0の場合は,Acrobatをインストールした上で,Acrobatの中から一度インデックスを作ってやると,Windows Desktop Searchの側からも検索できるようになるようです。(非常に面倒くさい。WDS 2.6.5の場合は,IFilterを追加インストールすればあとは随時自動的にインデックスが作られるのに……。)Vistaに入っているデスクトップ検索もWindows Desktop Search 3.0のはずですから,同じ要領でできるのかと思ったのですが,いまのところ検索できていません。

  • 全文検索について質問です。

    全文検索について質問です。 歌詞掲載サイトのようにPDFファイル(内容はテキストです)をコピー、印刷ができないようにしたいと思い、セキュリティ設定をしてサイトに掲載したところ、全文検索ができないことに気づきました。 盗用防止の観点からセキュリティはかけたいけれど、全文検索できないのは不便だし…と悩んでいます。 セキュリティ設定と全文検索、この二つを両立させる方法はあるのでしょうか?? セキュリティ設定だけでなく、スクリーンリーダーやアクロバットのバージョンも関係しているようで、 なかなか最適な設定、方法が見つかりません。 ご存知の方がいらっしゃいましたら、どうぞご教示下さい。 よろしくお願いいたします。

  • PDF文字検索ソフト

    PDF文字検索ソフトを探しています。PDFファイル内の文字を検索し、ヒットした文字をマーカ等で表示可能にしてくれるソフト等はありますでしょうか?どなたかご存じでしたら教えて下さい。アクロバット上に検索はございますが、それとは違い別ソフトからPDFファイル内の文字を検索し、それを表示可能にしてくれるソフトです。使用用途としまして、CD内にPDFデータを入れ、そのCDをPCに入れると自動的に目次を表示し、その目次からジャンプしてPDFを表示し、又、文字検索機能までついてくれるのが理想です。プログラム的な問題だとは思いますが、どなたかご伝授願います。それではよろしくお願いいたします。うまくお伝え出来ない文書で申し訳ありません。

  • テキストエディタで全文検索できる携帯電話ありますか?

    「情報は一冊のノートにまとめなさい」という書籍を読みました。 その書籍で言及されていたのですが、『テキストエディタで全文検索できる携帯電話』というのはありますか? 知ってる方、教えてください。

  • Excelで埋め込んだPDFを開く

    Excelで埋め込んだPDFを開く Acrobat7で作成したPDFを、Excelファイルに下記の操作で埋め込みました。 Excel2003で、「挿入」「オブジェクト」「ファイルから」 埋め込んだPDFをダブルクリックで開こうとすると、 「このオブジェクトの作成元アプリケーションを起動できません。」とメッセージが出ますが、 Acrobat7で開いてくれます。 しかし、キーワード検索して検索結果をクリックしてもそのページに飛びません。 Reader9を起動したまま、埋め込んだPDFをダブルクリックすると、起動しているReader9で開きます。 検索も正常です。 PDFの関連付けはReader9になっていて、デスクトップにあるPDFを単体で開くときはReader9になります。 Excel内のPDFをReader9で開く、Acrobat7でも正常に開く、どちらかにする方法はあるでしょうか?

  • PDFファイルに表示されているテキスト検索は可能ですか?

    ホームページを作成する際に、ページのリンクボタンからPDFファイルにリンクさせ、そのPDFファイルのテキストのキーワードを検索できるようにしたいと考えています。 AcrobatのPDFファイルに表示されているテキストを検索することはできるのかどうか教えてください。 1.ブラウザ上でできるのか。 2.ブラウザ上に表示させているPDFファイルのテキストのキーワードを検索しようとした場合、ASPやJavaScript等プログラムを作成すれば検索は可能となるのか。 質問が下手ですみませんが、ヒントでもいいので是非教えてください。宜しくお願いします。

  • PDFファイルを検索可能型にしたい

    PDFファイルを検索可能型にしたい PDFファイルを検索可能型にしたいのです 透明テキスト付加などと言われていますが スキャナーでスキャンして作成したPDFファイルは 要するにテキスト情報が無い”絵”の状態です この状態だと ある文字が含まれるページを探すには1ページずつ開いて目だ探すしかありません しかし透明テキストが付加されているPDFファイルだと アクロバットリーダーなどの 検索機能が使えます 今時のスキャナーはPDFファイル作成時にテキスト情報を付加する機能があり これはこれで問題ないのですが その機能を持たないスキャナーでスキャンして作成したなどのPDFファイルでは 後からテキスト情報を付加してやる必要があります この機能を持ったソフトを探しているのですが なかなか見つかりません ソースネクストのものを購入しましたが あくまでもスキャナーで読み取った時に テキスト情報を付加するものであり既に出来上がっているPDFファイルには 対応しませんでした 無駄金使ってしまいました この要望にこたえられるソフトはあるのでしょうか? Docuworcusも利用していますが これもそのあたりがイマイチです・・。

  • PDF作成ソフト(電子書籍化に伴い)

    PDF作成ソフトを探しています。 電子書籍を自作しております。 スキャンで読み込んだものを単一のPDFにするために使用したいと考えています。 ファイルをPDFに統合です。 いきなりPDFというソフトを購入しましたが、 作成が非常に遅く、非常にエラーが多いので使い物になりません。 そこで何か私の用途についていいソフトがあったら教えてください。 ちなみにAcrobat X proの体験版を使用しましたが、あまりに作成が速くびっくりしました。 だったらこれを購入すればいいでしょうが、この用途だけなので。。

  • 書籍PDF化:縦書き検索ができない(OCR済)

    こんにちは。 業者の方にお願いし、書籍を300冊ほどPDF化しました。それを受け取った後、Acrobat Pro 9を使用し自分でOCRを掛けたのですが、縦書きの検索がどうもうまくいきません。 検索にAcrobatを使用すれば問題ないのですが、他のアプリで試すと、ページ本文内の縦書きは一切、検索結果に表示されません。 代わりに、各ページの上部にある横書き部分(見出しや、タイトル名)に検索キーワードがある場合、それがヒットします。 これは、OCR時の設定に問題があるのでしょうか? それとも、検索するアプリが縦書きの検索に対応していないと考えるべきなのでしょうか? (マック環境なので、プレビューとスポットライトで試しました) 詳しい方、いらっしゃいましたら宜しくお願いします。 M

専門家に質問してみよう