• 締切済み

PDFファイルの文字列を抽出する方法

環境 OS:RedhatLinux ES3 PHP:4.4.0 Apache:2.0.54 サーバーに置いてあるPDFファイルの中の文章をPHPを使って 抽出したいのですが、どのようなやり方がありますか?

みんなの回答

  • vaio09
  • ベストアンサー率37% (756/2018)
回答No.1

お使いのサーバに、Namazuなどの全文検索システムを導入すると、簡単に実現します。

参考URL:
http://www.namazu.org/
pingu0918
質問者

補足

Namazuのインデックス情報を使うということでしょうか? Namazuをインストールしてインデックスを作成してみましたが、 1/1 - /test/hoge.pdf 未対応の形式 (application/pdf)無視します というメッセージが表示されてしまいます・・・

関連するQ&A

専門家に質問してみよう