• 締切済み
  • すぐに回答を!

PDFファイルの文字列を抽出する方法

環境 OS:RedhatLinux ES3 PHP:4.4.0 Apache:2.0.54 サーバーに置いてあるPDFファイルの中の文章をPHPを使って 抽出したいのですが、どのようなやり方がありますか?

共感・応援の気持ちを伝えよう!

  • 回答数1
  • 閲覧数394
  • ありがとう数2

みんなの回答

  • 回答No.1
  • vaio09
  • ベストアンサー率37% (756/2018)

お使いのサーバに、Namazuなどの全文検索システムを導入すると、簡単に実現します。

参考URL:
http://www.namazu.org/

共感・感謝の気持ちを伝えよう!

質問者からの補足

Namazuのインデックス情報を使うということでしょうか? Namazuをインストールしてインデックスを作成してみましたが、 1/1 - /test/hoge.pdf 未対応の形式 (application/pdf)無視します というメッセージが表示されてしまいます・・・

関連するQ&A

  • 文字列の置換について

    こんにちは、kanpoと申します。 今回文字列の置換についての質問をさせていただきたいと思います。 やりたいことは以下のとおりです。 たとえば、あるStringデータに”あかさた#1728なはま#7586やらわ”などという 文字列が入ってるとします。 この文字列のなかから"#1728"と"#7586"を検索しそれぞれを #1728 → test #7586 → test2 と変換し最終的にもとのStringデータを ”あかさたtestなはまtest2やらわ”としたいのです。 説明が長くなってしまい申し訳ありませんがよろしくご教授ください。 環境は下記のとおりです。 RedhatLinux6.2J apache-1.3.12-0jp1.i386 php-3.0.15_i18n_ja-0vl2.i386

    • ベストアンサー
    • PHP
  • PHPのインストール方法

    redhatlinux9.0+mysql+apache2.0でPHPの利用を考えている初心者です。mysql+phpはapache2.0のディレクトリ構成上のどこにインストールするのが普通なのか判りません。インストールの方法を教えて頂けないでしょうか。

    • ベストアンサー
    • PHP
  • 北京語

    お世話になります。 RedHat Linux9 Apache2.0 PHP4.2.2 MySQL3.23.58 以上の環境でデータベースで北京語を使いたいのですが可能でしょうか? サーバーの設定とかでしたら板違いになってしまいますね すみません。 使用する際の注意点や設定の変更などありましたら ご教授おねがいします。 以上わかりにくい説明になってしまいましたが よろしくお願いします。

    • ベストアンサー
    • MySQL
  • クエリ文字列が取得できない

    以下のようなプログラムを作りました。 test.php -------------- <HTML><BODY> <?php echo($_REQUEST["n"]); ?> </BODY></HTML> -------------- それで http://(省略)/test.php?n=5 とURLをいれて Query Stringから5を取得させて表示させたいのですが ローカルでのテスト(Apache/1.3.27)はうまくいくのですが サーバーにアップロードすると何も表示されません。 他のPHPのプログラムは動くのですが、どうもこの$_REQUEST["n"];の部分がうまくいっていないようです。 プログラムのミスか、設定のミスか、考えられる対処法を教えていただけないでしょうか? 環境 PHP 4.2.2 サーバー:レンタルサーバー(1-man.net) (phpは使えるサーバーです) Dreamweaver MX

    • ベストアンサー
    • PHP
  • Linux,apache,postgresのシャットダウン、起動の順番

    今晩、停電のため、サーバーを停止・起動しなければならなくなりました。 OSはRedHat Enterprize Linux ES release3で、apache,postgres,phpが組み込まれています。 私の腹積もりでは、postgres,apache,そしてOSの順にシャットダウンして停電を待ち、電力復旧後、OS,apache、postgresの順に起動しようと思いますが、この順序でよろしいでしょうか? (このマシンを設定した前任者はすべて手動で起動などおこなっていたらしいです) よろしくお願いします。

  • 文字列の抽出とSQL表作成

    <a>..... <b>..... <c>..... と、<a>~<c>が何度も繰り返す文章があるとします。 ....の内容はそれぞれ異なります。 <a>~<c>の...の情報を抽出しSQLでa,b,cを列とした表を書く場合、どういったプログラムを組めばよいのでしょうか?サーバへのアクセスのプログラムは理解しています。どうしても分かりませんよろしくお願いいたします。

    • ベストアンサー
    • Java
  • Apacheでサーバー領域を人に貸す場合。容量制限の方法は?

    こんにちは Apacheで人にサーバー領域を貸したいのですが、貸す分の容量を制限したいのですが、可能でしょうか。 使用環境 Redhat Linux 7.3 Apache 1.3.27

  • RedHat+Core2Duoでローアベが高すぎる

    ハードについて、ほぼ初心者ですが質問させていただきます。 現在、とあるコミュニティサイトを運営しています。 先日、サーバー移転で (CPU)Intel(R)Xeon 5140 @ 2.33GHz + RedHat EL4 のサーバーから (CPU)Intel(R)Core2Duo T7200 @ 2.00GHz + RedHat EL4 のサーバーへ引越ししました。 ところが夜間、アクセスが集中する時間帯になると、サーバーのロードアベレージが10,000%を超えてしまいます。(←`uptime` の結果が100超) 以前のXeonサーバーではロードアベレージが高いときで300%~800%程だったのですが、Core2Duoのサーバーで急激にローアベが高まります。(しかも異常なほど) プログラムソースなどは以前のものをそのまま移しただけなので、この問題はサーバー本体にあるのではないか?と思っています。 ただ、不思議なことに、 1)ローアベが10,000%を超えているにも関わらず、Apacheが落ちる・サーバーが落ちるということはなく、サイトは特に問題なく表示できている。 2)SSHでログインしている場合、問題なくコマンドを打ち込むことができます。 3)`uptime`の結果だけが異常に高い。 このような現象について、何か経験・知識のある方おられましたら、助言していただけたらと思います。 -- 以下、サーバースペック (OS)RedHat Enterprise Linux ES release 4 (WEB)Apache2.2.8 (PHP)php5 (メモリ)2GB (CPU)Intel(R)Core2Duo T7200 @ 2.00GHz

  • 文字列をSVGにしたい。

    文字列をSVGにしたいのですが、今の所私の知識ではイラストレータで文字を打って、SVGで書き出す方法しか思いつきません。 この一連の動作をlinuxサーバー上でPHPやシェルスクリプトで自動でおこないたいのですが、なんか方法ありますか?

  • find結果で文字列検索?

    RedHatLinux7.2です。 シェルコマンドで複数のテキストファイルからある文字列を含むファイルだけリストアップしたいのですが、文字列検索の対象となるテキストファイルが色々なディレクトリにまたがっている場合はどうやってやればよいでしょうか? 多分findで抽出したファイルパスをgrepに渡せばいいんでしょうけどパイプとか?がまだ不勉強ですぐにわかりません。 初歩的なことだと思いますがよろしくお願いします。