• ベストアンサー

PDFのプロパティの情報を抽出したい

あるPDFファイルの「ファイル」→「プロパティ」→「カスタム」内にある、[名前]と[値]の情報を抽出し、XMLに追加する。といったプログラム仕様を考えておりますが、この[名前]と[値]を抽出する方法で、何か関数などあるのでしょうか? プログラムは、C++言語、winコンソールでの作成を考えております。 もし何か情報不足などございましたら記載の方を宜しくお願い致します。 どうぞ宜しくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • x415f484f
  • ベストアンサー率71% (57/80)
回答No.1

この方法ではお気に召しませんか? 1. xpdf の pdfinfo の出力を加工して利用 2. (1) のソースを参考にしてご自身で実装 Xpdf for Windows http://gnuwin32.sourceforge.net/packages/xpdf.htm

foot-peng
質問者

お礼

ご回答、有難う御座います。 さっそく、(1)の出力を加工して利用できるか試みています。 ソースを参考に...は、なかなか私には難易度が高くて・・・。 まだ、その他の方法もあればご教授いただければ幸いです。

その他の回答 (1)

  • x415f484f
  • ベストアンサー率71% (57/80)
回答No.2

> (1)の出力を加工して利用できるか試みています。 申し訳ありません。 ANo.1 で記述し忘れましたが、日本語が含まれている場合は pdfinfo -enc UTF-8 filename.pdf のように、引数に出力エンコードを指定してください。 残念ながら Shift_JIS などはエンコードに指定できませんので NKF などの漢字変換フィルタを お使いになって Shift_JIS に変換してください。 pdfinfo -enc UTF-8 filename.pdf | nkf -s nkf.exe nkf32.dll Windows用 http://www.vector.co.jp/soft/win95/util/se295331.html

foot-peng
質問者

お礼

補足、有難う御座います ご教授頂いた方法でできそうです('-'*) 抽出できました! あとは、これをXMLに登録すれば仕様は満たせそうです。それはまた別件なので、本件はこれで閉じます。 有難う御座いました^^

関連するQ&A

  • PDFのプロパティから抽出

    PDFのファイルが数百個あります。 プロパティの中(文書情報というのでしょうか)にかかれている、ある単語が入っているファイルだけを抽出したいと思いますが、どのようにすれば良いのでしょうか? 初心者ですので宜しくお願い致します。

  • PDFファイルの文書プロパティ情報を抽出

    1つのフォルダに10個のPDFファイルがあります。 各PDFファイルの文書プロパティの項目を Excelに抽出することはできますか。 マクロの知識は初心者レベルでございます。 (1)作成者 (2)作成日 (3)アプリケーション (4)PDF変換 (5)PDFバージョン よろしくお願いいたします。

  • PDFファイルのプロパティについて

    PDFファイルのプロパティを開き、PDFタブを開くと「PDF変換」という項目があります。そこに作成ソフトの情報が記載されていると思いますが、そこに「Hyf_PdfCreatorMP 2.1.4(Windws Driver)」と記載されております。 この設定になるPDFソフトあるいは、PDF作成ホームページをご存知でしょうか。 私の調べでは何かの履歴書作成ホームページで履歴書を作成すると該当するようなのですが、見つからない状態です。 お力添え、よろしくお願いします。

  • 圧縮されたPDFからテキストを抽出したい

    今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。

  • PDFの透明化テキストを抽出したい。

    Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。

  • C言語でテキストを抽出

    C言語初心者なのですが、 C言語で与えられたファイルの一部だけを抽出する方法を教えて頂けませんでしょうか? たとえば、下のようなxmlファイルがあったとして ------------------------------------------ <person> <id>20</id> <name>watanabe</name> <score>68</score> </person> <person> <id>21</id> <name>sato</name> </person> <person> <id>22</id> <name>yoshida</name> <score>49</score> </person> <person> <id>23</id> <name>yamada</name> <score>87</score> </person> (以下省略) ---------------------------------- このxmlファイルから、 20 watanabe 90 21 sato 22 yoshida 49 23 yamada 87 のように数字や名前だけを抽出したデータファイルを作りたいのですが、 C言語でこんなことってできるんですか? (できたら上の例のようにsatoさんのscoreは空欄であるような場合にも 対応できたらいいのですが。) どなたか教えて頂けませんでしょうか?宜しくお願い致します。

  • 文字コード判別・変換について(JIS⇒UTF-8)

    あるサーバからのXMLファイルを、HTMLファイルへ加工するプログラムを作成しています。 INPUTのXMLファイルが仕様により、UTF-8、S-JIS、JIS、ISO-8859-1が同一ファイル内で混ざった状態で送られてくるのですが、(1)入力文字のコードを判別できる関数(もしくはプログラム)、(2)JIS⇒UTF-8文字列変換関数(もしくはプログラム)について、ご教授下さい。 【環境】 OS:WindowsXP 言語:VBS(又はPerl)

  • 特定のWEB上の情報を収集して、自動的にDBに保存する方法

    特定のWEB上の情報を収集して、自動的にDBに保存する方法を教えてください。 たとえば(あくまで例えばですが)、株価情報を株価情報のサイトから取得して、その情報を自前のサーバーのデータベースにいれる、というようなことをしたい考えているとします。 cronを使えば、定期的に何かを実行させることができる、というところまではわかったのですが、それ以上のことがわかりません。 おそらく、株価の情報サイトからHTMLのデータをひろってきて、そこから目的の値を抽出するのでしょうが、 1、どうやって(どのようなプログラム言語を使って)特定のサイトからHTMLのデータをひろってくるのか 2、どうやって(どのようなプログラム言語を使って)HTMLのデータから目的の値を抽出するか 3、どうやって(どのようなプログラム言語を使って)抽出した値をDB(mySQL)に保存するか この3つが特にわからない(知りたい)のです。 ちなみに今私が知っている言語は、mySQL,PHP,Cくらいです。 また、これを実現しようとしている環境についてですが、OSはUnix系で、レンタルサーバーであるものとします。つまり、データのロードも抽出もDB更新もすべてレンタルサーバー上で行いたいと思っています。

  • 三角形をひとつずつ抽出するには

    Visual Studio2005 + C言語でプログラムを書いています。 不定形の画像20枚に、サイズ、位置、角度が様々な三角形が一部重なって描かれています。 画像に背景はありません、三角形は必ず青い太線です。 20枚の画像からひとつずつ三角形を取りだし、「正解の三角形」との近似率を取得したいのですが どのような方法で三角形を順次抽出できるでしょうか。 「正解の三角形」と、いろいろな三角形の近似率は、OpenCVのMatchShapes関数で実現できましたので、その前の手順の「画像中の全ての三角形の抽出」もOpenCVで実現できないかと思ったのですが どうもうまくいかず困っています。 もし何かヒントでもご存知でしたらぜひ教えてください。 どうぞよろしくお願い致します。

  • スキャナで作成したPDFからテキスト抽出

    会社で過去の書類を大量にスキャナでPDFにしてあります。(数千ファイル程度) これらに中身がわかるようなファイル名を付けるために、PDFの中身を見てファイル名を付けるという作業をやることになりました・・・ それでどなたかご存知であればお教え願いたいのですが、下記要件を満たすソフトウェアはありませか? ・スキャナで作成したPDF(つまり画像ですね)からOCR的にテキストを抽出できる。 ・コマンドラインで動作する。(数が多いのでプログラムを書いて自動化したいのです) ・価格は5万円以内(できたら2万円以内です。購入は自腹になると思いますので、これ以上は厳しいです)