ベストアンサー

PDFのプロパティの情報を抽出したい

2008/03/18 19:17

あるPDFファイルの「ファイル」→「プロパティ」→「カスタム」内にある、[名前]と[値]の情報を抽出し、XMLに追加する。といったプログラム仕様を考えておりますが、この[名前]と[値]を抽出する方法で、何か関数などあるのでしょうか？プログラムは、C++言語、winコンソールでの作成を考えております。もし何か情報不足などございましたら記載の方を宜しくお願い致します。どうぞ宜しくお願い致します。

foot-peng
お礼率93% (15/16)

C・C++・C#
回答数2
ありがとう数3

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

x415f484f
ベストアンサー率71% (57/80)

2008/03/20 02:05 回答No.1

この方法ではお気に召しませんか? 1. xpdf の pdfinfo の出力を加工して利用 2. (1) のソースを参考にしてご自身で実装 Xpdf for Windows http://gnuwin32.sourceforge.net/packages/xpdf.htm

質問者

お礼 2008/03/21 20:06

ご回答、有難う御座います。さっそく、(1)の出力を加工して利用できるか試みています。ソースを参考に...は、なかなか私には難易度が高くて・・・。まだ、その他の方法もあればご教授いただければ幸いです。

その他の回答 (1)

x415f484f
ベストアンサー率71% (57/80)

2008/03/21 21:11 回答No.2

> (1)の出力を加工して利用できるか試みています。申し訳ありません。 ANo.1 で記述し忘れましたが、日本語が含まれている場合は pdfinfo -enc UTF-8 filename.pdf のように、引数に出力エンコードを指定してください。残念ながら Shift_JIS などはエンコードに指定できませんので NKF などの漢字変換フィルタをお使いになって Shift_JIS に変換してください。 pdfinfo -enc UTF-8 filename.pdf | nkf -s nkf.exe nkf32.dll Windows用 http://www.vector.co.jp/soft/win95/util/se295331.html

質問者

お礼 2008/03/24 17:45

補足、有難う御座いますご教授頂いた方法でできそうです('-'*) 抽出できました！あとは、これをXMLに登録すれば仕様は満たせそうです。それはまた別件なので、本件はこれで閉じます。有難う御座いました＾＾

関連するQ&A

ＰＤＦのプロパティから抽出
ＰＤＦのファイルが数百個あります。プロパティの中(文書情報というのでしょうか)にかかれている、ある単語が入っているファイルだけを抽出したいと思いますが、どのようにすれば良いのでしょうか？初心者ですので宜しくお願い致します。
- ベストアンサー
- その他(ソフトウェア)
PDFファイルの文書プロパティ情報を抽出
1つのフォルダに10個のPDFファイルがあります。各PDFファイルの文書プロパティの項目を Excelに抽出することはできますか。マクロの知識は初心者レベルでございます。 (1)作成者 (2)作成日 (3)アプリケーション (4)PDF変換 (5)PDFバージョンよろしくお願いいたします。
- ベストアンサー
- その他MS Office製品
PDFファイルのプロパティについて
PDFファイルのプロパティを開き、PDFタブを開くと「PDF変換」という項目があります。そこに作成ソフトの情報が記載されていると思いますが、そこに「Hyf_PdfCreatorMP 2.1.4(Windws Driver)」と記載されております。この設定になるPDFソフトあるいは、PDF作成ホームページをご存知でしょうか。私の調べでは何かの履歴書作成ホームページで履歴書を作成すると該当するようなのですが、見つからない状態です。お力添え、よろしくお願いします。
- 締切済み
- その他(ソフトウェア)
圧縮されたPDFからテキストを抽出したい
今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか？ Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。
- 締切済み
- Perl
ＰＤＦの透明化テキストを抽出したい。
Androidスマートフォンで小説等を読むために、業者に依頼してＰＤＦ+透明化テキストしましたが、端末画面が小さくて読めません。もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、ＰＤＦ+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。フリーのソフトを希望します。よろしくお願い致します。
- ベストアンサー
- フリーウェア・フリーソフト
C言語でテキストを抽出
C言語初心者なのですが、 C言語で与えられたファイルの一部だけを抽出する方法を教えて頂けませんでしょうか？たとえば、下のようなxmlファイルがあったとして ------------------------------------------ <person> <id>20</id> <name>watanabe</name> <score>68</score> </person> <person> <id>21</id> <name>sato</name> </person> <person> <id>22</id> <name>yoshida</name> <score>49</score> </person> <person> <id>23</id> <name>yamada</name> <score>87</score> </person> (以下省略) ---------------------------------- このxmlファイルから、 20 watanabe 90 21 sato 22 yoshida 49 23 yamada 87 のように数字や名前だけを抽出したデータファイルを作りたいのですが、 C言語でこんなことってできるんですか？ (できたら上の例のようにsatoさんのscoreは空欄であるような場合にも対応できたらいいのですが。) どなたか教えて頂けませんでしょうか？宜しくお願い致します。
- ベストアンサー
- C・C++・C#
文字コード判別・変換について（JIS⇒UTF-8）
あるサーバからのXMLファイルを、HTMLファイルへ加工するプログラムを作成しています。 INPUTのXMLファイルが仕様により、UTF-8、S-JIS、JIS、ISO-8859-1が同一ファイル内で混ざった状態で送られてくるのですが、(1)入力文字のコードを判別できる関数（もしくはプログラム）、(2)JIS⇒UTF-8文字列変換関数（もしくはプログラム）について、ご教授下さい。【環境】 OS：WindowsXP 言語：VBS（又はPerl）
- 締切済み
- その他（プログラミング・開発）
特定のWEB上の情報を収集して、自動的にDBに保存する方法
特定のWEB上の情報を収集して、自動的にDBに保存する方法を教えてください。たとえば（あくまで例えばですが）、株価情報を株価情報のサイトから取得して、その情報を自前のサーバーのデータベースにいれる、というようなことをしたい考えているとします。 cronを使えば、定期的に何かを実行させることができる、というところまではわかったのですが、それ以上のことがわかりません。おそらく、株価の情報サイトからHTMLのデータをひろってきて、そこから目的の値を抽出するのでしょうが、１、どうやって（どのようなプログラム言語を使って）特定のサイトからHTMLのデータをひろってくるのか２、どうやって（どのようなプログラム言語を使って）HTMLのデータから目的の値を抽出するか３、どうやって（どのようなプログラム言語を使って）抽出した値をDB(mySQL)に保存するかこの３つが特にわからない（知りたい）のです。ちなみに今私が知っている言語は、mySQL,PHP,Cくらいです。また、これを実現しようとしている環境についてですが、OSはUnix系で、レンタルサーバーであるものとします。つまり、データのロードも抽出もDB更新もすべてレンタルサーバー上で行いたいと思っています。
- ベストアンサー
- その他（プログラミング・開発）
三角形をひとつずつ抽出するには
Visual Studio2005 + C言語でプログラムを書いています。不定形の画像２０枚に、サイズ、位置、角度が様々な三角形が一部重なって描かれています。画像に背景はありません、三角形は必ず青い太線です。２０枚の画像からひとつずつ三角形を取りだし、「正解の三角形」との近似率を取得したいのですがどのような方法で三角形を順次抽出できるでしょうか。「正解の三角形」と、いろいろな三角形の近似率は、ＯｐｅnＣＶのMatchShapes関数で実現できましたので、その前の手順の「画像中の全ての三角形の抽出」もＯｐｅｎＣＶで実現できないかと思ったのですがどうもうまくいかず困っています。もし何かヒントでもご存知でしたらぜひ教えてください。どうぞよろしくお願い致します。
- ベストアンサー
- C・C++・C#
スキャナで作成したPDFからテキスト抽出
会社で過去の書類を大量にスキャナでPDFにしてあります。（数千ファイル程度）これらに中身がわかるようなファイル名を付けるために、PDFの中身を見てファイル名を付けるという作業をやることになりました・・・それでどなたかご存知であればお教え願いたいのですが、下記要件を満たすソフトウェアはありませか？・スキャナで作成したPDF（つまり画像ですね）からOCR的にテキストを抽出できる。・コマンドラインで動作する。（数が多いのでプログラムを書いて自動化したいのです）・価格は５万円以内（できたら２万円以内です。購入は自腹になると思いますので、これ以上は厳しいです）
- ベストアンサー
- その他(業務ソフトウェア)

PDFのプロパティの情報を抽出したい

質問者が選んだベストアンサー

お礼 2008/03/21 20:06

その他の回答 (1)

お礼 2008/03/24 17:45

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

PDFのプロパティの情報を抽出したい

質問者が選んだベストアンサー

お礼 2008/03/21 20:06

その他の回答 (1)

お礼 2008/03/24 17:45

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録