• ベストアンサー

Office文書などの検索方法

社内の文書サーバ及びローカルのHDD上にあるOffice文書(MSのWord、Excel、PowerPoint)やメール、PDF文書などを検索するAPを作成したいと考えていますが、これらのバイナリ形式のファイルの取扱方法について解説しているサイトや、書籍をご存知でしたら教えて下さい。 勉強がてらJavaで実装しろと、軽く上司に煽られたのですが、情報収集の段階で躓きかけております。

質問者が選んだベストアンサー

  • ベストアンサー
  • neKo_deux
  • ベストアンサー率44% (5541/12319)
回答No.1

Wordの.docファイルのフォーマットなど、MSからは公式には公開されていなかったハズ。 有志が解析したフォーマットなどはこういう所にまとめられています。 The Programmer's File Format Collection http://www.wotsit.org/ -- 思いつく一番簡単な方法だと、 EB series support page http://www31.ocn.ne.jp/~h_ishida/ で公開されている、 xdoc2txt 1.14 を利用させてもらう方法ですね。 > 作成したいと考えていますが、 こちらを組み込んだアプリケーションなんかも紹介されていますし…。

参考URL:
http://www31.ocn.ne.jp/~h_ishida/
kokemomo2005
質問者

お礼

neKo_deuxさん、素早い回答ありがとうございます。 xdoc2txt見てきました。凄いですね、まさに望み通りの機能を持っていました。 ご教示感謝いたします。

関連するQ&A

  • カテゴリーの「MS Office」と「Office系ソフト」の違い

    素朴な疑問です。 新たに「MS Office」が新設されましたが Microsoft Office Excel 2003や Microsoft Office PowerPoint 2003 は「MS Office」に該当しますか? OpenOfficeなどのMSではないものが 「Office系ソフト」に該当するのでしょうか?

  • Office文書ファイルが開かなくなる

    WindowsXP/SP3 Office2003Pro/SP3 2007 Office system 互換機能パック(Version:12.0.6514.5001) OSとOfficeのUpdateは最新にしています。 Office2007で作られた文書ファイルを外部企業から頂くケースが多々ありますので「2007Office system 互換機能パック」を導入し、変換させて見ています。 Officeに関係するUpdateがMicrosoftから提供があると、その度以下の現象が発生します。 ・Web上からのリンクではXP・2003・2007等、全てのExcelファイル・Wordファイルが開けなくなります。 ・ローカルに置いた2003以前のExcel・Wordファイルは開けます。 ・ローカルに置いた2007のExcel・Wordファイルが開けなくなります。 業務上(企業システム上)、Webメールを利用したり、Web上でのファイル一覧を使っての作業になる為、MicrosoftUpdateがあると毎回毎回Office2003の修復セットアップをして直すのが大変なのです。 こうなる原因はMicrosoftUpdate適応すると拡張子の関連付けが変わってしまうのが問題のようです。 正:XLSX=Microsoft Excel ワークシート(OFFICE11\EXCEL.exe /eで開く) 誤:XLSX=Microsoft Office Excel2007ブック…(Microsoft Open XML Converterで開く) 「正」ならばWebリンクになっているファイル(Webメールに添付されているOfficeXP・2003・2007で作成したEXCELやWordファイル)がきちんと見れます。 MicrosoftUpdateでOfficeのパッチが適応されると「誤」に変わってしまい、Webリンクになっているファイル(Webメールに添付されているOfficeXP・2003・2007で作成したEXCELやWordファイル)が見れなくなり、ローカル保存しているOffice2007データファイルも見れなくなります。 なぜ「誤」に変わってしまうのかわかりません。 しかも、OSやOffice、2007互換パックのバージョンが同じでも違うメーカーのPCでだとこの症状が出ないのです。 F社PC=X N社・T社=○ どなたか、この現象について何かご存知な方おられませんでしょうか? 回避方法は「Office2003再セットアップ」以外ないでしょうか? (関連付け手作業修復は手間を考えると不可能なのです。)

  • 関連する文書を素早く検索・編集する方法

    社内の仕事でWordやExcelなど、複数のOffice製品にパッケージされているソフトを使っています。 あるプロジェクトを組んで仕事を進める場合、ある程度の標準化を決めていてもそれに付随して作成する文書が枝葉のように増えていくと思います。 しかし後から見直しや更新が必要になった場合、目的とする文書がどこにあるのかを探すのに手間を感じたことはありませんか? もちろんフォルダ毎に管理するのは基本形だと思いますが、ネストされたフォルダを辿るのも結構手間です。まして関係する部署が複雑に絡み合っていき困難を極めます。 こんな場合、どのような文書管理の方法が一番でしょうか? 会社のトップから現場の社員まで、簡単に目的とする文書を出し入れ出来れば楽だと思うのですが。 長々とスミマセン。

  • Word 2003の文書2、以降の新規ファイルが作成出来ません。

    Word 2003の文書2、以降の新規ファイルが作成出来ません。 まず当方の使用PCとOS,Wordの環境をお伝えします。 PC DELL INSPIRON 1150 OS Windows XP Home Edition Version 2002 Service Pack 3 MS Office Word 2003 Microsoft Office Professional Edition 2003の一部 問題の状況は、以下のとおりです。 ・Wordを起動。 ・「文書1」が開く。 ・文書を作成して、保存は可能。 ・その後、「文書2」以降を新規作成しようとすると、  ウィンドウの最上部のタイトルバーに、  ”一瞬だけ”「文書2」が作成され、  すぐに消えてしまう。  (厳密には、消えてしまうというより、   一瞬の点滅程度開いては閉じる) 自分にできることはと考え、MS Office 2003を全て アンインストールし、「再インストール」はしましたが、 解決しませんでした。 ちなみに、Excel, Powerpoint, Accessでは、 普通にファイルを次々と作成することが出来ます。 このWordの状況は何が原因で、どのように解決したら良いでしょうか?

  • 会社で何のオフィスソフト使っていますか?

    一太郎2006の試用版がリリースされたそうなので使ってみたいのですが、一太郎を使って作った文書はMS OfficeのWordでも読み込めるのでしょうか? また、その逆はどうでしょうか? MS IMEよりもATOKのほうが断然使いやすいと思いますし、Wordよりかは一太郎のほうがいいかなとおもうので、もし互換機能があるのならば乗り換えようかと思います。 後、やはり一般的に社内ではMS Officeが使われているのでしょうか?

  • 企業にてMS-Officeを使い続ける理由を教えて下さい。

    お世話になります。 企業のシステム担当の方に質問です。 企業及び官庁にて業務ソフトにMs-Officeを使い続けている理由を教えて下さい。 私見ですが、MS-Officeでも特定の方以外はWord、Excel、PowerPointの基礎の基礎の部分しか利用していないように思います。 それならば、OpenOfficeでも支障は無いと思いますが如何でしょうか? 馬鹿高いライセンス料を払ってまでMS-Officeを使う理由を教えて下さい。 また、OpenOffice導入を考えておられる方がいらっしゃれば、その方の意見も教えて下しさい。

  • iTop PDF について

    iTop PDF はどれが正式なのかが判りませんし、日本語化が出来ません!「OK」ボタンがグレーアウトしてて・・・又 MS Office2016(Excel・Word)で作成した文書を PDF に出来るのでしょうか?詳しい方からのご意見を伺いたく思いますので宜しくお願い致します。

  • Office2003 のPDF保存

    会社の都合でOffice2003 を使っています。OSはWondows7です。 Office2003 のExcel, wordですが保存形式にはPDFがありません。 しょうがないので自分のノートへUSBでコピーして、入っているOffice2010でPDF保存して、それを社内LANに戻すという、超めんどくさい方法をやっています。 このようなコンディションで、PDFを作りたい場合、何か良いフリーソフトはありませんでしょうか。  ぜいたくを言うとページの削除や結合なども必要なので一緒にできるといいですね。

  • officeのバージョン?

    PDFファイルを右クリック →プロパティ →PDFタブ で、 PDF変換アプリと、生成の形式を知ることができますが <本題> 行政からの配布資料が有ります。 <生成された MS Officeのバージョンなどの情報を知る手立ては有りますか?> 以前 PDFで提出したところ、「見れない」・「ファイルが壊れていると、エラー出る」などと言われ 「Adobe Readerを最新にしてください」で、問題は解決でした PDFでもそのような問題が出てくるのに <公文書として配布される Officeのバージョンって基準は無いのでしょうか> Officeの互換性に問題が無ければ、バージョンにこだわる必要も無いのですが 記入されたものが正しく見れないのでは、Officeで提出できないということになります Officeの互換性について(2007は論外として、2000~XP~2003で) 特徴的な相するものと、異とするものが有りましたら教えていただきたいのです (現在、提出書類の作成中ですが、私は 2003。友人は XP)・・・・・大丈夫かなぁ

  • MSOfficeのアップグレードについて

    この優待版アップグレードって MS office 2003 Personal Editionに使えますか? 私はWord,Excel,Powerpointが使えれば満足なのですが・・・。 Word,Excelしか入っていないMS office 2003 Personal Editionに使って、 PowerPointも使えるようになりますか? また、office2003のサポートが終了しても 2003をPCに入れて2010にアップグレードってできますか? よろしくお願いします。

専門家に質問してみよう