• ベストアンサー

namzuでtiffファイルを全文検索するには

VineLinuxにnamazeを導入し、ファイルサーバとして運用しています。 現在は、word、excel、ps、pdfファイルなどをサーバに格納し全文検索できるようになっていますが、新しくtiffファイル(文書ファイルをtiff画像にしたもの)についても全文検索できるようにしたいと考えています。 フィルタを見る限りtiffを扱うようにはなっていないように見えます。 tiffファイルのindexを作成する方法を教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • Sawara13
  • ベストアンサー率27% (16/59)
回答No.3

もうひとつ補足です。 >tiffをpsに変換することは可能ですから、そこからフィルタが作れば(ある?)全文検索が可能だと思ってますが・・・ ビットマップ(*.bmp)からだって、JPEG(*.jpg)からだって、何からだってPSファイルは作れますよ。 アプリケーションから印刷できればですけどね。 あまり詳しくは無いですが、Photoshop PDFっていうファイル型式も、確か実際はイメージデータじゃなかったでしたっけ?(識者のかた、フォローお願いします) 作成もとのアプリケーションが何にしろ、そのファイル型式がテキストだろうがバイナリだろうが、問題はそのファイルが文字列を(取りだせる型で)もっているかどうか、が鍵になるとおもいます。 ためしにテキストエディタで開いてみるとか。 PDFはほぼテキストで開けるし、wordだって、入力した文字列はどこかに残ってますよ。

tomoremo
質問者

補足

>作成もとのアプリケーションが何にしろ、そのファイル型式がテキストだろうがバイナリだろうが、問題はそのファイルが文字列を(取りだせる型で)もっているかどうか、が鍵になるとおもいます。 はい、そう理解しています。 で、これを行うフィルタがtiffに対してあるか、どうかが最終的に聞きたいことでした。

その他の回答 (2)

  • Sawara13
  • ベストアンサー率27% (16/59)
回答No.2

こんにちは。 >word、excel、ps、pdfもnamazu(mknmz?)からみるとバイナリーファイルで、 はい、確かにその通りですね、バイナリです。 ただ、私が言いたかったのは、データ型式のことではないんですよ。 バイナリであろうがなかろうが、そこには「文字列」が存在しますね。 wordにしたって、文字列をWord独自の型式でマークアップしているわけですし。 ただ、tiffにはその「文字列」が無く、たとえばファクスの様にドットの集合でしかないとおもうんですが。 これが、同じ画像フォーマットでも、たとえばSVG (Scalable Vector Graphicだっけな?)だと話はちがいますね。 SVGはもともとXMLを基にしてますから、完全では無いにしろ、「文字列」を保持しています。 データ型式もテキストですから、スクリプトやプログラムで簡単に画像の中の文字列を操作できます。 ただ、ドットの集りではね...ドットの集りのどこから意味のある文字列を引張だすのか、ということです。

  • Sawara13
  • ベストアンサー率27% (16/59)
回答No.1

こんにちは。 word, excel, ps, pdfなどはいずれも、なんらかのかたちでテキストデータがある(ちょっと乱暴な言い方?)なので、全文検索は可能だとおもいますが。 tiffはイメージファイル、ぶっちゃけドットの集まりだとおもうのですが、それの何を全文検索しようとお考えでしょうか?

tomoremo
質問者

補足

word、excel、ps、pdfもnamazu(mknmz?)からみるとバイナリーファイルで、そのため、フィルタコマンドを用いてテキストに変換してると理解してたのですが、これって間違ってます? 間違ってたらごめんなさい。 それゆえ、tiffでもテキストに変換できればindexを作成して全文検索が可能だと考えました。 質問に書いてますが、検索対象にしてるtiffファイルは文書ファイルをtiffにしたものです。 tiffをpsに変換することは可能ですから、そこからフィルタが作れば(ある?)全文検索が可能だと思ってますが・・・

関連するQ&A

  • PDFファイルの全文検索

    ネット上での文書保管について検討しています。 ある企業の検索ソフトを確認して下記のことに気づきました。 ファイル検索について     ワード、エクセル、パワポ他、PDF化したファイルでも     全てのファイルをファイル名で検索でる。 全文検索     ワード、エクセル、パワポ他のファイルなら、文章の     中の何がしかのキーワードで検索できるが、PDF化した     ファイルでは全文検索はできない。 知っている人ならきっと常識なのでしょう。    「PDFファイルでは全文検索はできない」    「PDFファイルならファイル名でないと検索できない」 ということは、書類を電子保管する場合、検索機能が重要になる のですが、PDFで保管したファイルでは全文検索はできない、 ということになります。常にファイル名で検索するということに なります。 この認識は間違いないのでしょうか。 あるいは、何か違うソフトを使えばPDFファイルでも全文検索 ができるのでしょうか。 どなたかご教示いただければ幸甚です。

  • Namazuによる全文検索について

    VineLinux2.6+samba+namazu+apacheで、ファイルサーバをつくり、webブラウザからnamazu.cgiを使ってファイルサーバ内のファイルを全文検索しています。 検索は問題なく出来るのですが、ヒットしたファイルが日本語のファイル名だと、ブラウザ上に表示されているファイル名をクリックしてもファイルをオープンしません。英数字のファイル名であれば、word、excel、txtを問わず、開くことが可能です。また、ブラウズはネスケだとブラウザ上にバイナリーをそのまま表示したようになります。IEだとページが見つかりませんと表示されています。 解決策をおしえてください。

  • googleデスクトップの全文検索でPDFファイルが検索されない

    googleデスクトップの全文検索でPDFファイルが検索されません。 設定画面の 「検索するアイテム」の 「インデックスに登録し、検索できるようにするアイテムを選択します。」で PDFにチェックを付けています。 最新バージョンでもダメです。 googleにも問い合わせましたが、回答がありません。 バグなのでしょうか? どこかの設定をいじれば、 PDFファイルが検索できるようになるのでしょうか? ご存じの方、教えてください。

  • 全文検索プログラムを作りたい!

    今度、仕事で全文検索を行うプログラムを作ることとなりそうです。 もちろん日本語対応で、WordやExcelファイル内の文字列を検索する仕様です。 しかし、どのような方法でプログラムを作るのかチンプンカンプンです。 とりあえず今時点でわからないところが3つほどあります。 全文検索の技術に精通している方いましたら、是非アドバイスお願い致します。 (1).全文検索するAPI関数ってないでしょうか?   もしくは、ネット上でフリーで配布されている全文検索する   プログラムってないでしょうか? (2).全文検索するプログラムを作るのに適した   プログラム言語って何でしょうか? (3).市販されている全文検索システムは、インデックスファイルを作成し、   そのインデックスファイルから全文検索をしているようですが、   インデックスファイルを用意するメリットって何でしょうか?

  • インデックスサービスでExcelが検索されない

    初めて質問させて頂きます。 よろしくお願いします。 Windows Server 2008 R2にて「ファイルサービス」のインデックスサービスを使い全文検索を行える WebシステムをIISに載せています。 上記Webシステムの全文検索で、Excelファイルが検索されず非常に困っております。。。 インデックスサービスはコンソール(mmc)でカタログを新規作成し、ファイルが格納されるフォルダをディレクトリに指定しています。 Webシステム上で全文検索を行うと、Textファイル、Wordファイル、PDF(IFilter入れました。)は全文検索出来ているのですが、なぜかExcelだけ検索されません。 下記やってみたことです。  ・Excelファイルの後に、Wordファイルを登録し、全文検索を実行   →後に登録したWordファイルは全文検索でヒットするが、Excelはヒットしない。    ※Excelファイル、Wordファイルには同じ文言を記載。  ・インデックスサービス再起動、再スキャン(完全)をやってみたが、やはりヒットせず。  ・IIS再起動してみたが、結果は同じ。 上記の現象について何かご存知ないでしょうか??? 初質問でございますので、説明不足等あるかと思いますが、よろしくお願い致します。

  • Win8でPDFを含む全文検索をしたい。

    Win8を使っています。PDFの文書も含む全文書を全文検索するためPDFiFlterをインストールしたいと思いますが、どれをインストールすればいいのか分かりません。教えてください。また、8でも複数あるようですが、自分がどのバージョンなのか分かりません。その確認の仕方も教えてください。よろしくお願いします。

  • ファイルサーバーの全文検索高速化

    大学の研究室で、LAN内のPCからファイルサーバーにアクセスできる環境にしています。 100GB程のデータを全文検索すると、非常に時間がかかってしまいます。 過去の研究資産を有効に使うためにも、検索を高速化したいのですが、お金がかからない方法はないでしょうか? あまり詳しくないので、どんな情報を伝えたらいいのか分かりませんが、ファイルサーバーはLinuxで、検索に使用するPCはWindowsXPです。 現状は、旧バージョンのGoogle Desktop Searchを導入しようとしましたが、GDSはLinuxをサポートしていないので、その方法は諦めたところです。 よろしくお願いします。

  • PDFファイルの全文検索ソフト

    探三郎以外のフリーでホルダー指定可能なPDFファイルの全文検索ソフトを教えてください。 探三郎では、検索されないものがあります。

  • ファイルの中の全文検索

    Windowsに関する質問です。 ディスクの中にあるすべてのファイル(主にtext、Word、Excel、PowerPoint,PDF)の中のテキストに検索をかけて、必要なファイルを検索することは可能でしょうか? Unixだとgrep searchword * で検索するイメージなのですが・・・ よろしくお願いします。

  • 全文検索について質問です。

    全文検索について質問です。 歌詞掲載サイトのようにPDFファイル(内容はテキストです)をコピー、印刷ができないようにしたいと思い、セキュリティ設定をしてサイトに掲載したところ、全文検索ができないことに気づきました。 盗用防止の観点からセキュリティはかけたいけれど、全文検索できないのは不便だし…と悩んでいます。 セキュリティ設定と全文検索、この二つを両立させる方法はあるのでしょうか?? セキュリティ設定だけでなく、スクリーンリーダーやアクロバットのバージョンも関係しているようで、 なかなか最適な設定、方法が見つかりません。 ご存知の方がいらっしゃいましたら、どうぞご教示下さい。 よろしくお願いいたします。

専門家に質問してみよう