• 締切済み

Namazuで、テキストファイルを対象から除きたい

WindowsでNamazuを構築していますが、余計なファイルまでインデックスされて困っています。 VisualBasic、VisualC、DB等のファイルで、text/plain に分類されるものがありますが、 text/plainについては拡張子がtxtになるものだけをインデックスの 対象としたいと思っています。 (もちろん他のファイルタイプはインデックスの対象とします) どうすればよいでしょうか? 正規表現でまめまめと拡張子を指定することになるのでしょうか。。 Windows 2000 Namazu 2.0.13

  • qutto
  • お礼率48% (40/83)
  • Perl
  • 回答数1
  • ありがとう数1

みんなの回答

回答No.1

Namazuの設定ファイル、namazurcで  $ALLOW_FILE = ".*\.(?:$HTML_SUFFIX)|.*\.txt|.*\.pdf|.*\.doc|.*\.tex"; などと記述がある部分を  $ALLOW_FILE = ".*\.txt"; にしてしまえば拡張子"txt"のものだけがインデックス対象になります。 ↓参考URL

参考URL:
http://www.rfs.jp/server/namazu/01/02.html#mknmzrc%20%82%F0%90%DD%92%E8%82%B5%82%C4%83C%83%93%83f%83b%83N%83X%82%F0%8D%E
qutto
質問者

お礼

回答ありがとうございます。 補足しますと、インデックスしたいのは拡張子"txt"のものだけではなく、他のファイルタイプ(例えば.pdf, .doc)も対象にしたいのです。 現在は上に記述された $ALLOW_FILE = ".*\.(?:$HTML_SUFFIX)|.*\.txt|.*\.pdf|.*\.doc|.*\.tex"; とほぼ同じ形式で書いているのですが、この指定で許可されていない".sql"や".bat"等も インデックス化されてしまうのです。なにか他の項目で指定方法に誤りがあるのでしょうか。

関連するQ&A

  • namazuでWordがインデックスに登録されない問題について

    お世話になります。現在以下のような環境でnamazuを構築中ですが、Wordがインデックスに登録されずに困っています。 WindowsXP namazu2.0.12 kakasi2.3.4 ActivePerl5.6.0.615 xampp1.6.6a Word2003(事前にインストール済です) 以下を参考にしました。 http://www10.plala.or.jp/miyazawa/namazu/ 現状テストしたところ、txt、html、Excelに対しては問題なく、検索ができています。namazuのmknmzrcの設定も上記サイトと同じになっています。 しかし、mknmz -Cで確認すると、対応メディアタイプにWordが含まれません。 考えられる原因をおわかりの方、教えていただけないでしょうか。

  • contenttypeについて

    ブラウザにてmultipart/form-dataを使用してファイルアップロード処理をサーバ側で行っているのですが、csvファイル(拡張子csv)はcontenttypeがapplication/octet-streamとなります。 これをtext/plainとしたい場合どうすればよいのでしょうか?そもそも何を持ってcontenttypeって判定されているのでしょうか? ※もちろん、対象ファイルの拡張子をtxtに変えればtext/plainにはなりますが・・・

    • ベストアンサー
    • HTML
  • namazuのインデックス作成で・・・

    現在、htaccessにてphpファイルをhtml拡張子で使えるようにして利用しているディレクトリがあります。 そのhtmlは大量にありそれぞれ内容は違いますが、ヘッダ、フッタ部分は共通ファイルをインクルードしているので同じになっています。 インクルードファイルは、ヘッダ、フッタ共に静的なhtmlで、本体自体もインクルードの記述部分以外は静的なhtmlです。 <html> <?php include('header.html'); ?> <body> ~ ここが各htmlによって内容が違う ~ <?php include('footer.html'); ?> </body> </html> という構造になっております。 このhtml群をnamazuを使ってディレクトリ内の全文検索を行えるようにしようかと考えているのですが、上述のようなhtmlの場合、インクルードされるheader.htmlやfooter.htmlに書かれている内容はインデックスされるのでしょうか? インデックスさせる・させない の選択がnamazuの設定によって出来るのであれば一番ありがたいのですが・・・。 宜しくお願い致します。

    • 締切済み
    • PHP
  • 全文検索NAMAZUを複数設置するには?

    Namazuを2つ(Namazu1:Index1/ Namazu2:Index2)設置しようと試みましたが、下に示すそれぞれの検索画面を開くと、find1, find2のnamazurcの設定を正しく読んでくれません(説明書によると、*.cgiと同じディレクトリにあるnamazurcを設定ファイルとして読み込むとありますが・・・) まずTemplateですが、デフォルトのIndex(F:\namazu\var\namazu\index)を読み込んでしまい、find1,2内のtemplateを読み込んでくれません。次にIndexですが、i_search/namazu.cgi.exeを開くと、自分の設定を正しく読んでくれますが(ただし試験的にキーワードを検索しても結果画面に現れない)、w_search/namazu.cgi.exeを開くと、i_search/namazu.cgi.exeと同じ検索画面が出てくることから、自分のIndex設定を正しく読み込んでいないようです。 自分なりに原因を探る中で、環境変数のNAMAZURCと、ファイルF:\namazu\etc\namazu\namazurc、ファイルF:\namazu\etc\namazu\mknmzrc内の最終行にある$TEMPLATEDIR = 'F:/namazu/share/namazu/template';の文字列の3点を削除しました。ビギナーなりに過去ログを読んだり、いろいろ試しましたが、どうも上手くいきません。原因についてこころあたりの方、ご助言いただきたくお願い申し上げます。 ■WEBサイト検索(http://192.168.1.1/w_search/namazu.cgi.exe)file数652 F:\namazu\find1\ index\ template\ namazu.cgi.exe namazurc ■iModeページ検索(http://192.168.1.1/i_search/namazu.cgi.exe)file数10 F:\namazu\find2\ index\ template\ namazu.cgi.exe namazurc ■環境 Windows 2000 Server + IIS 5.0 + IE 5.50 Namazu 2.0.10 kakasi-2.3.4 Perl, v5.6.1

    • ベストアンサー
    • CGI
  • 【namazu全文検索】ファイル名(URL)の長さについて

    はじめまして。 namazuを使って文書内検索を行っています。 検索対象の文書ファイルは日本語のファイル名でもOKなのですが、日本語のファイル名だとどうしてもindex作成時にエンコードした(された)時に保存先までのURLが長くなってしまい、NAMAZU.field.uriにファイル名が最後まで入りきっていませんでした。 なので、文書を検索したときヒットはするのですが、文書のリンクをクリックしても「ページが表示できません」となってしまいます。 インターネットで調べたところ、mknmzrcの$MAX_FIELD_LENGTHの値を変えればよいとあったので、変えてインデックスを作成しなおしたのですが改善されず。 また、そのサイトとは別のサイトで調べると$MAX_FIELD_LENGTHは要約文の長さと説明してありました。 ファイル名(URL)の長さをnamazuの設定で変えることは可能でしょうか?その場合、どこで設定すればよいでしょうか? ご存知の方がいらっしゃいましたらご教授願います。 宜しくお願い致します。

  • Namazu インデックス作成でエラー 先ほどインストール

    Windows版のNamazuをインストールしました。 (KAKASI,Perlも先に入れています。) mknmz -U -O [インデックス作成フォルダ] [インデックス対象ファイルフォルダ] で、次のようなエラーがでました。対処方法のご存知の方、教えてください。 'c:\program'は内部コマンドまたは、外部コマンド 操作可能なプログラムまたはバッチファイルとして認識されません。 1/1 - /C|/test/test.pdf unable to convert pdf file(maybe copying protection) また、Namazuの良書なども教えてください。

  • namazu の インデックス作成中のエラーを無視したい

    Debian Linux4.0からWindowsの共有サーバーをsmbmountし、namazuで全文検索しようとしています。 バージョン:Namazu 2.0.17RC4 ところが、mknmz でインデックス作成中、smbmount時に使用しているuserid,passwordでアクセス権がないファイルがあるとエラーになり、mknmzが停止してしまいます。 普通のファイルだとアクセス権がないものはスキップすると思うのですが、smbmount しているため、read 権限が着いているように見えております。 これらのファイルが見つかった場合、そのままスキップしてインデックス作成を続けるにはどうしたらいいでしょうか。

  • formでファイルアップロードとテキストデータを送信したい

    JSPとServletでプログラムを作っております。 フォームで次のことをしたいと思っております。 1、DBにファイルをアップロードする。 2、DBにテキストデータを登録する。 この場合、 <form enctype = "multipart/form-data"> <form enctype = "text/plain"> を別個に指定できるのでしょうか? 出来ないとしたらどういう解決方法があるのでしょうか? 宜しくお願いいたします。

    • ベストアンサー
    • HTML
  • Excelのハイパーリンクでテキストファイルを開く

    Excelのハイパーリンクからテキストファイルを開けるようにするにはどうしたらよいのでしょうか。 =hyperlink(xxx.txt) などとしても、そこをクリックすると「このファイルを開くためのプログラムが登録されていません」と出て、開くことができません(フルパスで書いたり、FILE://をつけたりしても同じです)。 拡張子.txtはWindows上でEmEditorと関連付けしています。

  • robots.txtで指定したファイルを弾きたいんですが

    robots.txtで指定した単語を含むファイルを検索対象から外したいのですができるものでしょうか? testと入っているファイルを外したいと思っています。 「index-test.html」「sitemap-test.html」のように、拡張子の前にtestと入れる予定です。 よろしくお願いします。

    • ベストアンサー
    • HTML

専門家に質問してみよう