• ベストアンサー

形態素解析とN-gram

検索エンジンのテキスト解析方法には形態素解析とN-gramがあるようですが、 どちらの解析方が検索スピードが速いのですかね? また、正確さの違いなどはあるのでしょうか? できれば形態素解析とN-gramのメリット、デメリットもあわせて教えていただきたいです。 どれかひとつでも教えていただけるとうれしいです。

質問者が選んだベストアンサー

  • ベストアンサー
  • yoneda_16
  • ベストアンサー率47% (166/350)
回答No.1

検索エンジン「について」調べるなら、検索エンジン「で」調べるといろいろわかるのですけれど… ・検索スピード: 検索スピードは、検索用インデックスから検索ワードを見つける速度に依存します。形態素解析とN-gramは検索用インデックスを作成するための手法であるため、検索スピードには影響しません。 ・正確さ: 「検索の正確さ」という言葉が曖昧なので、正確な回答は難しいです。漏れの無さという意味ではN-gramが優れており、適切さという点では形態素解析が優れているといえるのではないでしょうか。 # 形態素解析の方法にもよりますが。 http://itpro.nikkeibp.co.jp/members/NBY/ITARTICLE/20030131/1/ http://itpro.nikkeibp.co.jp/members/NBY/techsquare/20040402/2/ http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20060203.html

Filette
質問者

お礼

ありがとうございます とてもさんこうになりました!

関連するQ&A

  • phpで形態素解析エンジンであるmecabを利用したいと考えていますが

    phpで形態素解析エンジンであるmecabを利用したいと考えていますがうまくいきません。 やりたいことは、ある文字列を形態素解析して配列として返すことを考えています。 やり方を知っている方、教えていただけないでしょか。 お手数をおかけします。 何卒、宜しくお願いします。

    • 締切済み
    • PHP
  • 微生物の形態観察について

    宜しくお願いします。 微生物の形態観察を行う際の染色法に関する質問です。 コットンブルーを使った染色法やグラム染色法はそれぞれどのようなときに使用するものなのでしょうか?また、それぞれのメリット・デメリット等も教えていただければ幸いです。 基本的な質問で申し訳ありませんが、どなたかご教授ください。

  • 形態素解析から単語出現頻度計算

    C初心者です。 Mecabである文章の形態素解析を行ったのですが、そこから出現回数を調べたいのです。 形態素解析の結果が(テキスト文書で出力すると) 例)------ 10 名詞,数,*,*,*,*,* 年 名詞,接尾,助数詞,*,*,*,年,ネン,ネン の 助詞,連体化,*,*,*,*,の,ノ,ノ 歳月 名詞,一般,*,*,*,*,歳月,サイゲツ,サイゲツ と 助詞,並立助詞,*,*,*,*,と,ト,ト -------- のように余分な文字(名詞etc..)が入っているのでどうしたらよいのか分りません。 テキストファイル(またはcsvファイル)から読み込んで、一般名詞だけ頻度計算を行うにはどのようなプログラムを書けばよいのでしょうか? 過去の質問を読んでも、いらないものを省く方法が分からなかったもので。よろしくお願いします。

  • 賃金形態について

    転職を考えてる者ですが、先日、ハローワークで 求人票を観ていて疑問に思ったのですが 賃金形態が、月給制・日給月給制・日給制と 会社によって分かれていました。 日給制というのはどういうものなのか何と無く 分かりますが、他のふたつの違いが分かりません。 それぞれのメリット、デメリットがありましたら詳しく教えて下さい。お願いします。

  • 保険会社の会社形態

    保険会社の会社形態について質問します。 最近では、株式会社の形態を取る保険会社も多くでてきています。 保険会社における、相互会社と株式会社の違いはどんなところにあるのでしょうか? メリット・デメリットも併せて、教えて下さい。 よろしくお願いします。

  • mecabでの形態素解析で複合名詞を抽出

    http://d.hatena.ne.jp/toku-hiro/20090121 こちらのブログ記事のプログラムを参考に、形態素解析を行っています。 このプログラムから複合名詞を抽出したいのですが、方法がわかりません。 わかる方がいらっしゃいましたら、よろしくお願いします。

    • 締切済み
    • PHP
  • 形態素解析ツール「茶筅」をJAVAで使う方法

    形態素解析ツール「茶筅」を、Javaで使う方法をご存知の方はいらっしゃいませんか? 自分で調べたところ、「MACD」というツールがあることを発見し試してみたのですが、 一つも「MACD」についてのドキュメントがないため、使い方がさっぱり分かりませんでした。 その他の使い方の分かりやすいツールをご存知の方がいらっしゃいましたら教えてください。 また、「MACD」の使い方が分かる方がいらっしゃいましたら、その使い方を教えてください。 宜しくお願いします。

  • [形態素解析]終止形を連用形などの他のう活用形に変更するソフトを探してます

    タイトルにあるように動詞の終止形を入力したら、連体形や連用形に変換するツールを探しています。 例えば以下のような感じです。 「食べる(終止形)」→「食べ(連用形)」 「走る」→「走れ(連体形)」 このようなツールなどありましたら教えてください。 これを利用してjavaでプログラミングをしようと思っているので、javaから使えるものがあればよりありがたいです。 このようなものがない場合は、Senなどの形態素解析エンジンを使って実装しようと思っているのですが、実装方法のヒントなどありましたら教えていただけると助かります。

  • シーサーブログのアクセス解析

    シーサーブログのアクセス解析なのですが、 「検索エンジン」からの訪問者数と「リファラ(リンク元)」のアクセス数と意味の違いについてが、よく解りません。 「検索エンジン」を見るとは google が圧倒的に多いのですが、「リファラ(リンク元)」を見ると yahoo_japan の方が多いのですが?? 教えて下さい、お願いします。

  • ブログについてるアクセス解析とアクセス解析が合わない

    ブログにAccessAnalyzerのアクセス解析付けてるのですが どう見てもブログについてるアクセス解析と合わないのです。 ブログについてるアクセス解析の方が、多いんです。 ブログのHTMLに直接付けています。 AccessAnalyzerからのアクセス解析を逃れる方法って あるのでしょうか? Cookieとか取得せずにブログ見られてるのでしょうか? なぜ、合わないのか教えてください。 もっと正確に解析できるアクセス解析はないのでしょうか?