• 締切済み

mecabでの形態素解析で複合名詞を抽出

http://d.hatena.ne.jp/toku-hiro/20090121 こちらのブログ記事のプログラムを参考に、形態素解析を行っています。 このプログラムから複合名詞を抽出したいのですが、方法がわかりません。 わかる方がいらっしゃいましたら、よろしくお願いします。

  • PHP
  • 回答数1
  • ありがとう数1

みんなの回答

  • 1minn
  • ベストアンサー率57% (52/90)
回答No.1

mecabだけで複合名詞を取り出すのはおそらく無理です。 mecabでは最少単位の単語を切りだすレベルの形態素解析としては、それなりに優秀だとおもいますが、それ以上の機能までは持っていません。 形態素解析をおこなった段階で「名詞」「助詞」などの判定も返してくれるので、「名詞」「名詞」と連続したときに複合名詞と判定できるかと言えば、必ずしもそうではないですよね? また、「名詞」「動詞」を組み合わせたものも、複合名詞と呼ばれたりもします。 2つの語句が並んでいてそれを複合名詞と判定するには、その辞書が必要となります。 それを自前で用意できれば、ユーザー辞書としての追加も出来たと思うので、不可能ではないかもしれませんが、現実的ではないですね・・・ あくまで単純に「2つ並んだ名詞を抜き出す」のであれば、参考サイトでは if ($tmp[1] == '名詞') { という判定があるので、ここでカウンタつけて2回続いたら抜き出すというようにすればよいかと。

関連するQ&A

  • JAVAをつかった形態素解析

    今卒業研究で前段階として Javaを利用して文書ファイルを形態素解析をする方法がわかりません すいませんが 形態素解析用のソフトおよびプログラムの書き方を教えてください

  • Perlによる形態素解析について

    こんにちは。 いつもお世話になっております。 早速ですが表題にもあるように、Perlを用いて形態素解析ツールを作成することは可能でしょうか? 質問文が簡潔すぎるので経緯を。 複数の文字列から自動的に意味のある単語を抽出したい考えたときに、形態素解析というものに辿り着きました。 これを使って文字列の処理が出来ないかと考えました。 マッシュアップも検討中ですが、まずは自らが組めるプログラムなのかどうかをお尋ねしたいと思います。 何か不明な点がございましたら、随時対応致します。 宜しくお願いします。

    • ベストアンサー
    • Perl
  • phpで形態素解析エンジンであるmecabを利用したいと考えていますが

    phpで形態素解析エンジンであるmecabを利用したいと考えていますがうまくいきません。 やりたいことは、ある文字列を形態素解析して配列として返すことを考えています。 やり方を知っている方、教えていただけないでしょか。 お手数をおかけします。 何卒、宜しくお願いします。

    • 締切済み
    • PHP
  • PerlかRubyを使って、形態素解析器なしで名詞(句)を取り出すこと

    PerlかRubyを使って、形態素解析器なしで名詞(句)を取り出すことはできるでしょうか?よろしくお願いいたします。

    • ベストアンサー
    • Perl
  • Cのプログラムで、MeCabである文字列を解析し、得たいくつかの名詞ま

    Cのプログラムで、MeCabである文字列を解析し、得たいくつかの名詞または動詞を別の配列に格納するにはどのようなプログラムを書けばいいのでしょうか。

  • 形態素解析から単語出現頻度計算

    C初心者です。 Mecabである文章の形態素解析を行ったのですが、そこから出現回数を調べたいのです。 形態素解析の結果が(テキスト文書で出力すると) 例)------ 10 名詞,数,*,*,*,*,* 年 名詞,接尾,助数詞,*,*,*,年,ネン,ネン の 助詞,連体化,*,*,*,*,の,ノ,ノ 歳月 名詞,一般,*,*,*,*,歳月,サイゲツ,サイゲツ と 助詞,並立助詞,*,*,*,*,と,ト,ト -------- のように余分な文字(名詞etc..)が入っているのでどうしたらよいのか分りません。 テキストファイル(またはcsvファイル)から読み込んで、一般名詞だけ頻度計算を行うにはどのようなプログラムを書けばよいのでしょうか? 過去の質問を読んでも、いらないものを省く方法が分からなかったもので。よろしくお願いします。

  • 【形態素解析】Chasenを使いたい!

    形態素解析ソフトChasenをCのプログラムに組み込んで、 テキストの解析を行いたいと思っているのですが、 ネットの情報だけではどのようにしたらよいのか さっぱりわかりません。 chasen.exeとかlibchasen.dllとかは入手したのですが、 これらをどのようにCプログラムに埋め込んだらよいのか… ライブラリーとかその辺かなしか思いつかず、 困っています。 誰かご教授ください。

  • 形態素解析とN-gram

    検索エンジンのテキスト解析方法には形態素解析とN-gramがあるようですが、 どちらの解析方が検索スピードが速いのですかね? また、正確さの違いなどはあるのでしょうか? できれば形態素解析とN-gramのメリット、デメリットもあわせて教えていただきたいです。 どれかひとつでも教えていただけるとうれしいです。

  • 英語の形態素解析

    日本語の形態素解析を行うソフトにchasenがあります。英語の形態素解析が行えるフリーソフトをご存知の方教えてください。

  • 形態素解析Macabの並び替え方と、主な利用方法

    PHPにて形態素解析のMecabを使ってみました。 しかし、いまいち利用方法が分かりません。 活用系とか分離されたのは分かるのですが、 例えば「アイスクリーム」という文字が何か出たとか、名詞の出現回数の多い順に並び替える・・・ といった事は出来ないのでしょうか? 配列で分離された文字が返ってくるのは分かるのですが、それをsortして・・・とか考えたのですが良く分かりませんでした。 どのようにすればいいのでしょうか? あまり思ったようなMecabの情報とか出てこないようなので質問させて頂きました。 また、上記のように出現回数の多い順に並び替える・・・以外にどのような利用法が考えられるのでしょうか? 形態素解析など学んでいないので分からないのですが、利用方法のイメージが浮かんできません。

    • ベストアンサー
    • PHP