• 締切済み

統計 テキストマイニング?、キーワードと数字を比較するには?

こんにちは。今テキストマイニングをしてアンケートのようなものを分析しようと思ってます。 例えばA~Fの6店のラーメン店への利用者の感想がたくさんあるとします。 それとは別にA~F店の売上高の情報があるとします。 売上が高いラーメン店ほど、多く顕れるキーワードを探したいのですが、どうしたらよいでしょうか? できればそのキーワードが売上高にどれだけ貢献してるか点数がでるようにできれば有り難いのですが… 統計もテキストマイニングも素人です。どうか詳しい方お力をお貸し下さい。よろしくお願いします

みんなの回答

  • tac351115
  • ベストアンサー率66% (109/164)
回答No.1

手順を示します。 1. 売り上げが多い店について、アンケートに現れるキーワードを選び、各キーワードの頻度を集計します。 2.選んだキーワードについて、他の店についても頻度を集計します。 3.選んだキーワード毎に、つぎのグラフを作ります。      横軸 各店の売上高      縦軸 各店のキーワード頻度   注意:アンケートの数が各店でばらつきがある場合は、つぎの式に代えます。      縦軸 各店のキーワード頻度÷各店のアンケート数 4.完成したグラフが右上がりのグラフであるほど、貢献しているキーワードになります。 5.数値化するには、相関係数というものを算出します。   上記グラフをExcelの散布図グラフでプロット   グラフ上で右クリックして、「近似曲線の追加」を選択   「種類」タブで「線形近似」を選択   「オプション」タブで「自動」と「グラフにR2乗値を表示する」を選択して閉じる   グラフ上に表示される「R2乗値」が相関係数です。これが1に近いほど貢献しているといえます。     グラフ作成例の参考     http://atiboh.sub.jp/t08senkeikinzi.html

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 統計・平均点の件で。

    こんばんは。現在卒業論文に取り組んでいる大学4年です。 以前統計の平均点についてこのようなことを聞いたことがあります。 「統計上、5段階尺度の場合、平均点3.5点以上が高いといえる」というものです。 しかし,本当にそうなのでしょうか?(私の記憶が間違っているのかもしれませんが…。) そういった場合標準偏差によって3.5点以上あっても高いとは言えないのではないでしょうか? というのは,今実際5段階尺度のアンケートで分析をしている所なのですが,統計上高いといってもよい点数を知りたいのです。 詳しい方がいらっしゃれば教えて頂けないでしょうか? 調べてみたのですがなかなかわかりません。 よろしくお願いします。

  • 顧客情報分析・メール分析で使える、 お勧めのデータ分析ソフトを教えてください.

    顧客情報分析・メール分析で使える、 お勧めのデータ分析ソフトを教えてください。(例)SPSS・SAS 各ソフトの特徴、メリット・デメリット点も 回答いただけると助かります。 【業種】 顧客管理+メルマガ+HP管理会社 【業務】 顧客情報管理・分析 会員管理・分析 メールマガジン作成・返信メール対応、及び分析 HP作成・アクセスログ解析分析 ネット広告効果分析 アンケート作成・集計・分析 etc 【分析ソフトに欲しい機能】 ※全部の機能がひとつのソフトに含まれなくても可 ※使いやすさ優先 ※(1)~(6)優先度 (1)データマイニング:顧客情報を数値的に分析 (2)テキストマイニング:メール分析でフリー回答・キーワード等を集計 (3)エクセルで表現できないグラフ:人口分布グラフ・文字をグラフ化 (4)自動レポーティング機能 (5)Webマイニング:アクセスログ (6)統計解析手法の機能:使用したことがないため、どんな機能がある かわかりません。 よろしくお願いいたします。

  • 統計学についてお願いします。

    統計について素人です。 A群(n=30)とB群(n=40)を比較して有意差があるか調べたいと思います。 検定の順序としては、A群とB群は対応のあるデータではないです。 その為、まずは正規性の検定を行うことになるのでしょうか。 次に正規性があれば、F検定で等分散か確認し、等分散であればステューデントのt検定、等分散でなければウェルチのt検定ということになるのでしょうか。 そして正規性が無ければノンパラメトリック検定となるのでしょうか。 ここまでは合ってますか? それでここからが本題なのですが、私はSPSSやエクセル統計などの統計ソフトを持っていません。 普通のエクセルのみで、このA群とB群を比較して有意差があるか調べる方法を教えていただけませんでしょうか? 手順等できるだけ詳しく教えていただけますと幸いです。 よろしくお願いいたします。 (最悪、エクセル統計であれば購入できそうですが…)

  • 質的データと量的データからなるサンプルをグループ分けするにはどの分析を使えばよいでしょうか。

    統計の選び方についておうかがいします。 アンケートの結果から回答者をグループ分けをしてグループ毎の特徴を挙げたいと思っています。 アンケート項目は『a.身長・体重など数値のデータ』・『b.好き嫌いの度合い等の5段階のデータ』・『c.性別・住んでいる地域など順序の全くないデータ』 に分かれています。 統計に関して全く理解できず、本やwebの資料を参考にした結果 以下のような分析をしようかと思っています。 1)cのデータだけで数量化3類の計算をして点数で示す。 2)a.b.cの点数、のデータでクラスター分析をしてグループ分け 数量化で得た結果をクラスター分析にかけてよいのかという点と、 bの段階で表したデータを数的データとして扱っていいかという点 の2点について疑問があります。 また、全く的外れな分析をしようとしているのではないかという不安が有ります。 以上の2点と、正しくはどの分析を用いればよいのかについて、アドバイスいただけたらと思います。 よろしくおねがいいたします。

  • Accessで「キーワード検索」をしたい

    前任者が作ったデータベースを触っています。 私自身はAccessの基本操作がわかるくらいでVBAとかはよくわかりません。 今回その修正がしたいと思っています。 検索用フォームがあり、現在3つのコンボボックスがあってそれを選択して 「検索開始」をしています。 今回、その検索用フォームに「キーワード検索」というテキストボックスを1つ追加したいです。 検索の対応となるフィールドは2つあります。 「質問」「回答」 このどちらかのフィールドに「キーワード検索」した文字があればレコードを抽出してほしいです。 とりあえず検索結果を表示するためのクエリの「質問」「回答」の抽出条件に同様に Like "*" & [Forms]![F_検索フォーム]![キーワード] & "*"と入れてみました。 なんとなく違う気はするのですが、どうやってやれば良いのかイマイチわかりません。 またこの同じクエリに IIf(IsNull([Forms]![F_検索フォーム]![区分1cd]),True,[区分1cd]=[Forms]![F_検索フォーム]![区分1cd]) 抽出条件欄に「True」 これが3つのコンボボックス分あります。 何のためのフィールドでしょうか? また、私が追加する「キーワード検索」テキストボックスの分も作らないといけないものでしょうか? 素人質問で申し訳ありませんがアドバイスいただけたら助かります。 Accessのテキストは職場にたくさんあるのですが、私のレベルでは読んでも??ばかりです。 よろしくお願いします。

  • 統計処理の方法を教えてください。

    統計処理の方法を教えてください。 統計処理に関して素人です。 次の様なデータは、どうような手法で統計処理すればよいですか? 薬A,B,C投与時のスコア(N=3) 薬A(0.5mM)80,82,77 薬A(1.0mM)80,81,83 薬A(2.0mM)80,84,76 薬B(0.5mM)50,54,51 薬B(1.0mM)30,28,29 薬B(2.0mM)20,20,24 薬C(0.5mM)40,41,41 薬C(1.0mM)20,24,17 薬C(2.0mM)10,11,10 反復測定による一元配置の分散分析で問題ないでしょうか? よろしくお願いします。

  • 5尺法(リッカート尺度)の集計処理に困っています。

    リッカート尺度(5段階)のアンケートを行い、その集計に困っています。 状況は以下の通りです。 被験者10名にテキストの一部(10個の文から成立する)を読んでもらい、その重要度を1-5で判定してもらいます。 とても重要なら1、どちらともいえないなら3、全く重要でないなら5とします。 私が知りたいことは、10個の文のうち、どの文が10個の中できわめて重要と判断されたのか、どの文が全く重要でないと判断されたのか、文の重要度の順位を知りたいのです。そして、10個の文のうち、たとえば「被験者全体の80%が重要と判断している文○、○を見てみると」というように、ある程度(この場合だと8割以上)の人が重要と判断しているものは、これとこれで・・・というように示したいのですがどのように統計処理すればいいのでしょうか。 一応自分で途中まで次のように分析してみました。 1~5の尺度に点数を割り振ります。とても重要(1)なら5点、全く重要でない(5)なら1点、どちらともいえない3点というようにし、 10人全員がとても重要(1)とマークしたら、文1は50点獲得することになる。 文ごとの獲得点数を集計する。10個の分の点数の平均値を出す。 ここまでは(誰でもできることなのですが)やったのですが、その先がわかりません。 情けないくらい初歩的な質問かと思いますが、どなたかお教えいただければ幸いです。統計処理に関しては素人です。どうぞよろしくお願い致します。

  • スコア付けした結果について統計処理

    下に示しました結果について、有意差の有無を検討するために、統計学的 手法になにを用いればよいか教えていただければと思っています。 ある作業の進行状況を、上級者(a, b, c, d, e, f)、初心者(s, t, u, v, w, x)の2グループに分けてスコア付けしました。 0:進んでいない。 1:作業が1ページできた 2:2ページできた 3:3ページできた(完了) とします。 毎日進行状況をチェックすると 上級者 a: 0 0 1 1 1 2 2 3 b: 0 0 1 1 2 2 3 c: 0 0 1 1 2 2 2 3 d: 0 0 1 1 1 1 2 3 e: 0 0 1 1 1 2 3 f: 0 0 1 1 1 2 2 3 初心者 s: 0 0 0 0 1 1 2 2 t: 0 0 0 0 0 1 1 1 u: 0 0 0 0 1 1 1 2 v: 0 0 0 1 1 2 2 2 w: 0 0 0 1 1 1 1 2 x: 0 0 0 0 0 1 1 2 でした。 進行状況に上級者と初心者で差が見られるのかどうかを解析したいのです が、独立した2群の平均の差の検定かと思い、F検定→スチューデントt検 定、かなあと思って、エクセルの分析ツールもしくは4 Stepsエクセル統計 に付属するstatcel2で分析しようと思ったのですが、なぜか出来ません。 なので、マンホイットニーのU検定かな?とも考えました。 どのように分析するのが正解でしょうか。 よろしくお願いします。

  • 質問紙 回収後のチェック

    質問紙で回収したデータをパソコンに打ち込んだ後、何回ぐらい見直しましたか? 私は二回見なおしたのですが、どれぐらい見直したらよいのか分かりません。 エクセルやSPSSに打ち込んで、分析をしたときに 欠損値が出なければ間違いなくデータ入力できていたと判断してよろしいでしょうか? キーワード 心理学 統計学 数学 アンケート

  • Excelで、A列に「ある特定のキーワード」が入っていたら、それをB列に抽出したい

    タイトルの通りなのですが、具体的な例を以下に記載します。 A列には、3行~5行からなるアンケートに対する回答がテキストとして存在している。 このテキストの中に「ありがとう」という文字列が存在した場合、B列に「1」と入力されるようにしたい。 やりたいこととしては、単純にこれだけです。 で、ここからさらに「複数のキーワードを抽出したい」というのが今回の質問です。 A列に以下のテキストデータがあるとします。 ---------------------------------------------------------- いつも親切にしてくれてありがとう。 近いうちに、私からあたなに対してお礼をしたいと思います。 よかったら食事にでも行きましょう。 ---------------------------------------------------------- この中から「ありがとう」「親切」「お礼」「食事」というキーワードを 拾い、B列、C列、D列、E列にそれぞれ「1」と反映されるようにしたい。 イメージ画像を添付したので、そちらを見ていただければと思います。 イメージ画像はすべて手動で入力した結果ですが、これを自動で行いたいと思っています。 画像でいうと、C列にテキストデータをペーストしたら、自動的にD、E、F、G列に「1」という数字が入るようにしたいです。 エクセル2003を使っています。 どうか、よいアドバイスをいただければと思います。