• 締切済み

購買に関する統計分析

統計初心者です。 商品の購買者の特徴を分析したいと思っています。 手元に、サンプルの属性(性別、年収、職業等)と、それぞれのサンプルが購入した品目(複数、かつ品名ではなく、既に類型化済み)のデータがあるとします。このデータから、次の目的で分析を行いたいと思います。 ・購入品目別に購買層を類型化し、どういった層にどういった商品が気に入られているのか、を把握する。 クラスター分析で良いのでしょうか。 宜しくお願い致します。

  • nich
  • お礼率71% (177/249)

みんなの回答

noname#227064
noname#227064
回答No.2

ANo.1では年代別、性別、職業別と別々に集計しましたが、集計せずにすると添付画像のようになります。 # 使用したコード plot(corresp(x[, -c(1:3)], 2))

noname#227064
noname#227064
回答No.1

> 手元に、サンプルの属性(性別、年収、職業等)と、それぞれのサンプルが購入した品目(複数、かつ品名ではなく、既に類型化済み)のデータがあるとします。 例えば下記のようなデータでしょうか? A~Eが品目で0-1で購入したかどうかを表す。 age sex profession A B C D E 1 30 F b 1 1 1 1 0 2 20 M a 1 0 1 1 1 3 20 M b 1 0 1 0 1 4 60 M c 1 1 0 0 1 5 30 M b 1 0 0 1 0 6 10 M c 1 1 0 0 1 7 50 F b 1 1 0 0 1 8 40 M a 1 0 1 0 0 9 40 F b 1 0 0 1 0 10 30 F b 0 1 1 0 0 11 30 M b 0 0 1 1 0 12 30 F c 1 1 0 0 1 13 60 F b 0 0 1 1 0 14 50 F c 0 0 0 1 1 15 20 F a 1 0 1 1 1 16 20 F a 0 0 0 0 1 17 50 F c 1 1 0 1 0 18 40 F c 0 1 1 1 1 19 30 F b 1 1 1 0 1 20 50 M b 1 1 1 1 0 あまり詳しい説明はできないのですが、コレスポンデンス分析はいかがでしょうか? 統計解析ソフトRで上のテストデータを年代別、性別、職業別に解析・プロットしてみると添付図のようになりました。 図を見て属性と品目が近いほど、その属性の人はその品目を購入している人が多いということが分かります。 # 使用したコード # 汚いですがそこは目をつぶってください # テストデータ作成 n <- 20 age <- round(runif(n) * 50, -1) + 10 sex <- as.factor(ifelse(runif(n) > 0.5, "M", "F")) profession <- as.factor(letters[ceiling(runif(n) * 3)]) items <- matrix(ifelse(runif(n * 5) > 0.5, 1, 0), nrow = n) colnames(items) <- LETTERS[1:5] items <- items[, colSums(items) > 0] x <- data.frame(age = age, sex = sex, profession = profession) x <- cbind(x, items) # テストデータ表示 x # 年代別に集計 x.age <- xtabs(cbind(A, B, C, D, E) ~ age, data = x) x.age <- x.age[rowSums(x.age) > 0, ] # 性別で集計 x.sex <- xtabs(cbind(A, B, C, D, E) ~ sex, data = x) x.sex <- x.sex[rowSums(x.sex) > 0, ] # 職業別に集計 x.profession <- xtabs(cbind(A, B, C, D, E) ~ profession, data = x) x.profession <- x.profession [rowSums(x.profession ) > 0, ] # コレスポンデンス分析とプロット par(mfrow = c(2, 2)) # 4分割してプロット plot(corresp(x.age, 2)) plot(corresp(x.sex, 2)) plot(corresp(x.profession, 2)) par(mfrow = c(1, 1)) # 4分割してプロットの設定を戻す

関連するQ&A

  • 統計分析について

    統計分析についてある分析の結果で3σで±4μmだたと言われれば、 どうやって解釈するのができますか? 自分で検索したら、下の通りような記事を探ったんですが、 ±σ(σ区間):68.3% ±2σ(2σ区間):95.4% ±3σ(3σ区間):99.7% ±6σ(6σ区間):99.9997% 3σで±4μmだったら、 分析データでサンプルの全体で99.7%が±4μmの中にあることと 理解すればいいのかどうか知らないですが、 例えば6σで±4μmだったら全体中に99.9997%が±4μmの範囲に あることと解釈ができますか? 統計分析に関して、いくら見ても理解が難しかったんですが、 分かりやすく教えていただけませんか? ぜひお願いいたします。

  • 統計学 クラスター分析について

    動物行動学研究においてアンケート調査のデータ分析を行っています。 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。データサンプルが2,000近くあり、以前階層クラスターを使おうとした時に明確に結果が出なかったことがあります。 非階層は一般的に連続変数を扱うと言われているようですが、そうなるとTwo stepが適切なのでしょうか。解析ソフトはSPSSを使用しています。どうすべきか分析が進まず、困っています。ご存知の先生がいらっしゃいましたら導いていただけると非常に助かります。どうぞよろしくお願いいたします。

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。

  • 行動パターンをグルーピングする統計分析の方法

    数十社分、各社数十個の属性データ(金額等の数値)を時系列で年次5年分あります。 この属性データをもとに幾つかの会社のグループに分けられる行動パターンが分析できないかと思案しています。 この場合のパターンとは例えば各種資産の持ち方の時系列での推移がAグループとBグループで異なる傾向がある等です。 単純な相関分析では属性間の相関しかみれず、各社の行動パターンのグルーピングも出来ない気がします。 この場合適切な統計分析の方法を教えて下さい。よろしくお願いします。

  • 質的データと量的データからなるサンプルをグループ分けするにはどの分析を使えばよいでしょうか。

    統計の選び方についておうかがいします。 アンケートの結果から回答者をグループ分けをしてグループ毎の特徴を挙げたいと思っています。 アンケート項目は『a.身長・体重など数値のデータ』・『b.好き嫌いの度合い等の5段階のデータ』・『c.性別・住んでいる地域など順序の全くないデータ』 に分かれています。 統計に関して全く理解できず、本やwebの資料を参考にした結果 以下のような分析をしようかと思っています。 1)cのデータだけで数量化3類の計算をして点数で示す。 2)a.b.cの点数、のデータでクラスター分析をしてグループ分け 数量化で得た結果をクラスター分析にかけてよいのかという点と、 bの段階で表したデータを数的データとして扱っていいかという点 の2点について疑問があります。 また、全く的外れな分析をしようとしているのではないかという不安が有ります。 以上の2点と、正しくはどの分析を用いればよいのかについて、アドバイスいただけたらと思います。 よろしくおねがいいたします。

  • 時系列データの統計量

    こんにちは。 いま船の航跡データからクラスター分析を行い、いくつかのルートに分類することを考えています。 クラスター分析を行うために、3次元時系列データ(x座標、y座標、時間)を統計量で処理したいのですが、こういった多次元時系列データの場合にはどのような統計量を使えばよいのでしょうか? 何卒ご指導頂けますようお願い申し上げます。

  • 統計についての文を添削してください

    統計のことはぜんぜん理解していないものです。 どなたか私の文を添削していただけないでしょうか? 言葉遣いがおかしいとか、意味が違うとか指摘していただけると助かります。 サービスの品質改善というテーマで翻訳をしていたのですが、調査をおこないデータを整理して結論をだすために、統計の手法を使うことができる、という部分がでてきて困っています。 ネットでいろいろ学習??しましたが、あっているかどうかまったく自身がありません。 よろしくお願いいたします。 カイ二乗‐2つの変数の間での関連を決めるための統計技術。(1)観察されたデータが期待とマッチするかどうかを見る、(2)一方の変数の分布がもう一方の分布と関係があるかみる。 t-検定-サンプルが同じ人口から選べれているかを見るため、2つの個別サンプルの平均や割合を比較する統計技術。(3つ以上のサンプルの平均をテストするには、分散分析が使われます) 重回帰-複数の変数の値の変化によって、1つの変数の変化の値を予測するための統計技術です。 クラスタ分析-対象(学校/場所/物など)を特定された数の排他的グループ(内部的に同種)に分ける統計技術。 因子分析‐相関関係をもつ変数の大きなセットの要因を決める統計技術。 判別分析-人や物を2つ以上のカテゴリーに分類するための統計技術。 カイ二乗による相互作用の自動検出方法(CHAID)‐分岐方法を使って、因数のなかの相関と見つける統計技術。 以上です。

  • 統計解析法は残差分析でいいのか?

    ある疾病の年度ごとの発生率を統計解析にかけてレポートを作成しようと考えているのですがどの統計解析法を使って良いのかがわかりません。 手元にあるデータとしては一年毎の全患者数と統計にかけたい疾病の疾病例数です。また年ごとのサンプル数はかなり幅があります。 単純に疾病例数を全患者数で除算しものを発生率としてグラフにしてみますと減少傾向にあるようにみえます。 これを統計解析にかけてある疾病の発生率が減っていると証明することはできるのでしょうか? 10年分のデータがあるとして 全患者数、疾病例数の2マス×10年分10マスとして残差分析にかけていいものなのでしょうか? そもそも残差分析なる物がどういうものか理解できていないのですが・・・ また別のデータとしてその疾病に効果があると考えられる薬剤の一年毎の出荷数なるものがありますがどのような統計処理を行えばよいのでしょうか? 全く統計は素人で申しわけありませんがよろしくお願いします。

  • 統計に関する質問:サンプル調査の有効性の確認

    以下のような内容の質問をうけたのですが、統計そのものがよくわかりません。 どなたか教えてください。 今、ある県の住民を属性別(性別、年齢層、学歴別)にサンプル抽出し、職業(10分類)や購入した製品の種類(6分類)や満足度(5段階)を調査したデータがあります。 1000人を抽出し、そのうち半数から回答がありました。 以下のようなデータがあるとき、2番目の男性群の人数(補正後)はどの程度正しいか(信頼性があるか)というものです。それぞれのセルで回答者数が少ないので、最低どの程度の回答者数が必要なのでしょうか。 お願いします。 性別  年齢層 学歴 職業  製品  満足度  人数(補正後) 回答数 ------------------------------------------------------------------- 女   21-40 高卒 会社員 製品A 非常に満足    5.32   5 男   41-60 大卒 会社員 製品C やや不満     10.10   8 : : : : : : : : : :

  • 統計学初心者です!

    統計学初心者です! わかりにく説明かもしれませんが、ぜひ、回答お願いいたします! 私は仕事で毎日あるサンプルAを分析しているのですが、会社の取り組みで 分析の頻度を減らそうと考えています。 そこで、統計学的な方法で根拠を確立し、上司に説明したいと考えています。 回帰式などいろいろ調べたのですが、最適な方法が分かりませんでした。 サンプルAについてですが、 ・ある成分が90%以上になるように管理しています。 ・分析は毎日行っています。 ・管理値以下の観測結果は月に一回ほど出ます。 ・分析値はすべてデータとしてまとめて保管してあります。 ・頻度を二回に一回くらいにしたいです。 どうかよろしくお願いします! .