• 締切済み

SPSSでクラスタ分析の際のデータ

SPSSは使ったことがありませんが、仕事で急に必要になりました。ご存知の方はお教えください。 SPSSで、クラスター分析(デンドログラム出力)を行いたいと思います。 その際、データとしては通常の観測変量(変数)ではなく、独自に計算した距離データを使うことになりました。 色々な書籍をあたったのですが、指定した変数から、SPSS内で距離(距離行列)を求め、分析、作図されることはわかりました。 しかし、距離(距離行列)を与えて、分析、作図する方法がわかりません。 メニューから距離行列を与えての操作はできないのでしょうか? シンタックスで、コマンドを指定し、距離行列を読み込んで処理させるしかないのでしょうか? シンタックスで処理するしかないのならば、主なコマンド名だけでもお教えいただけませんでしょうか? コマンドでもクラスタ化の方法は指定できますでしょうか? また、距離行列は、左下だけの三角領域の指定だけを想定していますが、これで良いのでしょうか? SPSS初心者(それよりひどいかも)のため、質問ばかりになってしまいましたが、よろしくお願いいたします。

みんなの回答

回答No.4

私は、実務家ではないので異常値の取り扱いについては、何とも申し上げられませんが、デンドログラムの性質から、逆に異常値が検出しやすい特性があります。むしろ、異常値を排除(明らかに測定誤りはのぞきますが)せずに、そのまま計算してみてはどうでしょうか?

daachan
質問者

お礼

ありがとうございます。 異常値に関しては、そのまま利用してみます。 測定器から測定器の異常や何らかの異常の場合、別のフラグでデータが来るようになっています。 あくまでも、異常値も有効な測定値というのを忘れておりました。 実務ばかりの話で、申し訳ないです。 また、デンドログラムも単なる分類分けと思っておりました。しかし、変に孤立したものがあれば、それは何らかの要因があるということですね。 勉強になりました。本当にありがとうございます。

回答No.3

つまり、(1-相関係数)を距離とするわけですね。しかし、相関係数は最大で-1になることもありますから、全く類似していない場合は、距離が2となる可能性もありますが、あなたの距離の定義は0<=L<=1となっているようですが、問題はないのですね?

daachan
質問者

補足

鋭いご指摘、ありがとうございます。 この式で扱うのは、ある流体(正確には気体)で、ある程度ブロック分けされた観測点を用いています。そのため、相関係数から求められる距離はご指摘の通り、0<=L<=1と想定いたしております。 今回のご指摘で、もう一度考えてみました。 ブロックを拡大したり、異常な流れができれば、相関係数が-1もありえると思いますが、それは距離作成の際、除外するようにしていますので、問題ありません。 距離行列を作成する時は、除外せず、1を越えたものは、負の大きな値を設定するようにして、SPSS内で対象外にすれば問題ないと考えております。 以上のように考えましたが、如何でしょうか?

回答No.2

>独自に計算した距離データを使うことになりました。 私は、ユークリッド平方距離か、マハラノビス距離しか使用していませんが、独自に計算した距離とはどのようなものでしょうか?もし、よろしければ、教えてください。

daachan
質問者

補足

ご回答ありがとうございます。 説明が難しいのですが、簡単に説明させていただきます。 ある点A、Bがあります。 ある条件下で、A、Bそれぞれで観測される値をベクトル化します。 このベクトルの内積を長さの積で割った値を、1から引きます。これを距離としています。 式で示しますと、A、Bで観測されたベクトルをa、bとします。     1- |a||b|cosθ/|a||b| となります。 同じ点ならば0、似ている点ならば0に近くなる、全く違うなら1に近くなることを距離として扱っています。 この距離を、全ての点同士で計算し、行列化もできます。 そのため、階層クラスター分析に適したものとなっています。 今取り扱っている距離は、さらに時系列が加わりますが、それは今回のお話の根本ではないので、おいておきます。 よって距離といっても、類似度をあらわす指標というのが正しいでしょうか? このような説明で、お分かりいただけますでしょうか? よろしくお願いいたします。

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

私はSPSSをあまり使ったことがないので、簡単な分析方法しか分からないのですがdaachanさんがどうしても必要というのでしたら以下のURLで聞いてみるのがよいかと思います。 ・中部大学の小塩先生のwebサイトで、SPSSについての質問ならメールで受け付けてくれるかもしれません。 http://psy.isc.chubu.ac.jp/~oshiolab/index.html ・「インフォメーションセンター」か「お問い合わせはこちら」で質問できますが、後者のほうは購入前のお問い合わせなので普通の操作の説明はしてくれません。 なので「現在会社でSPSSを使っています。そこで個人でSPSSを購入しようと迷っているのですが、~~はできるのでしょうか。」などと買うような言い方をすれば対応してくれます。 http://www.spss.co.jp/product/spss/index.html

daachan
質問者

お礼

ご回答、誠にありがとうございます。 小塩先生のお名前は、SPSSの書籍を探している時(正確には漁っている時)に何度か拝見いたしました。 書籍の作者の方はお忙しいと思いますので、もうどうにもならなくなった時に、お伺いしようと思っております。 SPSSの購入前のお問い合わせは、既に利用させていただきました。 ずばりの回答はくれませんでしたが、少しだけヒントをいただきました。それに添えて、購入の上、サポートに入っていただければ、データやコマンドの相談にのれると、丁寧に回答をいただきました。 そのため、取り合えずSPSSのStudent版Ver.11の入手を決め、現在注文中です。(書店から、Ver.13はどうかと進められたのですが、時間がないので、11にしています。)もちろん、サポートは受けれませんが。 初めての教えて!gooでの質問で、心細かったのですが、光が差してきたようで、ありがたかったです。 誠にありがとうございます。

関連するQ&A

  • SPSSの機能

    現在、重回帰分析、因子分析、主成分分析、コレスポンデンス分析、クラスタ分析などの多変量解析をやりたくてSPSSの購入を考えています。 そこで質問なのですが、 これらの分析手法はSPSSの基本ソフト(spss statistics base) のみでできるのでしょうか? 他のオプションのソフトも購入しなければならないのでしょうか? どなたか宜しくお願いします。

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。

  • 統計学 クラスター分析について

    動物行動学研究においてアンケート調査のデータ分析を行っています。 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。データサンプルが2,000近くあり、以前階層クラスターを使おうとした時に明確に結果が出なかったことがあります。 非階層は一般的に連続変数を扱うと言われているようですが、そうなるとTwo stepが適切なのでしょうか。解析ソフトはSPSSを使用しています。どうすべきか分析が進まず、困っています。ご存知の先生がいらっしゃいましたら導いていただけると非常に助かります。どうぞよろしくお願いいたします。

  • クラスタ分析 結果の安定性について

    統計解析の初心者です。 2つの疑問と対処法に困っています。お分かりになる方ぜひ教えて いただければ幸いです。 <使用ソフトと分析方法> ・ソフト:SPSSの ・分析方法:大規模ファイルのクラスタ(非階層クラスタ/K-means法) ・変数:事前に行った因子分析結果の7因子の因子得点 <1> クラスタ数を5に指定し、その他をデフォルトの設定で行ったところ、 「反復の記録」のところで、「反復が最大回数実行されたため、反復を 終了しました」というメッセージが出ていました。 (反復回数「10」、収束基準「0」) この結果を最終結果として用いてはいけないものなのでしょうか? 実は既に一度この結果を提出してしまっているのですが…、 後から気づいて、試しに反復回数を変えて何度かやってみたところ、 あまりに結果(クラスタ別の因子得点平均点)が違うことに驚いて います。 既に結果を提示してしまっているため、できれば、最初に行った結果 でも誤りではない、という根拠が得られればと思っています。 <2> 上記のクラスタ分析の結果について、「安定性を検証して欲しい」 という要望を受けました。 クラスタ分析の「安定性」に該当する数値を出す方法とは、どのような 方法があるのでしょうか? 例えば、因子分析の場合の累積寄与率のように「○○%」という形で わかりやすくバシッと数値で出せるものなのでしょうか? SPSSで出せる方法を知りたいと思っています。 基本的な質問で恐縮ですが、よろしくお願いいたします。

  • データのクラスター分析?

    私は今、ある高原の景観、音、空気成分濃度などをすべて定量化し、各エリアの特徴を見つけたいと思っているものです。 たとえば、このエリアは「静かでガス成分が濃い」などと・・ この分析はクラスター分析を使用すれば求められると、先人の論文を見て見つけたのですが、いまいち方法がわかりません。 エクセルのマクロなどでできることはできるのですが、これでいいのか・・・汗 画像で乗せますが、正規化をしたほうがいいということなのですが、 変数の一つに+と-のデータが入るものがあり、このまま正規化していいのかも疑問です。 何かアドバイスしてくれる方がいましたらよろしくお願いいたします。

  • 共分散分析に関して。

    通常,高低群に分けたものを独立変数とし,平均値の差を知りたい変数を従属変数とした場合には,t検定でも分散分析でも同じ値が算出するかと思うのですが,そこに共変量の影響を仮定した場合には共分散分析が検定力を強め,有意差が異なってくるのではないかと考えました。 そこで,SPSSの「一般線形」「1変量」で共変量をすべて投入して分析を行ったんですが結果をどう見ればいいのかよく分かりません。また,共変量の投入が妥当なのかも疑問です。そこで,どういった場合に共分散分析を行えて,またそれが妥当なのか,ご教授いただけると嬉しいです。 ちなみに,分散分析を行う際に影響を及ぼすと思われる共変量は,性別や年齢,職種など全部で5つあります。これを全部一括して投入するのか,もしくは1つづつ投入するのか,それとも分散分析が妥当なのか,よろしくお願い致します。

  • SPSS17で二項ロジスティック回帰分析を行うには

    SPSS統計に関する基礎的な質問です。 SPSSを使って二項ロジスティック回帰分析を行う方法として、「分析」→「回帰」→「二項ロジスティック」を選択するとネットで調べました。 以前使っていたSPSS12ではこのやり方で二項ロジスティックの変数増加法、尤度比で解析していたのですが、SPSS17でやってみたところ、同じようにできず困っています。 SPSS17では「分析」→「回帰」を開くと、「線形」、「曲線推定」、「偏相関最少2乗法」、「順序」の4つしかなく、あちこち探ってみたのですが結局分からずじまいでした。 急いで解析しなければいけないデータがあり、また、SPSS12はもう使えない状況であるため、なんとかSPSS17で対応していかねばと思っております。 どうぞ具体的なやり方をご存じの方がいましたら、ご指南いただけないでしょうか。 宜しくお願いいたします。

  • SPSS出力の「Boxの共分散行列の等質性の検定」と「Leveneの誤差分散の等質性検定」について

    1.SPSSで多変量分散分析を行いましたところ、「Boxの共分散行列の等質性の検定」が有意になってしまいました。調べたところ、共分散行列の等質性は多変量分散分析を行う場合の前提条件のひとつであるということまではわかったのですが、その条件が整わない場合にどのような検定手法をとるべきなのかということがわかりませんでした。 2.上記に加えまして、「Leveneの誤差分散の等質性検定」でもいくつかの項目が有意な結果となりました(この場合、複数の独立変数を想定したノンパラメトリック検定を行うのでしょうか?) 以上の2点を考慮した場合、どのような検定手法をとることになるのでしょうか? ぜひよろしくお願いします。

  • SPSSでの対数線形分析

    SPSSで対数線形分析をやりたいのですが、よく分かりません。 SPSSver11.0で、たとえば4×4のクロス表について一般的対数線形分析をすると、最後の変数(クロス表の4行目全部と4列目全部)のパラメーターが自動的に0となってしまって、これらの変数のパラメータ推定値が出力されません。これらを出力させるのはどうしたらよいでしょうか?データ入力の際、順番を変えてやってみたら(1行目にあったものが4行目に来る、というように)、前に4行目にあったものに関して推定値が出力されてきたのですが、そうしたら結果が全く違ってしまいました。どのようにしたらよいのでしょうか?

  • SPSSで分析できない(因子分析)

     98項目の予備調査を因子分析にかけて尺度作成を試んでいるのですが, 「共分散行列(a) a この行列は正値行列ではありません。」 「説明された分散の合計(a) a 抽出することができません。この抽出はスキップされます。」 という出力画面が出てすすめません.『データの分解』→『因子分析』→変数枠の中へ項目を入れ,『因子抽出』→主因子法で,『回転』は主因子法なのでバリマックスにしました.(下位概念間に相関があったり,最尤法であればプロマックス?でしょうか)これで,以上の↑ような画面が出力されてしまいます.誠に情けないのですが,ご指導宜しくお願いします.