• ベストアンサー

クラスター分析の切断面

初歩的な質問ですみません。 1.クラスター分析の切断面は結合距離の1箇所で切らないといけないのでしょうか? ある人の文献では、1箇所の結合距離で切ってクラスター群を分けたり、 またある人は2箇所で切ってクラスター群を分けていました。 2.切断する場所はその人の主観で決めているのでしょうか? 3.同一の調査を行なった、2つの樹状図の切断面は同じ距離で切らないといけないのでしょうか? なにぶん素人なので分かりやすくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • selfer
  • ベストアンサー率76% (104/136)
回答No.2

Selferです.補足説明拝見しました. >A,B,C,D,E,F,G,Hの8系統で、 >系統AとBが結合距離1で結合、系統CとDが2で結合、(A,B)と(C,D)が3で結合、 >(A,B,C,D)とEが5で結合、FとGが4で結合、(A,B,C,D,E)と(F,G)が6で結合、 >(A,B,C,D,E,F,G)とHが7で結合、 距離1(A,B)(C)(D)(E)(F)(G)(H) 距離2(A,B)(C,D)(E)(F)(G)(H) 距離3(A,B,C,D)(E)(F)(G)(H) 距離4(A,B,C,D)(E)(F,G)(H) 距離5(A,B,C,D,E)(F,G)(H) 距離6(A,B,C,D,E,F,G)(H) 距離7(A,B,C,D,E,F,G,H) こういうことでしょうか? >この図で先輩は(A,B),(C,D),(E),(F,G),(H)の5群に分類してました。 ふむ.確かに先輩の方の分類は上記のどの距離段階にも対応していませんね. 敢えて言えば,ひとまず「距離4:(A,B,C,D)(E)(F,G)(H)」を採用して,そこに補足的に「(A,B)(C,D)」という群分けを組み込んだのですか…… クラスター分析は基本的に一つの切断面で判断をするのが通常の使い方なので,結果至上主義ならば,確かにこの恣意的な分類に対しては反論がでると思います. ただし,前回でも回答したようにクラスター分析は「最適な分類基準を見付けるための一つの方略」なので,もっと言えば,クラスター分析の結果を参考にして,新たな判断基準を……先輩がされたような補足組み込み的な分類基準を考案されるのも一つの方法だと思われます. それよりも「その群分け基準」が有効かどうか,が問題となります.ある研究のデータをクラスター分析することである「群分け基準」が提供されたとします.しかしこの基準が良いかどうかは,「その群分け基準を使うことによって別の研究結果の説明効力が高い」ということによって検証されるものです.その時に,クラスター分析のコンピュータ計算結果をそのまま信じた判断基準が有効でなかったのならばその分類基準は良くないものであり,多少恣意的な判断基準であっても,その基準の方が説明効力が高いのであれば,その恣意的な判断でも別に構わないと思います. この辺になると,クラスター分析などデータ解析法の結果を率直に信じるタイプと,それらはあくまでも(大いに有効であるが)参考資料でしかないというタイプ,いずれのタイプによって意見は分かれると思います. 統計学者のフィッシャーは統計法の結果はあくまでも判断基準の一つであるとして後者の立場を,フィッシャーの後継者であるノイマン&ピアソンなどは前者の立場であり,どちらの意見が正しいか,とは一概には言えないでしょう. データ解析法を道具的に使用される研究者(統計学が専門ではない研究者)であるならば,ある程度恣意的であっても,【妥当性・信頼性の高い仮説に適合させるならば,データ解析結果は非常に有効な判断資料ではあるが,結果をそのまま鵜呑みにしない方がいいのではないのか】,というのが個人的な意見です. 要するに,恣意的な群分けを採用されるのならば,それなりの説得力がある意見を添えておかないと,他者からの反論に対応するのがきついぞということです.

bancyan
質問者

お礼

番ちゃんです。 早朝からご協力いただきありがとうございました。 私のあやふやな質問に丁寧に答えって下さる人がいて 本当に助かりました。

その他の回答 (1)

  • selfer
  • ベストアンサー率76% (104/136)
回答No.1

質問の中に意味がいまいちわからないものもあるので,こちらの勝手な推測を交えつつ回答を試みます.当方の勘違いや疑問点があれば御指摘下さい. ※以下の樹形図は,等幅フォントで綺麗に表示するようにしていますので,  できれば,樹形図をコピー&ペーストをして,等幅フォント(MSゴシックなど)  にして表示をして下さい.  ―――――――――― クラスター分析の樹形図表 ―――――――――      0 10 20 30 40 50 60 70 80 90      └――┴――┴――┴――┴――┴――┴――┴――┴――┴   【A市】──────────────────────────┐   【B市】──┐                       │         ├─────┐                 │   【C市】──┘     ├──────┐          │   【E市】────────┘      ├──────────┘   【D市】───────────────┘  ―――――――――――――――――――――――――――――――――            ↑     ↑            甲     乙 例えばある問題に対してクラスター分析(正確には階層的クラスター分析)を行うと,上記のような樹形図が描かれるのは御存知の通り.さて,クラスター分析では,グルーピングの過程が描かれていますので,そのどこでグルーピングかをするかは【基本的に】自由です. その場合のグルーピングの判断基準(これが質問者の「切断面」に該当でしょうか?)によって…… ・「甲」の基準で選ぶとすれば,(A)(B,C,E)(D)の三群 ・「乙」の基準で選ぶとすれば,(A)(B,C,E,D)の二群 となります.一般的には判断基準は一つだけ(少なくとも一般的には)です(正直「二カ所」という意味が分かりません.もしよろしければ,上記例題などを補足説明をお願いします).[1の回答] 基本的なクラスター分析の使い方は,このような群分けなのですが,クラスター分析はその計算オプションによって描かれる樹形図が大きく異なる場合があります. 仮に異なる計算オプションによる樹形図を見比べて,群分けの種類を検討して,最適な群分けは何かを考えるとしましょう. とはいえ,クラスター分析による群わけは比較的自由に行えますので,それぞれの樹形図で「この辺がいいかな?」と思ったところを選んでもらって構わないのです.よって,同じ距離で切らないといけないということはありません. というよりはあまり意味がありません.そもそも異なる樹形図では,その距離の計算方法が異なっていますので,樹形図1と樹形図2の距離はもはや同等ではありません.すでに樹形図ことに距離の意味が異なりますので,例えば同じ距離=10であっても,図1と図2とでは別物なのです.[3の回答] さて,最後に判断基準「切断面」についてです.基本的には主観で結構です. そもそもクラスター分析というのは,重回帰分析や因子分析など他の多変量解析とはことなり,「明確な結果を出さない(出せない)」という特徴のデータ解析法です. こうかいてしまうと,随分胡散臭いものだと思われるでしょうが,そもそろデータに対する視点が異なると,その解釈や結果が異なるのは当たり前なのです.その意味ではクラスター分析は当然のデータ解析法なのです.他の多変量解析は,色々な視点の中で【強引に,ある特定の視点だけ】の結果や解釈を提供しているに過ぎません.一見,明確な答がでるように思えますが,視点を強引に固定しているわけですから極絞られた明瞭な結果がでるのはあたりまえ……というより簡潔な結果が出るように視点を絞っているにすぎません. そのため「そんな視点(モデル)を固定しては駄目ではないか?」という批判がデータ解析法に対して浴びせられ,もう少しモデルを緩やかにして,その代わり明瞭な結果を一つだけ提供するのではなく,「このようなモデルが考えられる」と複数の結果を提示するようなデータ解析法<データマイニング>が登場してきています.クラスター分析とは,そのようなデータマイニングの一つです. 故に,どのような切断基準を採択するのかは主観で構いません.というよりはその基準による群分け,その群分けを使うと,自分の仮説が上手く説明できるかが問題なのです.自分の仮説に合う群分けを選んで下さい. ……と,ここで説明を終えることができるのですが,そうは言っても何らかの客観的な判断基準が欲しい,という意見もあります.データマイニングの考え方としては不適だと思われますが,そのような意見に対応すべき一応,客観的な判断基準,というものはあります. 「ウォード法」を使い,「疑似F値」「疑似t値」そして「セミパーシャルRの二乗値」という数値がお使いの統計ソフトで出力されていれば,それらの数値を使うことである程度参考とすることができます.とはいえ,これらの数値はあくまでも参考数値であり,決定的に決まるものでもありませんが…… 更には,とにかくコンピュータに自動的に群分けをしてもらう,ということもできます.この場合コンピュータに「何個の群に分けるか」を予め設定させることで,統計的に有効な群分けをしてくれます.一般に「非階層的クラスター分析」と呼ばれる手法で,とにかくコンピュータで分けさせたい,というのであればこの方法を使うのも一つの手でしょう.ただし,この方法では樹形図を使っているわけではないので,樹形図は(私の知る限り)表示されません.[2の回答] 2.切断する場所はその人の主観で決めているのでしょうか?

bancyan
質問者

補足

selferさん、はじめまして。 大変分かりやすい回答で安心しました。 感謝します。 私の先輩が植物の系統分類を調査値をもとに比類似度を算出して、 群平均法(UPGMA)でクラスター分析していました。 図を描こうとしたのですが上手くいかなかったので、言葉で説明します。 A,B,C,D,E,F,G,Hの8系統で、 系統AとBが結合距離1で結合、 系統CとDが2で結合、 (A,B)と(C,D)が3で結合、 (A,B,C,D)とEが5で結合、 FとGが4で結合、 (A,B,C,D,E)と(F,G)が6で結合、 (A,B,C,D,E,F,G)とHが7で結合、 結合距離0  1   2   3   4   5   6 7 系統A----------         ----------------   B----------     I              I----------------   C------------------   I        I          --------        I   D------------------            I-------- I    I   E------------------------------------------- I I--------   F-----------------------------------  I I                     ---------------- I   G----------------------------------- I I H----------------------------------------------------------- 見にくい図ですみません。 本当はもっと多くの系統で構成してあるのですが、大体こんな感じです。 この図で先輩は(A,B),(C,D),(E),(F,G),(H)の5群に分類してました。 そこで気になったのですが、 判定基準を結合距離2~3のあたりにすると(A,B),(C,D)を分けることができますが、このとき(F,G)群も(F)と(G)に分けないといけないような気がするのですがどうなのでしょうか。 それとも、結合距離4~5あたりで分け、その後A,B,C,Dのみを2~3あたりで(A,B),(C,D)にわけることができるのでしょうか。 それとも、構成自体が間違っているとか。 よろしくお願いします。

関連するQ&A

  • 光ファイバーの切断に関して

    話を説明しやすくするため、ファイバを円柱に見たてます。 光ファイバを円柱の底面と切断鏡面が5度傾くように切断するために 使われている方法ですが、なぜこの方法で、5度傾くのかが分かりません? 参考文献なり、原理なりを知っている方、暇な時にでもお願いいたします。 --方法-- (1)まず、ファイバの両端を固定する。 (2)片方には、引っ張り荷重を、もう片側は5度ねじります。 (3)ダイアモンドカッターで真中付近に超音波で傷を入れる。 (4)引張荷重によりその傷から切断される。 (5)切断面が五度傾いたものが得られる。       簡略化した図(分かるかな) 5┌────────────┐ 度│                  │ ね│                  │→引張荷重 じ│                  │ る└────────────┘  ・        ↑<カッター>

  • 統計の分析について

    授業で質問紙を実施し、統計で分析をするのですが、どの分析方法で行えば良いかわからず困っています。 私がやろうとしていることは、まず、状態不安尺度を実施⇒不安が喚起されるような出来事・安心感が喚起するような出来事を実験により与える⇒再度、状態不安尺度を実施し、不安喚起条件群と安心喚起条件群それぞれの状態不安がどう変化するかをみたいと思っています。 この疑問は、すでに回答者様からとても詳しい回答を頂いており、解決しております。 (出来事(不安・安心)×状態不安尺度測定時期(前・後)の2要因2水準の分散分析を行う予定です。) 次に、不安喚起・安心喚起によって状態不安が変動する人・しない人(不安喚起によって安心したり、安心喚起によって不安になったりしないものとするので、不安喚起によって状態不安が高くなる人(変動する)と、変動しない人の2群のみを考えています)の個人特定をみるために、モーズレイ人格目録(MPI)という質問紙も実施したいのですが(一回目の状態不安を測る時に、一緒にMPIも実施します)、この場合は、どういった分析方法で分析すれば良いでしょうか? 私としては、MPIの9分類と、被験者を変動した群・変動しない群の2群にわけた、両群によるMPIの差をt検定にて検討、という分析方法を考えています…が、まだ統計を習いたてなので、これで正しいか分かりません…。この分析方法は間違っているでしょうか? まだ、統計は習ったばかりなので(先生曰く、まずアンケートやって分析してみなさいとのことなのです)わからないことばかりです。 ですが、アンケートをとってからあわてるのはいやなので、まず質問紙を取る前に、取り終わった後にどのように分析するか、きちんと決めてから調査を行いたいと思っています。 すでに書きましたが、私は統計がかなり苦手なので、わかりやすく回答していただけたらと思います。 よろしくお願いします。

  •  3要因分散分析でいいのでしょうか?

     心理学の院生です。質問紙調査の統計解析をやっています。 対象は、介護している家族です。便宜上、配偶者を介護している人=A群、実の父母を介護している人=B群、義理の父母(舅、姑)=C群とします。このA群、B群、C群に様々な尺度に答えてもらったのですが、尺度の平均値を比較する際は、3要因(A、B、C群)の分散分析でいいのでしょうか?  教えていただければ幸いです。  

  • 遺伝的分析がしたいのですが・・・

    遺伝的分析がしたいのですが,大学院を修了して社会人になったので実行に移せなくて,困っています. 具体的には,通常の個体とはかなり表現型に変異のある個体群(魚類)を発見したので,環境要因によるものか,遺伝的要因によるものか明らかにしたいのです.そこで,通常の個体群,変異のある個体群,近縁種の個体群からサンプリングをして,酵素多型かRAPD法ででも検討したいと思います.できれば,遺伝距離の算出をして,もし遺伝的な変異が定量出来れば,どのような位置づけのものなのか明らかに出来ればと思っています.いずれにせよ,金と設備が必要になってきますが,発注すればDNA抽出からPCR,電気泳動までやってくれるような業者,機関はないものですかねぇ.現地調査はかなり行っているのですが・・・ もしご存じなら,または良いアイディアがあれば教えて下さい!

  • 主成分分析の使い方について

    主成分分析などの統計的手法を勉強中の学生(環境学分野)です。 ある論文で、下記の内容を目にしました。 私には、どうして、このデータによって、この目的が達せられるのかがどうしても理解できません。 どうかご教授のほどお願いいたします。 目的 農地が持つ29種類の機能を集約化すること。 方法 1.602人に対してアンケートを行い、29機能を「高くもつ」から「まったくもたない」の5段階評価尺度で評価してもらう。 2.アンケートの結果を中間順位法により順位統計量に変換する。 3.主成分分析を行う。 4.VARIMAX回転を行う。 5.第10因子までの因子負荷量の算出を行う。 6.因子負荷量によるクラスター分析を行う。 結果 29種類の機能は8種類に集約された。 人がその機能を「高くもつ」、「まったくもたない」と感じる“感じ方の傾向”と、“機能の性質”は別のことなので、機能の集約化にこのようなアンケート調査の結果を用いることはできないのではないかと、私には思えました。 けれど、結果として示されたクラスター分析のデンドログラムを確認してみると、植物保護機能、動物保護機能、土壌微生物保護機能などが「生物・生態系保全」のクラスターに含まれ、情操教育と精神安定化などが「保健休養」のクラスターに含まれるなど、機能の性質に関する一般的な感覚を反映したものになっていました。 主成分分析を駆使すれば、そういったことも可能なのでしょうか。 ご助言よろしくお願いします。

  • 砥石でFCD材を精度よく切断する方法を教えてくだ…

    砥石でFCD材を精度よく切断する方法を教えてください 現在 FCD材を砥石で切断していますが、切断面が斜めに曲がってしまします。なぜ曲がるのか原因を調べていますが、わかりません。どうしてなのか原因が分かる方がいらしたら、ご回答をお願いします。 詳細内容  材料 FCD500または、FCD700     直径22?の丸棒です  砥石寸法 外径405×25.4×T4(フェノール系結合材)  クランプ方法 片方でクランプしています。(両方クランプは、設備構造上不可)  クランプと砥石の距離 17?  切断条件 周速 60m/s 送り速度 10?/s 斜めにまがる寸法は約1?ぐらいです、平行にまっすぐな面にしたいのです すみません、ご回答をお願いします。

  • 統計の分析方法について。

    授業で質問紙を実施し、統計で分析をするのですが、どの分析方法で行えばいいかわからず困っています。 私がやろうとしていることは、まず、状態不安尺度を実施⇒不安が喚起されるような出来事・安心感が喚起するような出来事を実験により与える⇒再度、状態不安尺度を実施し、不安喚起条件群と安心喚起条件群それぞれの状態不安がどう変化するかをみたいと思っています。 この分析は出来事(不安・安心)×状態不安尺度測定時期(前・後)の2要因2水準の分散分析でよいのでしょうか? また、不安喚起・安心喚起によって状態不安が変動する人・しない人の個人特定をみるために、MPIという質問紙も実施したいのですが(一回目の状態不安を測る時に、一緒にMPIも実施します)、この場合は、どういった分析方法で分析すれば良いでしょうか? ちなみに、私は統計が苦手です・・・ですが、まず質問紙を取る前に、取り終わった後にどのように分析するか、きちんと決めてから調査を行いたいと思っています。 すでに書きましたが、私は統計がかなり苦手なので、わかりやすく回答していただけたらと思います。 よろしくお願いします。

  • 対応のある分散分析

    同性友人と異性に対する自己呈示に関する調査を行いました。 同性友人に関する質問を全員に回答してもらい、 同じ質問事項でA群には異性友人に対して、B群には恋人に対しての質問にも回答してもらいました。 同性友人・異性友人について回答した人 同性友人・恋人について回答した人が半数ずついるということです。 恋人・異性友人の比較と同性友人・異性全体の比較はできるのですが 同性友人・異性友人or同性友人・恋人の比較はできないでしょうか? ケース選択してしまうと全ての同性友人について分析ができず、どうすればいいかわかりません。 やり方をご存知の方がいましたら、よろしくお願いいたします。

  • アンケート結果の分析方法についての質問です。

    看護研究でアンケート調査を実施する予定なのですが、分析方法が分かりません。統計学に詳しい方には初歩的なことで、呆れてしまうかもしれませんが、教えていただけると嬉しいです。 特定の集団に対して、ある症状について、ある人とない人に分け、その症状を誘発するといわれている要因について「よくある」から「全くない」の4群で回答、その症状から起こるといわれている身体的苦痛について「よくある」から「全くない」で回答、それぞれの関連を調べたいのです。 証明したいのは、この特定の集団が、ある症状になり易く、誘発する要因を多く持ち、身体的苦痛も多くあるということです。 分かりにくい説明だったら追加で説明したいと思います。よろしくお願いします。

  • 夏休みの自由研究についてアドバイスを下さい

    私は中学2年生です。 理科の夏休みの宿題で自由研究が出たのですが、 先生が出した条件であてはまるものがなかなか思い浮かびません。 この条件でなにかいいものはあるでしょうか? (1)図、グラフなどが中に入っている (2)オリジナリティあふれるものになっている (3)調査が科学的に行われていて、結果の分析や表示が的確で  科学的・理科的にまとめ、考察をし文献と比較しながらまとめられるもの (4)調査を実際に行えるもの 難易度は、できるだけハイレベルなものがいいです。 また、長期的に実験をするものだと、よりいいです。 たくさん条件がありますがご回答宜しくお願いいたします。