• ベストアンサー

Rでクラスター分析

Rでクラスター分析を行いたいですが、距離とそのノードが持つ特性の2つで クラスター化してやりたいと考えています。 Rのクラスター分析では、もともと用意されている距離の尺度以外に 自分で導入した尺度でクラスター化してやることは可能でしょうか。 プログラミングの経験はありますが、Rのプログラミングには まだ知識がありません。 よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

ご質問の意図は、 (1)各標本間の距離行列は与えられている(この場合はこのままRで解析可能)。 (2)これに加えて、自分で導入した尺度があり、変数が増えている。 ということですね。 (1)を算出した元となった変数行列はありますか。 それがあれば、自分の変数を加えて、再度「dist」で距離行列を 算出し直して、「hclust」でクラスター分析をすればよいです。 具体的なスクリプトが必要な時は、データの一部をアップして下さい。 元の変数行列が無い時は、ちょっとアイディアが浮かびません。

関連するQ&A

  • 因子分析の結果、因子得点を使ったクラスタリングを行う際について

    広く一般的には、因子得点を階層分類(ウォード)や非階層分類(k-means)などを通してクラスター分析することが通例だと思いますが、質問です。 仮に因子分析の結果、4因子を抽出することができたとして、当然ですが各レコード(回答者)には4つの因子得点が付与されることになります。ここでレコードを分類(クラスタリング)する際、上記のような通例のクラスター分析を行わず、『単に、4因子をそのままクラスター特性と見なし、各レコードが持つ4因子得点のうち、最も高い得点をもつ因子(ここではそのままクラスター)に強制的に所属させる』という手法を用いた場合、どのような懸案が考えられるのでしょうか。 結果を解釈する上で、把握しておかなくてはいけない背景や知識があれば、と思います。 もっとも、因子分析ですとかクラスター分析の解釈自体が主観的なものですし、数学的・解析的に問題は無いと思いますが、ご意見伺いたいと思います。 勿論、最大値をとるとなると正の値に着目することになるので、負の値が特性を持つ場合に、その特性を無視してしまう、ということは承知の上です。 ただし、階層分類等を用いると、「因子得点が4つとも低いグループ」「因子得点が4つとも高いグループ」といった分類結果が見受けられ、クラスターの特性として傾向を見せにくい(「このクラスターはすべての因子に反応」とか「すべての因子に反応しない」など)ことが多々ありますので、このような質問をしている次第です。 有識者の方、ご意見をいただけれると幸いです。

  • R言語で統計分析を始めたい

    カテゴリ違いかもしれませんが、 ここなら適切な回答を頂けると思い質問します。 本日ちょっとした出来事がありまして統計分析とR言語に強烈な興味をもちました。 しかし、残念ながら中学の数学もろくにできないような人間ですので 統計学を学ぶにはどの位のレベルの数学知識が必要かが知りたいです。 今目標としているのは財務省が発表している輸出入貿易統計を使って 今後どの国に何を輸出したらよいかという指標を自分で算出したいと思います。 データ参照元↓(財務省統計ページ) http://www.e-stat.go.jp/SG1/estat/List.do?lid=000001100843 こういった予測をするのに必要な数学レベルを教えてください そこから統計分析、R言語と進んで行けたらと思います。 よろしくお願いします。 余談ですが英語が読めたりコピペでVBAプログラムを多少作る事はできます。

  • 尺度作成で因子分析の斜交回転を利用することは不合理では?

    僕は、尺度作成で因子分析の斜交回転を利用することは不合理であり、尺度は直交のほうがいいと思うのですが、斜交回転が基本というのが最近の心理学の主流だということで、困っています。どうしたらいいでしょうか。 僕は、心理学者ではないのですが(理系で実学系の人間です)、最近ある分野での個人の特徴を示す尺度を作るために、心理学者の友人と一緒に仕事をしています。ネットで検索すると確かに最近の心理学では以下のような主張があるようです。 1. 直交するという前提に無理があって,たいていの要因は多かれ少なかれ相関している。直交回転では、心理学的な意味は、回転結果にはないと考えるべきである。 2.因子間相関の大きさを集団間で固定した解を計算するには、共分散構造分析を使用しなければならない。 しかしこれでは、共分散構造分析をできる人しか使えないような尺度になってしまうので、これらは本来モデル作成のための議論であって、そのモデルを離れて広く利用されるための尺度作成の議論ではないと思います。直行尺度なら、もっと簡単に扱えるので、尺度としての幅広い応用性があると思います。 たとえば、多重共線性を考えずに単純な重回帰分析にかけることもできます。それに関連した応用面を言えば、採否基準になどに合成得点を求める際も、因子に相関があると単純な加重和を求めることは無意味になります。 また、たとえば2次元の単純なマッピングを行ってセグメントを分けるということは人間がよくやることですが、これはそもそもその2次元が独立であることを暗黙の前提に行っていると思います。たとえば、地図を作る際に、方位が独立でない地図を作ったら混乱するでしょう。確かに、日本では北に行くほど東に行くので、東-西(表日本-裏日本)と東北-西南という2つの斜交する方位を使うと便利なような気がします。しかし、そんな地図はどこを探してもうっていません。利用者が誤解・混乱するからです。 多変量解析はアルゴリズムとしては単純なものですが、それでも最終的な利用者(結果レポートを読む実務家)には難しいもので、特に因子分析の解釈は最終利用者の誤解を招きやすいことは、実務の経験のある方ならよくご存知だと思います。利用者の誤解・混乱を助長するような斜交軸の利用は、避けるほうが賢明ではないでしょうか。 そもそも、直交するという前提に無理があるというなら、線形だという前提のほうがもっと無理があるでしょう。その場合は非線形な解析をするほうがいいのでしょうが、たとえば決定木分析を行うことを考えると、上位ノードで選ばれた因子と相関する因子は下位ノードで選ばれずに剪定されてしまう可能性が高く、複数の因子を準備する意味が希薄化します。 もちろん、因子付加量の高い項目を単純に足すことで各因子に相当する近似得点を簡単に求めることは、直行であれ斜交であれ、因子と項目の相関が十分に高ければできることです。しかし、その近似得点の使い方が簡単かつ意味のあるものでなければ、実務に供することができないと思うのです。TEGやBig Fiveがあれだけ広く使われているのも、直交尺度を提供しているからだと思います。実学・実務の観点から言えば、直行のほうがいいような気がしています。実際、日経などのメディアではいまでもバリマックス回転が主流のようです。 このあたり、どう考えたらいいかアイディアのある方お教えください。どうぞよろしくお願いします。

  • 心理面から見た「自己分析」が行えるサービスはある?

    はじめまして、質問させて下さい。 現在 メンタル面で非常に悩んでいます。 臨床心理士さんにカウンセリングを受けたり、 精神科医にくすりを処方されたりしています。 本題です。 私はいま自分自身の事が自分でもわからず、 「自己分析」を行っています。 ですが、書店やインターネットで見かけるのは 【就職に役立つ!】……といったものばかりで、 【心理面から見た自己分析】が見つかりません。 私が以前行ったことがある「R-Cap」という自己分析診断があります。 こちらは有料でしたが、質問数が200以上あり、 当時 学生だった私はとても参考になりました。 ■R-Cap: http://r-cap.riasec.co.jp/01read.html たとえばの話しですが、  【1】 幼少期にこういう経験をした  【2】 母、または父親にこういわれた  【3】 現在 風邪をひきやすい  【4】 とても心配性だ  …という感じで、質問に答えると自己分析が出来るサービスはないのでしょうか… 有料/無料は問いません。 ご自身で参考になったサイトやサービスをご存じでしたら、 是非教えて頂きたいです。 よろしくお願いします。

  • 調査、分析能力を発揮したい。就職したい。

    はじめまして、自分は24歳の男です。相談したい事、それは自分の30歳以降の職業や雇用についてです。 自分は、調査、分析をする事が大好きです。インターネットを使い、調べていると、一日中調べていても、全然苦痛でないし、ストレスにも感じないし、そして調べ事をしている時間が楽しいです。 そこで、質問です。 俺は、調査分析能力を存分に発揮できる職業に就きたいです。 今現在高卒な為、30歳位で大学卒業、もしくは三十半ば位で修士課程まで学んだとして、 それまでに、正社員としての社会人経験の無い30過ぎの人物でも、 何らかの専門的な知識を学びさえすれば、調査分析を活かせる職種において企業に雇用されるチャンスはあると思いますか? 本当の事を教えてください。励ますのとかどうでもいいです。社会の本当の事が俺は知りたいです。厳しいならはっきり教えて下さい。そして、希望を持っていいようなら、30過ぎ未経験でも可能な業種をはっきり教えて下さい。 俺がなんの業種に興味があるかなんてそんな事聞かないで下さい。何故なら、調査分析が出来る仕事に就けるのなら、俺は自分からは業種は限定しませんから。 知りたい事は、30過ぎて未経験でも、調査分析能力を活かせるような業種、職業、資格は存在しますか? あるならそれは何ですか?真剣に悩んでいます。どうか宜しくお願いします。

  • 統計解析ソフト「R」と「SAS」の違いにつて。

    15年ほど前に以前勤めていた証券会社で「SAS」を使って4年ほどプログラミングしていました。主に経済指標と株式市場動向の分析や財務データ等から株式のスクリーニングなどもやっていました。今後は統計学もきちんと勉強しなおして計量経済学を中心にやっていこうと考えております。個人として統計解析ソフトを利用するつもりですがsasはさすがに値段が高く導入できそうにありません。そこで「R」のことを耳にしました。基本的にフリーのソフトだとゆうことですが、プログラミング(コード)の違いは「sas」と比べてあるのでしょうか。一度sasを身に着けていれば比較的楽に「R」はマスターできるものでしょうか。また他のデータベースソフト(excel,access,MySqlなど)のデータのやり取り簡単にできるのでしょうか。お教えください。

  • 私の心理を分析してください。

    職場に大嫌いなんですが存在が気になってしょうがない人がいます。私は他人とはあまり深く付き合わず敵を作らないタイプで、彼女以外に嫌いな人はいません。一つ年上で10年以上の先輩ですが仕事が出来ません。常に自分の気持ちと行動を実況中継してるようなひとで、コピー一つでも「えーと、えーよん、いちまい、よしっ」「忘れ物ないな よしっ」・・・無言でいることが怖いみたいで、苦手な人(私)にも一生懸命話掛けてきます。一般的には絵に描いたようないい人なんです。苦手な人とは距離を置いてお付き合いが出来る自分なのに、彼女だけは存在自体が許せないんです。なぜこんな気持ちになるんでしょうか。私の心理を分析してください。

  • クラスター分析について

    (1)階層型について:デンドログラムの図から、そのクラスター分けの信頼性、妥当性の判断というものができるかどうか (2)非階層型について:K-means法の具体例やデータはありませんでしょうか。URLもしくはこのようにやったら良いなどの方法、資料などありましたら教えてください。

  • クラスター分析について

    はじめまして。 クラスター分析について最近勉強を始めたところです。似たもの同士をくっつけていくというイメージはできましたが、類似度の測定方法やクラスターの合併方法がたくさんありすぎて困っています。そこで、 (1)どうゆう時にどの方法を使うのが効果的なのか? (2)各測定方法、合併方法を使う時の利点と弊害は? 以上2点についてやさしく教えて下さい。 また、詳しく分かりやすく説明してある文献があれば 紹介して下さい。 よろしくお願い致します。

  • ShopifyにサブスクのECサイトを構築するには

    Shopifyにサブスクリプション(定期購入)を導入するには、プログラミングの知識が必要でしょうか? Shopify以外にもおすすめの構築方法はありますでしょうか?