主成分分析の使い方について

2014/02/02 13:45

このQ&Aのポイント

主成分分析を使用して農地の機能を集約化する方法について学生が質問しています。
アンケート結果を中間順位法で変換し、主成分分析とVARIMAX回転を行い、因子負荷量によるクラスター分析を行っています。
結果として、29種類の機能が8種類に集約され、機能の性質に関する一般的な感覚を反映したクラスターに分類されました。

guchokun
お礼率100% (3/3)

数学・算数
回答数3
ありがとう数3

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

stomachman
ベストアンサー率57% (1014/1775)

2014/02/04 11:40 回答No.3

　「農地が持つ29種類の機能を集約化すること」という言葉につられて、様々な農地をその特性に従って分類を行う話だと思っていましたが、どうやらそうではないらしい。　辻褄の合う説明はこれしかなさそうだと思いました：すなわち、アンケートは「一般的に、農地には以下に挙げた機能があると思いますか？」というものだった。違いますかね？　だから「分からない」という選択肢は必要ないと考えた。欠測があるとデータ処理が難しくなるし。ところが、（環境学を知る者にとっては答は明らかだと思う項目なのに）回答がものすごくばらついた質問項目があった。すると、主成分分析で得られる第1因子は、その質問項目と強い相関を持つ。しょうがないんで、こういう項目は「機能評価を人に求めることに無理があった（つまり、「あいつらには難しすぎて分からないのだろう」）」と（根拠もなしに）解釈して、恣意的に捨てた。　ということは、これは、29個の単語が「『一般的な農地』に関係がある」と思うかどうかに従って被験者（行政職員、農協職員、森林組合職員）を分類するためのアンケートであり、つまり「環境学実力テスト」に他ならない。それをへたくそにやったのだろう。　実力テストを適切にやるにはどうしたらいいでしょうか。　まず『一般的な農地』なんてものはないのであり、そう言われて想起する農地が人によってばらつくのでは、テストとして成立しない。どういう農地の話をするのか、はっきりさせないと駄目でしょう。　また、テストなんだから、「環境学の定説において農地が持つとされる29種類の機能」だけを並べたのでは、ちょっとカンが良ければ「正解」が容易に推察できてしまう。なので、有益な「機能」だけでなく「弊害」も入れておかねばならない。同じことを表現するにも、（たとえば「危険な害虫を減らす」と「昆虫の多様性を損なう」のように）ポジティブな言い方を使うか、ネガティブな言い方をするかで、結果が違ってきたりしますから、両方入れておく。ほとんど同じことを逆に表現した項目（たとえば「保水する機能がある」と「雨水をすばやく川に流す機能がある」など）も入れておく（両者の差を得点とすれば良いんです）。もちろん、回答者の特性を簡単に識別できて、かつ、テストと相関しそうだと期待される属性（職種、経験年数、役職、学歴、etc）を調べる質問項目も不可欠である。　そうすれば、回答者を分類できるようになります。回答者の属性の中で、どの項目が総合得点と相関するかを調べて分類し、それぞれのグループについて傾向を見る。さらに、質問項目を少数の因子で分類した上で、属性と各因子との相関を重回帰分析で見たり、因子空間に散布した回答者が幾つかのグループに（ぼんやりとでも）分離してくるかを見るなど。　その結果が、たとえば（あくまで「たとえば」ですよ）「農協の事務職は<ポジティブな単語を含む項目>には「ある」、<ネガティブな単語を含む項目>には「ない」と答える傾向がある（これは、コトバの印象だけで判断しているからだろう）」だの、「森林組合の管理職は、<文化・教育機能＞＜環境保護機能＞を正しく認識している一方で、<経済的機能>や<治安・国防的機能＞についてはランダムに答える傾向がある（そんなことを考えたこともないのだろう）」というような観察に繋がると、誰に向けてはどういう教育宣伝が必要だ、と提言するなどの議論が出来るでしょう。　その議論をするために、質問項目をクラスター分析して幾つかに集約し、適切な解釈に基づいてラベル（上記の< >のこと）を付けるのは意味があるでしょう。ただし、そのクラスターは、あくまでも、限定された被験者に見られた差異の構造を説明するために質問項目を分類したものであって、「機能」の概念自体が持つ構造を表しているのでは全然ない。別の被験者群でやれば、また、別のテスト問題をやれば、同じクラスター分類になるとは限らない。このことは強く意識されねばなりません。　なので、質問項目のクラスター分析なんかしないで、専門知識に基づいて（「定性的」に）質問項目を分類してラベル付けしておいても（って、<ネガティブな単語を含む項目>を識別するのは誰にとっても容易ですが）差し支えないばかりか、複数回のテストを比較する上で有用だろうと思われます。　ところで、様々な農地が持つ様々な機能について「ある機能を強く持つ農地が他のある機能も強く持つ」のような相関からクラスター分析をするのなら、データ収集はアンケートじゃなくて、専門知識に基づいた実地調査によるのでなくてはね。

質問者

お礼 2014/02/05 23:28

ご回答ありがとうございました。実力テストを行う際の留意点までお教えいただき感謝いたします。特に、ネガティブな質問とポジティブな質問の両方を含めることによって、コトバの印象による影響と、テストしたい「認識の度合い」を判別するという点が、とても勉強になりました。また、「そのクラスターは、あくまでも、限定された被験者に見られた差異の構造を説明するために質問項目を分類したものであって、「機能」の概念自体が持つ構造を表しているのでは全然ない。」という分析をしていただいたことで、この論文中の「機能は８クラスタに集約される。」などの表現は適切でないという点に確信が得られました。今回の質問を通じてお教えいただいた批判的な視点の大切さを忘れず、将来、正確な論文が書ける人になれるよう精進いたします。本当にありがとうございました。

その他の回答 (2)

stomachman
ベストアンサー率57% (1014/1775)

2014/02/03 13:20 回答No.2

ANo.1へのコメントについてです。 > アンケートの被験者は行政職員、農協職員、森林組合職員　変な話ですね。たとえば行政職員は一体どういう農地について回答したんでしょうね。 > 他の論文で定性的に農地等の機能を分類した事例と、この論文の分類結果が > あまりに良く似ています。　仮に（たとえばガクシャや行政やマスコミを介して）「農地についての物の見方」（つまり「常識」、おおげさに言うなら「パラダイム」。いや本来の意味とはちょっと違うんですが）というものが社会的にある程度固定化しているとすれば、アンケートの項目として「常識的な見方」に沿うような「機能」の文言を並べ立てるのはサモアリナンといった所でしょう。（もしかすると、そのリストは他の文献から拝借したものかも知れませんが。）　すると、農地について特に見識を持たない人々がそれら「機能」の概念（てか、定義が不明確ならただの名称に過ぎませんが）についていだくであろう印象は、当然、連想される社会的常識によって決まるでしょう。（ANo.1でも農地の立地の話をしました。）だから、アンケートを取って分析すれば、常識の中に含まれる構造が現れるに違いない。他の文献で「定性的分析」（仰っているのは、データに基づかない分析という意味でしょうか。ホントは定量分析の上に成立つものなんですが）を行った結果も、おそらくこの常識に強くコミットしたものになるでしょうから、類似するのは当然です。　さらに、ANo.1で指摘した通り、アンケートや因子分析やクラスター分析では、サジ加減をする余地が多々あります。もしかすると、結果が「定説」なり「常識」なりに合うようにわざわざ調節なさったのかも知れない。　先取りした結論に合わせて結果をねじ曲げるのは、ことに教育学・社会科学（社会学は論外）などでしばしば見かけますが、環境科学でも「地球温暖化が事実かどうか」という大問題を巡って同じことが行われて問題になったのでした。 ANo.1に多々あるミスプリのうち、余りに酷いやつだけ修正しておきます。 > 　さて、個々の「機能」につてそのような「切り捨て」が生じるかどうかには、アンケートにどの「機能」を並べるか、その選び方が非常に強い影響を受けます。訂正：　さて、個々の「機能」についてそのような「切り捨て」が生じるかどうかは、アンケートにどの「機能」を並べるか、その選び方から非常に強い影響を受けます。

質問者

お礼 2014/02/03 23:15

コメント、ありがとうございました。今回は、分析方法だけでなく研究する上で必要な批判的な観点を学ばせていただきました。論文を読むときだけでなく、今後、自分で論文を書く場合にも、「本当にそれが言えているのか。」ということを、繰り返し自分に問いかけるようにしたいと思います。本当にありがとうございました。

stomachman
ベストアンサー率57% (1014/1775)

2014/02/02 17:35 回答No.1

> “感じ方の傾向”と、“機能の性質”は別のこと　すばらしい。実に仰る通りです。論文は “感じ方の傾向”を分類する作業をした、ということに他ならない。　しかし、それが一体何をやったことになるのかは、“感じ方の傾向”が農地の実際をどれほど反映しているかによる。分析のヤリカタの詳細を分析してみる必要があります。そして、そのヤリカタがよほどよく出来ているのでない限り、論文の調査は「農地についての事実を分類したのではなく、（「植物保護機能」、「動物保護機能」、「土壌微生物保護」などの）コトバから受ける印象を分類しただけ」という疑いがあります。 [1] 最も重要なのはアンケート調査そのもののヤリカタです。データの品質が悪ければゴミしか出てきません（Garbage in, garbage out）。　仮に、個々の「機能」に具体的な指標で示された定義があるのなら、定性的な測定方法として「実地での感じ」を使うのも、無意味とまでは言えないでしょう。だから、「“感じ方の傾向”を測ってるから駄目」とただちに切り捨てるわけにはいかない。　大抵の農地オーナーは29種類もの「機能」を日々意識している訳ではないでしょう。だから、質問用紙を読んで定義を理解した上で、そこに書かれた具体的な指標と自分の経験とを照らし合わせ、（いくつかの項目については）それが自分の土地に当て嵌まりそうかどうか答えることになります。また、経験的根拠がない項目については「分からない」と答えなくてはいけません。　ところが、ご質問の調査はどうやら「分からない」（欠測）の選択肢を含まない5段階評価のようですから、「分からない」と答えるべき時には想像で答を選ぶことになる。これじゃ、ノイズだらけの品質の悪いデータになってしまうでしょう。　一方、仮に、各「機能」の定義が明確でなくて経験に基づいた判定ができないようなものであったなら、それは農地についての調査になっていないでしょう。つまり、単語から受ける印象を分類したのである。　さて、ご質問にある「機能」は（その単語の一般的な意味から受ける印象としては、ですが）役に立ちそうな具体的指標が与えられるかどうか、はなはだ怪しい。たとえば「精神安定化機能」の体的な指標は「この農地に来てから、不安神経症が治った人がいる」とか？他の「機能」についても同様です。　もし、ほとんどの「機能」について、データのほとんどが印象や想像で答えたものばかりだったとすれば、農地オーナーに尋ねるまでもなく、テキトーな人にいろんな農地の写真でも見せてアンケートに記入して貰うのだって、同様の調査はできるでしょう。たとえば「ほとんど荒れ地」「広大な水田地帯」「山の中の棚田」「都市の中の小さな畑」などの立地条件を指定すると、それぞれの「機能」がありそうかどうかについて多くの人が類似した答を出すんじゃないでしょうか。（ですから、「同じ単語から受ける印象が、日常的に農地に触れる人とそうでない人とでどれほど違うか」を分析する方がよっぽど意義がありそうです。） [2] 数値的な分析方法について。　29種類の「機能」を因子に変換しています。個々の「機能」の「独自性」を切り落として「共通性（他の機能と相関を持つ成分）」だけを抽出した。ここでは、各「機能」の変動が共通因子によってどれだけ説明されるかがポイントです。もし、ある「機能」が共通因子の線形結合でほとんど説明できるのなら、独自性成分はあまり重要でないと言えましょう。しかし、共通因子であまり説明できない「機能」については、その「機能」特有の意味を切り捨てる、というのが主成分分析の結果です。　さて、個々の「機能」につてそのような「切り捨て」が生じるかどうかには、アンケートにどの「機能」を並べるか、その選び方が非常に強い影響を受けます。たとえば、他のどの「機能」ともあまり関係のない、文字通り独自な「機能」が単独で含まれていれば、それは他の「機能」とほとんど相関しないので、共通因子によって少ししか説明できない。だから、この「機能」については事実上無視されるわけです。しかし、その「機能」を単独で入れるのではなしに、（実際の農地の機能なら）類似した具体的指標を持つ複数の「機能」、（言葉の話なら）類似した語感・印象を持つ「機能」、あるいは逆に、互いに両立しそうにない「機能」を複数個選んでおけば、それら同士が強い相関（正にせよ負にせよ）を示すために、共通因子が得られ易くなります。　共通因子のうち上位10個を取り出しています。変数がたった29種類しかななら、経験的には選ぶ因子は2～3個がせいぜいだと思われます。なのになぜ10個も選んだのか。明確な判定基準があって選んだ結果なのかどうか。もしかすると「クラスター分析がうまく行くようにいろいろ試した結果10個が丁度良かった」というだけかも知れません。それどころか「因子の個数が少ないと、それだけで分類が終わってしまって、クラスター分析の出番がなかった」のかもしれない（「クラスター分析を使う」ということこそが論文の目的？というゲスの勘ぐりですが）。　次に、この10次元空間に「機能」を散布した（10次元空間に29個ですから、もう、本当にスッカスカです）。そして他の「機能」との類似性を調べたわけです。すると、「機能」の「独自性」を無視し「共通性」だけに着目すると、相互に比較的強い正の相関があるもの同士のグループが8個できた。　これをどうひいき目に見たって、「29種類の機能は8種類に集約された」という結論にはならんでしょう。「29種類の機能のうち共通因子の寄与が少ないものは、それぞれ独自の意味を持つ機能である。なお、共通因子については8個のグループに分かれた」と言うのでなくてはね。（ところで、抽出された8つのクラスターは、農地の立地条件（上記のような）と強く相関していそうだと予想しますが、さて実際はどうでしょうね。） > 植物保護機能、動物保護機能、土壌微生物保護機能などが「生物・生態系保全」のクラスターに含まれ、情操教育と精神安定化などが「保健休養」のクラスターに含まれる　この部分、ちょっと心配ですんで（余計かもしれないが）説明します。　クラスター分析の結果は単に「クラスター1」、「クラスター2」、…という区別ができるだけであり、「生物・生態系保全」なんて名称が決まるわけじゃありません。そして、各クラスターが持つ意味は、そのクラスターの構成要素から「主観的に感じ取れる」以上のものではありません。　で、論文の著者が主観的に感じ取ったところをクラスターのタグ（区別のための目印）として付けたのがクラスターの名称です。だから、名称が持つ機能は、「このクラスター」ということを指定するだけのことであり、それを「クラスター1」と呼ぶのと何ら違いはありません。もちろん、主成分分析で出て来る因子に名称を付けるのも全く同じことで、ただのタグです。　ですから、もし「クラスターの名称の意味やイメージから、そのクラスターの意味を理解する」という風にやったら、完全に本末転倒です。（この誤りが生じ易いので、ただのタグであるべきものに意味ありげな名称を使うという手は、心理学・教育学・社会学などにおいて、他者の意見をもっともらしく誘導するのにしばしば利用されます。） > 機能の性質に関する一般的な感覚を反映したものになっていました。　「一般的な感覚」が質問者氏の感覚と一致しているかどうかについては、根拠があるのかどうかご質問からは分かりません。が、少なくとも論文の著者が感じ取ったところと、同じデータから質問者氏が感じ取ったところが、そこそこ一致しているように（質問者氏には）思われた、ということなのでしょう。　しかしそれが、上記のような誘導に引っ掛かった結果ではないかどうか、もう一度お考えになるべきかと思います。

質問者

お礼 2014/02/03 00:16

ご回答ありがとうございます。こんなに詳細にお教えいただき、心から感謝いたします。最初に、「一般的な感覚を反映したものになっていました。」という表現に関するご指摘、ありがとうございます。私の主観を勝手に「一般的」と言ってしまうのは良くないですね。気をつけます。　また、不勉強でお恥ずかしいのですが、クラスターや主成分分析で出てくる因子に名称がつけられていても、これまで疑問を感じていませんでした。結果と解釈はきちっと分けて考えなければなりませんね。ご指導に感謝します。 [1]アンケート調査に関して。勉強のため、回答者様にご指摘いただきましたポイントを確認してみましたが、やはり、回答者様のおっしゃるように“感じ方の傾向”を分類する作業をした論文だと考えた方がよさそうです。【被験者】（アンケートの被験者についての説明が不足しておりすみません。）アンケートの被験者は行政職員、農協職員、森林組合職員であり、理由は、1)対象地域の農林地の状況を想起できる。2)機能の内容を理解できる。という趣旨が書かれています。事務職などいろいろな方がいらっしゃることを考えると、やはり、経験に基づいた判定というよりは、印象や想像が問われたアンケートであったと考えた方がよさそうです。【機能】個々の機能に具体的な指標が設けられているとは書かれていませんでした。また、質問用紙には機能の内容に関する説明があるとのことでしたが、機能には「大気組成調節」などの機能もあり、経験に基づいた判定は難しいと思われます。やはり、印象や想像を尋ねたアンケートだということになります。【選択肢】回答者様のおっしゃるとおり、被験者に経験的根拠がない場合も想定され、「分からない。」という選択肢が不可欠だと思います。 [2] 数値的な分析方法について。勉強のため、ご指摘のポイントを確認してみました。・共通因子であまり説明できない「機能」については、集約化できない機能があることが述べられていましたが、その機能評価を人に求めることに無理があったため、その検討対象から除いた。というようなことが書かれており、よく分かりませんでした。・因子の選択については、「第10因子までの固有値が1を超えている。」とありました。変数29でなぜ10もあるのかは、よく分かりませんでした。ご回答により、この論文の分析方法には問題があるということが分かりました。また、今回のご回答で、将来、主成分分析やクラスター分析を行う際に、注意すべき点が分かり勉強になりました。本当にありがとうございました。他の論文で定性的に農地等の機能を分類した事例と、この論文の分類結果があまりに良く似ています。私には、未だに、このことが気になってしまいます。。推察ではありますが、たとえ、この論文が、アンケートの問題点や分析方法の問題点をクリアした研究であったとしても、“感じ方の傾向”を数値分類した結果は、他の論文による定性的な分類結果とはそれほど一致しないという気がしてしまうのです。。。

主成分分析の使い方について

主成分分析の使い方について