• 締切済み

影響の大きさを示す統計分析方法について

スペースお借りします! 現在施設配置に関する統計調査をしており、配置が何に影響を受けているか計算式で示そうと考えています。 施設中心のボロノイ図を書き、エリアに含まれる全人数と15歳以下の人数を計測しました。 現在手元には1分割あたり(1施設あたり)がカバーしている人数・15歳以下の人数・エリア面積のデータがある状態です。 ここから、全人口と15歳以下の人口どちらが施設の配置に影響を与えているか推測したいのですが、 何かよい方法はないかアドバイスいただけませんでしょうか? 単純に考えれば、1施設毎に分割しているので分割に含まれる人口にばらつきが小さければ小さい程 影響を与えていると言えるのかな?とも思っているのですが、 片方は全人口・もう片方は年齢を区切った人口のためばらつきも桁違いになってしまい、 比較しようがない状態です… 統計に関して不勉強のため、既におかしな事をしているかもしれないのですが、 なんでもアドバイス等頂けますと幸いです。 よろしくおねがいいたします。

  • emiom
  • お礼率58% (10/17)

みんなの回答

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 「現時点でのコドモの数によって施設の配置が決まっている」という発想自体、もしかすると危ういんじゃないだろうか。というのは、もしかすると「過去のコドモの数」によって決まったのかも知れないでしょ。施設が安価に簡単に設置できるものなのかどうか。そうでない場合、ほかの目的に容易に転用可能なものかどうか、寿命が何年ぐらいか、築後何年経過しているか、などは考慮されているのだろうか。  施設の性格によっては(たとえばイナカの小学校を考えると)、時間的ボロノイ図(空間的距離ではなく、移動時間を尺度として地域を分割したもの)における半径(最寄りの施設に徒歩などの手段で到達するのに掛かる時間の最大値)があまり大きくならないように施設を設置することも考えられます。この場合、義務教育の平等性を担保するのが目的なので、施設を利用する人数はあまり重要ではないでしょう。また、民営スポーツクラブのようなものなら親が送り迎えするのがむしろ普通であり、距離もさることながら、設備の良さや営業時間帯の長さの方が重要な選択要因になる。そういう場合、ボロノイ図はあまり良いモデルにはならないでしょう。  ところで、どの区画においても「全人口に占める15歳以下の比率」にさしたる違いがないとすれば、お持ちのデータはご質問のような理論を支持する証拠にはなりえない。(全人口なのか15歳以下の人口なのか、どっちの影響なんだか区別が不可能である。)逆に言えば、「子供の比率が少ない区画や、多い区画、というものがある」ということこそが重要な前提です。もし、子供の比率のばらつきが小さいようでは、データはほとんどノイズばかりということです。  ま、それはさておき。  大変な集計作業をなさって得られたデータを使ってみましょう。区画の数をN, 調査対象の全人口をP、15歳未満の全人口をYとし、   x[k] = (区画k内の人口)N/P-1   y[k] = (区画k内の15歳以下の人口)N/Y-1 とする。このとき、 理論A「x[k]はkによらずおおむね一定」 理論B「y[k]はkによらずおおむね一定」 のどっちがもっともらしいか、という話です。  もし、区画がランダムに選ばれた場合(たとえば、地図にダーツを2本投げて、1本目を中心とし、1本目と2本目の距離を半径とする円を描いてひとつの区画とする、というやり方でN個の区画を決めた場合)には、理論A,B共に成り立たず、しかしx[k]とy[k]は強く相関している(x[k]が大きいほどy[k]も大きいという傾向がある)に違いないから、横軸x、縦軸yとしてN個の点(x[k], y[k])をプロットした散布図は、おおむね右上がり45度に延びた紡錘形になるでしょう。言い換えれば、この散布図を、原点を中心として角度θだけ回転したもの   (X[k], Y[k]) = (x[k]cosθ-y[k]sinθ, x[k]sinθ+y[k]cosθ) を考え、θを調節してXの分散が最大(横長の紡錘形)になるようにしてやると、その時の回転角θはほぼ45度である。  つまりこの回転角θが45度に近いようなら、理論A,Bはどっちももっともらしくない。でも、もしθが0度に近いのなら、理論Aがもっともらしい。もしθが90度に近いのなら、理論Bがもっともらしい。また、もし散布図がダンゴ状態で、回転したところでさして違いがないのなら、子供の比率のばらつきが少なすぎてデータはほとんどノイズだけでできている。  ですから散布図を描いてみれば、お考えの理論A, Bがもっともらしいかどうか、それらをお持ちのデータで検討できそうかを、とりあえず視察することができるでしょう。  この回転角θをどうやって正確に計算するかというと、固有値ってものを使います。   A[1,1]=Σ((x[k])^2), A[1,2] = Σ(x[k]y[k]),   A[2,1]=Σ(x[k]y[k]), A[2,2] = Σ((y[k])^2) という2行2列の行列を作り、(Σはk=1~Nの総和。A[1,2]=A[2,1]です)   Ap = λp という方程式を解く。λは実数、pは2次元ベクトルです。要素で表せばこの方程式は   (A[1,1]-λ)p[1]+A[1,2]p[2] = 0   A[2,1]p[1]+(A[2,2]-λ)p[2] = 0 という連立方程式である。これが解を持つためにはλは   (A[1,1]-λ)(A[2,2]-λ)-A[1,2]A[2,1]=0 というλに関する二次方程式を満たさねばならない。この二次方程式の二つの解λ[1]. λ[2]が固有値です。(ここで、λ[1]とλ[2]が近い値である場合、散布図はダンゴ状態になっていて、正確なθなんてものはさしたる意味を持たない。)大きい方の解λ[1]について、   (A[1,1]-λ[1])p[1]^2=(A[2,2]-λ[1])p[2]^2 という関係式からベクトルpの方向が決まる。これを固有ベクトルと言います。で、pの方向がX軸になるように回転してやれば良い。つまり   (tanθ)^2 = (A[1,1]-λ[1])/(A[2,2]-λ[1]) です。

関連するQ&A

  • 製品の統計について

    統計についてお伺いしたい事があります。 製品の強度規格の設定で、一定の下限値より大きければ、上限については問題がないという条件で、統計を出したいのですが、どのような統計を用いればよろしいでしょうか? 現在、標準偏差の使用を試みたのですが、うまくいきませんでした。 引っ張り強度についての条件設定を検討しておりますが、N=40で試験を行った時、150N~398Nとばらつきが存在致しました。 下限条件として150N以上という設定を行おうと考えましたが、平均値-3σの値は非常に小さくなり、平均値から逸脱した値を用いずに計算を行っても、平均値-3σの値はなかなか大きくならず、ほとんどの値を計算から省かなくてはならないという状態でした。 つきましては、どのような統計の出し方が良いのか教えて頂きたく、質問させて頂きました。 よろしくお願い致します。

  • SPSSでの統計処理

    以下のトレーニングの実験を行いましたが、統計処理の方法が分かりません。        1セット 2セット 3セット 4セット 5セット ・ ・ ・ ・ 10セット 男1学期   ○    ○    ○    ○   ○            ○   2学期   ○   3学期   ○ 女1学期   ○   2学期   ○   3学期   ○ 1回の測定値であれば2元配置の分散分析で良いかと思いますが、この場合は各セット間の影響、学期ごとのトレーニング効果及び男女差を見たいのですが、SPSSでのやり方がわかりません。(○には数字が入ります) よろしくお願いします。

  • 統計手法について

    こんにちは。私は大学で心理臨床を学んでおり、今後は大学院受験に進学したいと思っています。そこで研究計画書を書く必要があります。やりたいことは明確になっているのですが、どのような統計手法を使用すれば最もデータを繁栄できるかわかりません。受験までの時間が迫り、切羽詰りながらも何かよい手がかりはないかとネットで検索していたところ、ここにたどり着きました。お忙しいとは思いますが、もしよろしければ、何かアドバイスが頂けたら幸いです。 質問は以下通りです。 『職業ストレス(環境要因)と職業への関与(個人的要因)が、ストレス・コーピング(調整要因)を介してバーンアウト(ストレス反応)に及ぼす影響を調べる。』 このモデルを調べるにはどのような統計手法があるでしょうか。教えてください。

  • 統計学の良本、または勉強方法!

    私は心理学部に在籍しています一年生です。 現在、統計学を授業で取っているのですが、授業前半にして内容が理解できず、最近ではサッパリ着いていけなくなってしまいました; 先生にも何をどう尋ねればいいのか分からず、授業は進む一方なので これはもう最初からやり直すしかないと勉強を始めたものの、持っている教科書ではどうにも理解できません…;;; もしお勧めの統計学の本、または勉強法などをご存知でしたら教えて頂けないでしょうか…!? 因みに私の現状は ・高校時数学はIAすら分からなかった、ほぼ赤点。 ・九九ぐらいは出来るが、中学レベルが完璧かはどうも怪しい ・授業では『やさしい実践統計学―数式を使わない「エクセル」併用書』を使用 希望する本は ・かなり初歩的なレベルから順を追って説明されている ・出来れば練習問題がついているものを希望 …です。 こんな状態ではアドバイスのしようもないかもしれませんが、どうか宜しくお願いします・・・!!

  • 経済統計学について

    経済統計学の勉強をしているんですがわからない点があるのでおしえていただきたいのです。 労働力調査に関する記述でこの文が正しいのか教えてください。誤っている部分があったら理由も教えていただきたいです! (1)離職しても仕事が見つからず職探しをあきらめてしまった人(求職意 欲損失者)は完全失業者ではないが労働人口には含まれる。 (2)景気が良くなりかけているときに、完全失業率の一時的上昇が観測さ れることがあるが、求職意欲損失者だった人々が再び求職活動を始め ることが原因になっている可能性がある。なぜならば、彼らの求職活 動の再開は、労働人口を変化させずに、完全失業者数を増加させるか らである。 (3)家業を手伝っている人は給与を受け取っていないから就業者ではな  い。 (4)現在、総務省は、完全失業率の数字を『4.1%』というように小数点 以下1桁まで表示しているが、一桁余計に計算して『4.14%』という ように小数点以下2桁まで表示したほうがよりきめの細かい情報を  人々に伝えることができる。 (5)「労働力調査」は、「労働力方式」の考え方によっている。労働力方 式は、アマチュアル方式とも呼ばれ、調査の時期や偶発的状況に影響 されることが少ないという利点を持つ。  おねがいいたします!

  • 人口減少による影響は?

    日本の人口が減少傾向にあります。少子化、高齢化というダブルパンチで、生産年齢人口は減り、総人口が減ることよりも、生産年齢人口が減ることが問題だと思います。 例えば人口12000万人が11500万人になっても、中身の生産年齢人口が7000万人から5000万人に減っていたら大変ですよね。トータルでは500万人しか減っていなくても、働く人が減って、高齢者が増えていたら、財政的に苦しいのと、病院など医療の現場も高齢者であふれかえる可能性もあります。 人口は減っても日本はあまり変わらないとか影響がないと考えている人もいるようですが、本当にそうでしょうか? ニートやフリーターで保険料や年金を収めていない人は、それこそ高齢者になった時に生活保護を受けているか、それすら受けられない人は公園をさまよっているかもしれません。 財政は何百兆円も赤字で、いくら無駄遣いを減らしても根本的に取り返すことはできないでしょう。 さて、今後日本の人口が減った場合、どのような影響があるでしょうか?「減っても変わらない」「影響がない」という立場の方は、財政的解決、経済的解決、教育的解決、医療的解決において、どのような策があるかお教えいただきたいと思います。 私自身が悲観論的な考えをもっているからかもしれませんが、 ・現在でも、中国人等の移民が自然と増えている気がする ・国の財政が破たんすることはないだろうが、あらゆるサービスが有料化され、消費税はうなぎのぼりになる ・学校や保育園が成り立たなくなり、つぶれて子供の教育が受けられなくなる ・病院は高齢者ばかりで病院のベッドも埋まり、外来は平気で3、4時間待ちという状態になる ・・・・などなど、こんなことばかりが頭をよぎります。 イギリスは日本の半分くらいの人口で、韓国は5000万人くらいです。だから日本も減って良いという結論を言う人がいますが、生産年齢人口が減るということは、財政負担をする人と、経済発展する機会が奪われるわけで、今の快適な生活が送れないといことになります。 今、我々は家電製品であふれ、食べ物であふれ、ほしいものは何でも手に入りますが、それが思い通りに行かなくなる可能性もあります。 良い影響は思いつかないのですが、人口が減ることでよくなる影響もあれば知りたいです。 それから、政府が主導、みんな一致団結で解決・・のような抽象的、精神論的な意見ではなく、具体的な策が知りたいです。 長くなりましたが、人口が減った場合の様々な影響が知りたいということであり、人口を増やしていこう!ということではないです。 実際に減っている現実に直面しているので・・・

  • カイ二乗検定と分散分析の違い

    二つの使い方の違いがわかりません。見ることは二つとも差があるかというのであってるんでしょうか? 一例として、4グループあり(グループごとの人数は異なります)、いくつかの調査項目ごとにグループで差があるかを見る時、カイ二乗なのか分散分析(一元配置)なのかが謎です・・・ 例えば、質問項目例1:食事回数 a.3回 b.2回 c.1回以下         例2:身長  (  cm) などあったとすると 例1はクロス表4x3(3x4?)でカイ二乗でできそうなのですが、身長はどうやってするんでしょうか? また、項目ごとでカイ二乗にしたり分散分析にしたりというのは統計学的にありなんでしょうか? 統計については初心者です。色々似たような質問が出ていましたがやはりわかりません。すみませんが、よかったら助言お願いいたします。

  • 重回帰分析で偏回帰係数を全て正の値にする方法はありますか?

    はじめまして。 現在、複数のエリアのエネルギー消費量と、そのエリアに内包される施設の面積との関係を調査しています。 例として ・エリアA:消費量100MJ 商業施設 a m2、病院 b m2、飲食店舗 c m2、事務所 d m2 ・エリアB:消費量360MJ 商業施設 e m2、病院 f m2、飲食店舗 g m2、事務所 h m2 ・エリアC:消費量600MJ 商業施設 i m2、病院 j m2、飲食店舗 k m2 ・エリアD:消費量492MJ 商業施設 l m2、病院 m m2、飲食店舗 n m2、事務所 o m2 のようなものになります。 そのうえで、施設の用途別に単位面積あたりのエネルギー消費量を重回帰分析によって予測する事を考えたのですが、偏回帰係数が負の値を取ってしまうものが多く出てしまい、困っています。 それぞれの独立変数の係数を全て正の値にする方法はないでしょうか? 使用しているソフトは EXCEL SPSS11.5J for windows です。 稚拙な内容で申し訳ありませんが、よろしくお願いします。

  • 重回帰分析をやる意味がわからなくなってしまいました、

    質問です。現在研究で、栄養状態の改善に影響を与えた因子を調査しています。で、あるマーカーの変動に影響を与える因子(約20項目)および影響度を探索するために、調査した項目をステップワイズにて因子を抽出→重回帰を行っています。ここで質問ですが、ステップワイズで選ばれなかった因子も、必ずやそのマーカーに影響を及ぼしているはずなのに、ステップワイズだけで選ばれたある因子だけで重回帰分析を行う・・・自分はいったい何をしているのか分からなくなってしまいました。統計初心者であり、数字に翻弄され、どうすればいいかまったくわかりません。ぜひご助言ください。

  • 適切な統計処理をアドバイスください

    以下のような統計処理の場合、どのような手法を選択するのが 適切でしょうか。 実データを出せないので、仮りデータで失礼します。 地域ごとに運動習慣のない人3名(対照)とある人3名を それぞれ選び、最大酸素摂取量(体力を反映していると考える)を 測り、下表のようなデータを得ました。 地域 運動習慣なし 運動習慣あり A   124      180     134      200     110      210 B   104      190     114      200     105      180 C   150      210     144      220     162      200 運動習慣の体力に及ぼす影響が地域ごとに差があるか、 あるとしたらどの地域とどの地域の間に差があるかを知りたいのです。 同じ行に書いてあっても同一人など対応するデータではありません。 単純に考えれば繰返しのあるニ元配置分散分析ですが、 対応していないデータでも使ってよいのでしょうか? ご指導よろしくお願いします。