• 締切済み

類似度の高いものを取り出したい。

数学・統計学初心者です。 現在Rを使って統計学を勉強しています。 ある、パラメータA,B,C,D,E,F.・・・・・・を持った対象データがあり、 さらに同じパラメータを持った複数のデータ集団(標本の集団)があったとします。 そのデータ集団から対象データと類似度が高いものを取得したいとします。 以前、類似度を求める場合、対象データと集団との相関係数を求めれば良い、というHPは見たのですが、 この方法だと、各パラメータのデータの分布の大きさが異なれば、変な値が出てきそうな気がします。 かと言って各パラメータデータを正規化しようとすると標本集団のため、どこかのパラメータでばらつきが出てきそうな気がします。 そもそも私には一般的な知識がないので、類似度を求める際、頭の良い人たちがどういった感じで類似度を求めているかわかりません。 このような場合、どうやって類似度が高いものを取り出してくれば良いのでしょうか?教えてください。

みんなの回答

  • trytobe
  • ベストアンサー率36% (3457/9591)
回答No.1

単純に、リーグ戦のように総当たりでの「相関係数」を2変数ごとに全パターン求めるだけです。

関連するQ&A

  • 母相関0のときの相関係数の標本分布

    母相関0の二次元正規分布に従う母集団からn個(n≧3)の標本をとって、その(標本)相関係数rを得たとき、r√(n-2)/√(1-r^2)は自由度n-2のt分布t(n-2)に従うというの多くの統計の教科書で見かけるのですが、その証明はどうやればよいのでしょうか。 rを標本変数の式で実際に書いてみて式変形をするだけだとは思うのですが、うまくできませんでした。よろしくお願いします。

  • 非正規母集団の相関係数の有意性検定法について

    変量(X,Y)に関する,大きさNのデータが既知であるとき,X, Yの相関係数ρの有意性を検定(無相関検定)する方法を探しています。 ただし,データは標本ではなく母集団であり,X,Yに関して正規分布が仮定できないとします。 無相関を仮定して,相関係数の確率密度分布を求め,その分布を利用して検定する(実際の相関係数ρが分布のどの程度端に存在するかを見る)という方法でよいのでしょうか? よろしくお願い致します。

  • 【統計学基礎】自由度とは?

    【統計学基礎】自由度とは? 以下の問題で自由度について答えさせられるのですが自由度とはなんでしょうか?自分はただ自由度=標本の大きさ-パラメータと考えていたのですが色々パラメータがどれを指すかによってかわってきて混乱してきています。 平均u=5、分散σ^2=4 の正規母集団より大きさn=16の無作為標本を抽出する。このときy=(n-1)s^2/σ^2は以下省略…また‐xを標準化したZは正規標準分布にしたがい、‐Xとs^2は統計的に有意であることから、z/√y/15は自由度???のt分布に従う。 という問題です。まずそもそもz/√y/15の式の意味もよくわからないのですがご回答お願いします。

  • 中心極限定理について

    お世話になります。 統計学で出てくる中心極限定理について基本的なことをうかがいます。 定理の内容はおよそ「母集団が任意の確率分布を持っていても、そこから抽出した標本分布は標本数nが無限大に近づくにつれて正規分布に近づく」といったことだと思いますが、nを無限大にもっていくとき母集団に近づくのに(というか母集団を超えることも)、たとえば母集団が正規分布していない場合でもそれが正規分布に近づいていくというのは矛盾がある気がするのですが、どこが誤っているのでしょうか。 詳しい方ご教示願います。

  • 統計:母集団の分布の正規性の確認について

    当方、統計の初学者です。 先日とある統計入門書にて母集団の分布の正規性を確認する手段として 対象となる標本集団の尖度と歪度が0に近いかどうかで確認ができると いうことを学びましたが、この場合の「近い」とは具体的にどういう 値なのでしょうか? 「尖度と歪度がaからbの区間なら正規分布に近似しているといえる」 というような目安(?)のようなものはないのでしょうか? 経験則的なものでも結構ですのでご教授いただけたらと思います。

  • 最尤法について

    現在、独学で最尤法について勉強しています。その中で、少し疑問に思った事があり質問させていただきました。 最尤法について調べると、 ・最尤法は、尤度と呼ばれる量を最大化する事で、確率分布のパラメータを推測する方法。 ・尤度関数が最大となるパラメータ値を求める。 などの記述があり、母集団が正規分布に従うとき標本の値から正規分布のパラメータを推測する例題などがありました。 概念としては理解できているつもりなのですが、何故最尤法が必要となってくるのかがピンときません。 というのも、例えば正規分布のパラメータを知りたいのならば、最尤法を用いなくても「平均値」「分散」という統計量を標本値から求めてしまえば良いのではないでしょうか。他の分布についても、ほとんどの分布は統計量からパラメータを求める事が出来るのではないのでしょうか。 そういった疑問を踏まえて、次の二点について悩んでいます。 ・最尤法によって求められるパラメータ値は統計量から直接求められるパラメータ値と同じものになるのか?(使用する標本は同じもの) ・もし同じものならば、最尤法を利用すべき状況とは一体何なのか。 (自分としては、統計量から求められるパラメータがどれぐらい正しいのかをcheckするぐらいしか利用価値が無いのではないかと思っています。) まだまだ勉強し始めて日も浅いので、もしかすると的外れな疑問なのかもしれませんが、お答えいただけると助かります。

  • Statcel2を用いたデータの正規性の検定

    Statcel2を用いたデータの正規性の検定について教えてください。 私の解釈は合っていますでしょうか。 ある計数データの正規性の有無を調べるため、Statcel2を用いてx^2検定で検定を行いました。 p値が仮に0.04だった場合、p<0.05のため、正規分布であるとは言えない。 加えて自由度が1の場合、x^2(0.95)は3.84であるから、x^2値が4.07ならば、正規分布であるとは言えない。p値で判定してもx^2値で判定しても構わないのでしょうか。 その後、計数データが、ある因子に相関があるか評価したいのですが、さきほど正規分布であるとは言えないと判定された場合は、ピアソンの相関係数ではなく、スピアマンの相関係数といったノンパラメトリックな手法で検定を行うべきでしょうか。その場合もp<0.05ならば「有意な」相関だと判断して良いでしょうか。 統計学は論文作成のために独学で行ったため、自信がありません。 乱文で申し訳ありませんが、ご教授ください。よろしくお願いいたします。

  • 正規分布に従うときの母平均と母分散の求め方

    今、数千件のデータを解析しています。 ヒストグラムから、それぞれの時点のデータが正規分布に従うことが分かりましたので、母集団も正規分布に従う、という仮定の下で話を進めます。 各時点での平均と標準偏差をプロットしたところ、右上がりの一次関数になり、一定の値にはなりませんでした。 そこで、このような場合(標本平均も標本分散も一定の値にならない)、どうやって全体の母集団のパラメータを推定するのでしょうか。 教えてください。

  • 切断された正規分布

    今ある標本(Y,X)の組があって、その母集団が正規分布であることがわかっているとします。 ただ、得られた標本(Y,X)はXがある閾値以上のものに限定されている(すなわち、正規分布の尾の部分のみが観測されている)としたとき、 母集団である正規分布の統計量を推定するにはどうすればよいでしょうか?

  • カイ自乗分布の問題について質問です

    カイ自乗分布の問題について質問です 私は高校生で、経済学に興味があるので統計学を自習しております。しかし参考書にわからない問題があり困っております 統計学に詳しい方、よろしくお願いします。 1 自由度100のカイ自乗分布においてχ^2の5%点を正規分布近似により求めなさい 2 平均10 分散5 の正規母集団から抽出した大きさ4の無作為標本に基づく標本分散s^2が8より大きくなる確率は0.05より大きいか 3 平均μ 分散30の正規母集団からの大きさ16の無作為標本に基づく標本分散をs^2とする P(a<s^2<b)=0.95となるような定数a b を求めよ ただしP(s^2はa以下)=0.025とする