• 締切済み

ばらつきの検定

いま研究で膨大なデータを渡されデータの比較をエクセルでしているのですが、統計の知識が乏しいためどのようにしていいかわからず困っています。 下記のようなデータ群でばらつきをを調べようとしています。 (1)6つの細胞(cell1,cell2, ・・・・cell6) (2)各細胞での遺伝子(約4万個)の発現を数値化したもの 6つの細胞は同種類の細胞ですが、採取した人が違う細胞です。 表は下記のようになっています。 cellnumber 1  2  3  4  5  6 遺伝子A  0,1 13 1.3 4.2 2.2 1.5 一つ一つの遺伝子の発現量が6つの細胞でどれくらいばらついているかを調べたいです。 最終的には、ばらつきが大きい遺伝子を取り除きたいです。 カイ2乗検定で「6つの細胞での遺伝子Aの発現は同じである」という帰無仮説を立てて有意水準0.01で検定しようとしたのですが、理論値が求められないのでできませんでした。 説明べたで申し訳ないですが、質問できる先生が近くにいないので非常に困っています。 よろしくお願いします。

みんなの回答

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.7

No4です。 >その旨をお伝えし論文にちゃんと書かせていただきます。 私の実名が分からないので無理。まさか、kgu-2と書かれる? 謝辞を持ち出したのは、安易なご質問が多いのですが、研究については、通常の質問と違って、問題があるからです。1)指導教授を差し置いて横から口出すするのは、私が研究者としてのマナー違反であること、2)謝辞は書けないので、研究発表時などに質問者がマナー違反になることを指摘したいからです。3)なにより研究はアイデア勝負なので、指導教授に秘密漏洩に当たる。 というわけで、独り言。指導教授に失礼は承知していますが、独り言は周囲の人が聞くも聞かぬも勝手なので。  統計で何でもてぎるようなイメージをお持ちの印象をうけますが、ほとんどできまません。統計学の検定で行えるのは、「有意差がある」という主張だけ。  有意差、すなわち、群間(群内も)に差がある、異なることを主張するのが統計学の目的です(相関分析だけは別)。「同じである」とか「差がない」という表現は誤りです。なぜかは、統計学の専門家に聞いて下さい。といっても、学術雑誌でさえ、「差は無かった」の非科学的な表現をチェックできていないものもありますが。 >「同じ発現をしている」という基準を統計学的手法で求めることができないか 上述のように、相関分析を除いて、「偶然ではこんなに同じにならない=有意差がある」と同じではないことを示すのが検定の目的なので無理。  「同じと言いたい」というのを、統計学の初心者の罠、と私は言っています。ですから、単に統計的な検定をパソコンでやっても無理だと想います。  次に、標準的な遺伝子(確かアクチン)はあるわけですから、それより優れたものでないと、意味がありません。それを統計学でどのようにすれば良いのか、現在の標準で使われている遺伝子と比較すれば良い。  私なら簡単にできるので、早速やってみます。たぶん3ヶ月もあればできますので、それまでになさらないと、「アイデアを盗まれれた」と抗議しても、質問者は実験法が分かっていないので、たぶん受け入れられません。私が先に発表すれば、指導教授になんと言い訳されるのか。研究内容をこんなところで書き込んだことが分かるので、秘密漏洩で、会社ならクビでしょうね。  お名前が分かれば、共同研究ということになるのですが、ここでは相互の直接のコンタクトは禁止されているので、無理ですね。さて・・・。  というより、No5さんに同意します。標準偏差では不十分なので、もう少し工夫しますが。  それより、同一の細胞ではなく違う細胞も同様に試験、というのは次の段階ですか。この遺伝子を基準にして、発病するとその量が変動すると、というのは次の次の段階?

回答No.6

 No1です。何度も書き込んでいますが、初めから >6種類の細胞で同じ発現をしている遺伝子を探し出すことが目的です。そのために「同じ発現をしている」という基準を統計学的手法で求めることができないかと思い質問させていただきました。 と記載してもらえれば、回答は全く異なっていました。私は心理学関係の統計をしていますが、同様の発想で、WISC-3のプロフィールの類似度を数量化できないかと考察し、一応使えるレベルのものができたと自負しています。  今後のご検討をお祈りします。

stem_hiro
質問者

補足

ご返信ありがとうございます。 最初からこのように書けず申し訳ございませんでした。 wisemensayさんの言われていることを調べてみようと思います。 つたない文章での質問に真面目に返答していただき、まことにありがとうございます。

noname#227064
noname#227064
回答No.5

各遺伝子ごとに発現量の分散(又は標準偏差)を求めて小さいほうから必要な数だけ或いは必要な精度を満たしているものを選ぶのはどうでしょう。 スクリーニングなら検定の必要はないと思います。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.4

>カイ2乗検定で「6つの細胞での遺伝子Aの発現は同じである」 有意差があっても、全体での有意差。すなわち、どのセルとどのセルに差があるのかは判断できないので、目的達成は不可。 >質問できる先生が近くにいないので この程度は、教授ならなんとかするハズ。 >どれくらいばらついているか >Kruskal-Wallis検定を頑張ってやってみます 検定でできるのは、有意差の有無のみ。どれくらい、というのは無理。 ご質問が、ばらつきではなく、どの程度一致するか、というのなら可能。    セル1 セル2 セル3・・・ 遺伝子A   1   1   10 遺伝子B   3   4   2.7 遺伝子C   1.5  1.6  80 遺伝子D    4   3.8  25  のような場合、セル1と2は、同程度。しかし、セル3とは異なると結論するのは難しくはないかも。ただし、遺伝子の数は、5種以上必要。  遺伝子が1種なら、繰り返し測定して、t検定などを、有意差があれば異なる、と判定するのが一般的。ただし、有意差は、測定回数を増やせば見つけやすい。また、有意差が認められない場合、他の方法ならでるかも、と反論されると返答に窮する。 以上は、異なる細胞を除外する、ということで書きました。 それとも、異なる遺伝子をみつけたい、逆に言えば、細胞種が変わっても、発現量が同じ(アクチンだったか?)ものを見つけたいということでしょうか。  それと、ご研究に有用な場合、謝辞を要求した場合(研究者として当然です)、論文などに書いてもらえますか。というのは、この方法は確立されてなさそうなので、「発現量が異なる細胞の判定法」なんぞの論文にできそうなので。

stem_hiro
質問者

補足

ご返信ありがとうございます。 >それとも、異なる遺伝子をみつけたい、逆に言えば、細胞種が変わっても、発現量が同じ(アクチンだったか?)ものを見つけたいということでしょうか。 まさにそのとおりです。 6種類の細胞で同じ発現をしている遺伝子を探し出すことが目的です。 そのために「同じ発現をしている」という基準を統計学的手法で求めることができないかと思い質問させていただきました。 それと、ご研究に有用な場合、謝辞を要求した場合(研究者として当然です)、論文などに書いてもらえますか。というのは、この方法は確立されてなさそうなので、「発現量が異なる細胞の判定法」なんぞの論文にできそうなので。 もし、実際に利用させていただくことになりましたら、その旨をお伝えし論文にちゃんと書かせていただきます。

回答No.3

No1です。 >同レベル発現している遺伝子を探すことを目的としています。 cellnumber 1  2  3  4  5  6 遺伝子A  0,1 13 1.3 4.2 2.2 1.5 遺伝子B 同レベル発現という意味がよく分かりません。以下のようになるとして cellnumber 1  2  3  4  5  6 遺伝子A   9 13  10  7  9  8 遺伝子B 8 7 11 9 10 7  遺伝子AとBのそれぞれの平均と標準偏差がある水準で同一であるという意味でしょうか。しかしn=6で平均と標準偏差の比較をするのは、無理があります。  むしろ、多次元尺度法でいくつかのグループに分類し、その後同レベル発現の基準(?)で検定してはどうでしょうか?

stem_hiro
質問者

補足

たびたびご回答ありがとうございます。 説明べたで本当にご迷惑をおかけしております。 もともとは各遺伝子ごとに標準偏差をとって値が2以下のものを同レベルで発現しているとしてみなして有効なデータとしてみなしていました。 しかし、2以下というのが非常に個人的な基準だったので同レベルで発現していることを統計学的手法でしっかりとした基準を求めれないか、と思い考えてみたのですが知識が乏しいのでこの場を借りて質問させていただいたのです。 多次元尺度法というのがあるのですね。 調べてみたところ、性質が近いものを選び出せているようなのでどうにかできないか考えてみます。

回答No.2

 No1です。  最初は「6つの細胞での遺伝子Aの発現は同じである」という帰無仮説を立てていたかと思います。それが >この遺伝子の中ですべての細胞で同レベル発現している遺伝子を探すことを目的としています。    ということになれば最初の質問内容とは異なります。 私が遺伝子A(1) ~A(n)と記載したのは、各ケースの遺伝子Aの比較という意味です。 >Kruskal-Wallis検定はエクセルでできるでしょうか?  SPSSを前提にしていますので、分かりません。後で補足します。

stem_hiro
質問者

補足

ご返信ありがとうございます。 >私が遺伝子A(1) ~A(n)と記載したのは、各ケースの遺伝子Aの比較という意味です。 書き方が悪かったようです。 申し訳ございません。 各ケースの遺伝子Aの比較ではなく、遺伝子Aで細胞群で同レベルの遺伝子の発現をしているかどうかを調べ、同じ事を遺伝子B・遺伝子C・遺伝子D・・・で行っていくということです。

回答No.1

>「6つの細胞での遺伝子Aの発現は同じである」という帰無仮説を立てて Kruskal-Wallis検定が適当かと思いますが(データが正規分布していないということが前提なので、やや疑問はあります)、もう1つ質問の趣旨が分かりません。 データは以下のようになっているのですか。 cellnumber 1  2  3  4  5  6 遺伝子A(1)  0,1 13 1.3 4.2 2.2 1.5 遺伝子A(2) ・ ・ ・ 遺伝子A(n)

stem_hiro
質問者

補足

ご回答ありがとうございます。 Kruskal-Wallis検定を頑張ってやってみます。 ちなみにKruskal-Wallis検定はエクセルでできるでしょうか? データは cellnumber 1  2  3  4  5  6 遺伝子A  0,1 13 1.3 4.2 2.2 1.5 遺伝子B 遺伝子C ・ ・ ・ といった感じで異なる遺伝子が4万個ほどあります。 この遺伝子の中ですべての細胞で同レベル発現している遺伝子を探すことを目的としています。

関連するQ&A

  • カイ自乗検定について

    カイ自乗検定をする際、求めたカイ自乗値を有意水準によって判断するわけですが、 カイ自乗値>カイ自乗分布表(有意水準と自由度)から求めた値 と、なった場合、帰無仮説が否定されたということでよろしいのですよね? 授業でノートに書いたものと、ネットで調べたものが異なっていたので、混乱して分からなくなってしまいました。 よろしくおねがいいたします。

  • 仮説検定

    仮説検定がよくわからないので、用語の説明をしていただけませんでしょうか。 1.仮説H0を帰無仮説ということがあるのは何でですか。 2.仮説H1は対立仮説ということがあるのは何でですか。 3.棄却域とはどんな領域なのか。 4.有意水準とはどんな水準なのか。 5.仮設H0が棄却されるのはどんなときなのか。また、H0を棄却する論拠は何なのか。

  • χ二乗検定について

    ある統計データ(数値)が100個ぐらいあり、それに対する理論値があります。これをχ二乗検定しなければならないのですが、かなり頭がこんがらがっています。 χ二乗値の求め方はわかりましたが、 自由度の意味、帰無仮説の立て方、有意水準の設定の仕方などがこの場合どうなるのかさっぱりです。 どなたかわかる方よろしくお願いします。

  • 検定の問題です。恐れ入りますご享受を依頼します。

    A :1326 1418 1820 1516 1635 1720 1580 1452 1600 健常者のIgG値の平均値は1180(mg/100ml)であることが知られているとする。A病院における透析患者のIgG値(mg/100ml)の平均値は健常者の平均値と異なっていると言えるか、上記[A]のデータを用いて有意水準0.05で検定せよ (1)帰無仮説と対立仮説を記すこと。 (2)有意水準0.05として、この検定の棄却域を求める(両側検定を行う)。 (1)棄却域を求めるためのRのコマンドを記すこと。 (2)求められた棄却域を T>a, T<b という形で記すこと。ここで、a,bは具体的な値。 (3)検定のための統計量の値を求めるRのコマンドを記すこと。 (4)統計量の値を記すこと。 (5)棄却域と比較することにより帰無仮説を棄却するか採択するか決め、結果を記すこと。 (6)最初に与えられた質問(最初の文章)に解答せよ。 (7)p値を求めるRのコマンドと結果の値を記すこと。 (8)p値の結果の値から帰無仮説を棄却するか採択するか決め、結果を記すこと。

  • 統計学の検定のもんだいです。

    前回分 すいません、タイプミスがございました、ご容赦をおねがいします。 検定の問題です。答えも知りたいですけど 自身の考え方が正解かどうか 知りたいです。ご指導宜しくお願いします。 健常者のIgG値の平均値は1180(mg/100ml)であることが知られているとする。A病院における透析患者のIgG値(mg/100ml)の平均値は健常者の平均値と異なっていると言えるか、[A]のデータを用いて有意水準0.05で検定せよ A:1326 1418 1820 1516 1635 1720 1580 1452 1600 (1)帰無仮説と対立仮説を記すこと。 (2)有意水準0.05として、この検定の棄却域を求める(両側検定を行う)。 (1)棄却域を求めるためのRのコマンドを記すこと。 (2)求められた棄却域を T>a, T<b という形で記すこと。ここで、a,bは具体的な値。 (3)検定のための統計量の値を求めるRのコマンドを記すこと。 (4)統計量の値を記すこと。 (5)棄却域と比較することにより帰無仮説を棄却するか採択するか決め、結果を記すこと。 (6)最初に与えられた質問(最初の文章)に解答せよ。 (7)p値を求めるRのコマンドと結果の値を記すこと。 (8)p値の結果の値から帰無仮説を棄却するか採択するか決め、結果を記すこと。

  • 仮説の検定です。助けてください。

    「ある硬貨を7回投げたところ、表が6回、裏が1回でた。 この硬貨について「表が出る確率が1/2である」という仮説を 有意水準5%で検定せよ。」 という問題があります。 この以下の解答でいいのかどうかわかりません。お願いします。 帰無仮説「表が出る確率が1/2である」とし、 対立仮説「表が出る確率が1/2でない」とする。 ここで、両側検定を行う。 表が6回以上出る確率は、 7C6(1/2)*7+7C7(1/2)*7 =1/16 =0.0625 また、表が1回以下出る確率は、表が6回以上出る確率と同じなので、 合計すると、 確率は、0.125 となる。 これは、有意水準が5%なので、帰無仮説は、棄却されないことがわかる。 よって、「表が出る確率は1/2でないとはいいきれない。」 どうでしょうか。よろしくお願いします。

  • 「有意差検定」とは

    「有意差検定」「統計学的有意性の評価」とは、どうすればよいのでしょうか。 平均値、標準偏差、標準誤差が求まっているので、以下の手順を踏むとよいと調べたら出てきました。 が、何をどうすればよいのかわかりません。 (ちなみに今回行った実験は、マウスに局所麻酔薬を注射して痛み刺激を与え、痛がらなかった回数を記録する、というものです) ① 仮説設定: まず、研究の対象に応じて帰無仮説(H0)と対立仮説(H1)を設定します。例えば、2つのサンプル間の平均値に差があるかどうかを検定する場合、次のように設定できます。 帰無仮説 (H0): 2つのサンプルの平均値は等しい。 対立仮説 (H1): 2つのサンプルの平均値は等しくない(または、ある特定の差がある)。 ② 統計検定の選択: 2つのサンプル間で平均値の差を評価する場合、独立な2標本t検定が適しています。ただし、データの性質や仮説に応じて、他の統計検定を選択することもあります。 ③ t検定の実行: 選択したt検定を実行し、結果を得ます。t検定は、2つのサンプルの平均値の差が統計的に有意かどうかを評価します。結果には、t値(t-statistic)とp値(p-value)が含まれます。 ④ 結果の解釈: 得られたp値を帰無仮説が成立する確率と比較します。通常、あらかじめ設定した有意水準(例: 0.05)と比較して、p値が有意水準未満であれば、帰無仮説を棄却し、対立仮説を採択します。これは、2つのサンプル間に統計的に有意な平均値の差があることを示唆します。 どんな些細なことでも教えていただきたいです。 どうぞよろしくお願いいたします。

  • 【確率】 有意水準の検定の問題です。

    有意水準の検定の問題について、自分なりに答えを出してみたものの 正しい答えになっているか、いまいち自信がありません。 自分の解き方であっているか、わかる方ご指導お願いいたします。 【問題】 ある硬貨を6回投げたところ、6回とも表が出た。この硬貨について「表が出る確率が1/2である」という仮説を有意水準1%で検定せよ。 【自分の答え】 帰無仮説:硬貨の表裏が出る確率に差はない。(両側検定、危険水準α=0.01) 上記の仮説を検証する。 公式 P(n)=nCk・p^k・(1-p)^(n-k)より、 ={6!/(6!・0!)}・(1/2)^6・(1/2)^(6-6) ={6!/(6!・0!)}・(1/2)^6・(1/2)^0 ={(6・5・4・3・2)/(6・5・4・3・2)}・(1/2)^6 =(1/64) =0.015625 よって危険水準を大きく超えている為、帰無仮説は破棄される。 硬貨の表裏が出る確率には有意な差がある。 以上、よろしくお願いします。

  • 検定の質問です

    問題がどうしても解けないのでお願いいたします。 母分散と母平均が両方未知で正規母集団から大きさ51の標本を無作為抽出し、不偏分散Vを計算しました。 帰無仮説:母分散がvを有意水準0.05%で検定するときの棄却域をどうか教えてください。 カイ2条分布を用いて解けるとは思うのですが、どのように区間推定したら良いのかわからないのでよろしくお願いいたします。

  • 仮説の検定(硬貨の問題)が、わからないです。

    「ある硬貨を7回投げたところ、表が6回、裏が1回でた。 この硬貨について「表が出る確率が1/2である」という仮説を 有意水準5%で検定せよ。」 という問題があります。 この解答では、だめな理由を教えてください。お願いします。 帰無仮説「表が出る確率が1/2である」とする。 表が6回以上出る確率は、 7C6(1/2)*7+7C7(1/2)*7 =1/16 =0.0625 これは、有意水準が5%なので、棄却域をこえているため、 帰無仮説は、棄却されないことがわかる。 よって、「表が出る確率は1/2でないとはいいきれない。」 どうしてだめなのかわかりません。 お願いします。教えてください。