• 締切済み

統計学における分布の予測

失礼します。 私は医学部大学院で研究を行っている者です。 現在、血中に存在するある因子の濃度を測定しているのですが、解析をしていて疑問に思ったことがあります。 一般的に医学データは正規分布に従うことが少ないと、医療統計学の本には書いてあり自分もそう認識しています。しかしγ-GTPやALTなどの因子は対数正規分布を示すと言われています。 そこで、正規分布(対数正規分布)を示す因子の共通点(例えば分泌場所など)を考えてみたのですが、なかなか推定できません。 体内因子の分布というのはある程度予測できるものなのでしょうか? そしてそれはどのような条件なのでしょうか? 統計学、生理学共に知識が少なく申し訳ございませんがご教授頂ければ幸いです。

noname#226079
noname#226079

みんなの回答

  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.3

分布の選択基準は、 (1) 実際の分布形が、その分布のモデルに似ている (2) 原理的に、対象の発生メカニズムが、その分布が前提とするメカニズムに近い (3) 解析がしやすい などでしょう。 ところで、正規分布というものは、種々雑多な要因に影響される統計量の「究極にあるもの」と考えられます。表現は悪いが「分布のゴミ捨て場」みたいなものです。したがって、上記(2)のメカニズムがまったく特定できないときには、ほとんど正規分布が使われます。 例えば、毎日定時に家を出る会社員が会社に到着する時刻のバラツキは、それこそ性質も異なる多くの要因によって起こります。そのようなときには、正規分布しかないわけです。しかし、実際のデータが、例えば左右非対称に大きくゆがんでいたら、多くの要因の中に、非常に寄与率の高い何かが存在すると考えるべきであって、単純に正規分布として扱うべきでありません。 一般論だけで、すみません。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

「予測」とは言ってもデータに基づく現象論的な帰納じゃなくて、理論からの演繹的予測のことですね。  ガウスの誤差論から出て来たのが正規分布です。何か同じものに対するある測定を繰り返し行うとし、ただし、測定のプロセスの中に、ある同じ分布に従うランダムな誤差要因が沢山加わっていて、それらが加わった結果しか測れないものとします。すると、誤差要因の分布がどうであれ、結果の分布は正規分布に近づく。これがガウスの証明したことです。  で、これは確率論、すなわち「ランダム」ということに関する数学であって、統計学ではない。  一方、医学におけるナニカの分布とはどういう意味かというと、同じ人に間髪入れず繰り返し同じ検査をするんですか?違うでしょ。沢山の人を相手に同じ検査をする。だからこれは確率論ではなく統計学です。  その場合、純粋な数学理論からの演繹として分布の予測ができるということはあり得ません。そうではなくて、(質問で仰る通り)生理学的モデルからの予測ということになります。だから数学の話じゃなく、生理学の話です。  さらにこの場合、正規分布にならないのが当然です。「多数の被験者の測定結果がばらつく原因は、ガウスの理論のようなメカニズムによるものではない」というのが一つの理由です。が、それよりももっと本質的な理由があります。  例えば、メタボリックシンドロームに分類された人の最高血圧を測ったらどうか。ある値の所に明瞭なカットオフがある、奇妙な分布を示すでしょう。それはもちろん、元々健康な人を血圧やその他の測定値で恣意的に分類したのがメタボリックシンドロームというクライテリアだからです。測定対象が偏って選ばれているために、分布もへんてこな格好になる。  では恣意的選別をやめるために、あらゆる人を対象にして血液のpHを測ったとします。ところが、pHが5なんて人はいません。生きていられる範囲というものがあるわけで、従って結果が正規分布(裾野が幾らでも広がっている)に従う筈がない。あるいは、身長を測ったらどうでしょうか。10cm以下の人も500cm以上の人も絶無でしょう。これも同じ事で、結局「生きている人」というだけで、すでに対象が選別されている訳ですね。  ご質問の血中因子の話だとどうでしょうか。  まず、どういう血液を測定対象にしているか、そのクライテリアが問題であることがお分かりでしょう。実際上、何かの症状や疾患がある(あるいは、たとえば集団検診なら、明らかな症状がない)人ばかり選んでいるという、偏りがあるに違いない。なぜなら、その値が生命あるいは疾患と関係があるからこそ測ってるんですもん。つまり、「あるクライテリア(プロトコル)に当て嵌まる人についての分布」というものを相手にしているんです。だからある範囲に集中した分布を示すのがむしろ当然でしょう。(逆に言えば、もし「そのクライテリアがどういうものなのか不明だ」ということだと、統計を取るのは無意味です。)  さて、ご質問にある対数正規分布に似た分布を示す因子はどうでしょうか。そういう分布に見えるということは、少なくとも裾野が広がっている。ある範囲に集中してはいないじゃないか。これは以下のように考えられます。  γGTPやALTが何なのか知りませんけれども、それらはおそらく、(pHとは違って)生命や明らかな自覚症状とは強く関係していない因子なのでしょう。だから、「見た目では正常な人」というクライテリアで(偏って)被験者を選んだ場合に、見た目では正常なのに異常な値を示す事があって、分布の裾野がある程度広がっているのだと思われます。言い換えれば、「ともかく無症状である」人と、「疾患を持っていないという意味で正常」の人とがクライテリアの中に混在していて、きっと、後者がピークを形作り、前者が裾野の広がりを作っているのでしょう。  もちろん、こういう場合こそ、検査に医学的意味がある訳です。(ですから、「検査対象とする因子」というもの自体にも、「医学的に意味のある検査だけ選んでやっている」というバイアスが掛かっていることが予想されます。)  すると、ご質問は「あるクライテリアに属する被験者に関する生理学的モデルから分布が予想できるような因子は、どんな性質を持つだろうか。」という問いです。が、クライテリアに関して適切な条件を設けずに、この問いは意味をなすでしょうか。いやその前に、この問いには医学的・生理学的意味があるでしょうか。  ここまでの議論をご覧になって、なおこの問いを追求なさりたいと仰るのであれば、話のクライテリアを明確にするために(ご質問も回答も)もう一度仕切り直すべきではありますまいか。

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

全体的に質問の意味がイマイチよく把握できないのですが、、、 > しかしγ-GTPやALTなどの因子は対数正規分布を示すと言われています。 分布が片側に偏っている場合が多いので対数変換などを施して正規分布に近似させて処理するということです。 > 体内因子の分布というのはある程度予測できるものなのでしょうか? 分布を予測するとはどいういうことを意味しているのでしょう?得られたデータから完全に母集団分布を予測することは不可能で、検定などの前提条件とされている正規性(分布が正規分布に従っているかどうかということ)は"ある程度"認められればよいわけで、絶対に完全に正規分布に従っているという必要はありません。 [γ-GTP 正規分布]といったキーワードでgoogleすれば色々と出てくるようです。

noname#226079
質問者

補足

説明不足でわかりずらい所、ご回答いただき有難うございます。 はい、backsさんがおっしゃる通り、γ-GTPやALTは分布が偏っているので、対数変換して正規分布に近似させることが多いようです。 しかし、生体内物質では対数変換しても正規分布に近似できないものももちろん沢山あると思います。 また、データを得ればそのデータの歪度や尖度などからそのヒストグラムが正規分布をとる傾向にあるのかどうかも解ります。 私の質問の意図としましては、 「生体内物質の濃度を測定する前(データを得る前)に、その生体内物質の濃度がどのような分布を取るかの予測が出来るのかどうか」 ということです。例えばこの物質はどこから分泌されて、どのような代謝経路を辿り、どのような役割をしているかが解っている場合、実際の濃度のデータを得る以前であっても、その物質濃度が正規分布、対数変換正規分布、非正規分布の中でどの分布の傾向を取るのかを予測することが可能かどうかと思いまして… 私自身もまさしく[γ-GTP 正規分布]で検索したのですが、予測のことは載っていなかったので質問させていただきました。

関連するQ&A

  • 対数正規分布

    ある実験のデータの値が正規分布していなかったのに、対数変換した値は正規分布することがありますが、それはなぜですか? もとの値は正規分布していなかったのに、対数で正規分布していたら正規分布していたとして良いのでしょうか? 統計についてあまり詳しくわからないのです…。 よろしくおねがいします。

  • 統計学 正規分布と対数正規分布の比較方法

    統計学についての質問です。 比較使用としている群で、ひとつの群は正規分布( Shapiro-WilkのW検定、p<0.05)で、もう一つの群が対数正規分布(KolmogorovのD検定)となりました。この二群間にて数値の有意差を検定するときの検定方法は正規分布の二群間と同じようにt検定等といったパラメトリックな検定を用いて問題ないのでしょうか? また、正規分布と対数正規分布の二群を検定する検定方法はどのような方法が望ましいのでしょうか。 対数正規分布は標本数8検体で、正規分布のものは3検体~12検体となっています。

  • 統計の取り方

    初めまして。病気なるひとつひとつ因子についてわけて統計をとりたいと思っています。数学でいうなら正規分布なのでしょうか。 どうぞ教えて下さい!

  • 統計学・推定量、分布とは?

    統計学を勉強をしているのですが 最良不偏推定量というものがでてきて、前提条件やら計算の仕方などは書いてあったのですが最良不偏推定量自体は何を表しているのかわかりません。ウィキも見たのですがいまいち理解できないので簡単な説明をお願いします もう一つ、分布について正規分布からカイ二乗分布、t分布、f分布の形に変形できるということはわかりましたが実際使うときに上の4つの分布のうちにどれを使うかを判断する方法はどのような方法でしょうか? 漠然としていますが宜しくお願いします

  • 統計学の問題です。正規分布

    男子学生の身長の分布が正規分布N(μ、8^2)であるとするとき、 無作為に選んだ25人の学生の身長の平均値でμを推定したとき、真のμの値と2cm以上くい違う確率はどれほどか。 統計学の問題です。 どなたか途中経過を含めて教えてください。 お願いします。

  • 統計入門書によると、中心極限定理に関して「もし、母集団が正規分布に従っ

    統計入門書によると、中心極限定理に関して「もし、母集団が正規分布に従っているならば、標本の大きさnの大小に関わらず、その平均の分布は正規分布」という記述があります。であるならば、母平均を区間推定する場合、zの値を用いて推定してもいいのかなと思いますが、ほとんどの書籍では、標本の大きさが小さい場合、tの値を用いて推定しています。なぜでしょうか?たぶん、自分がどこかで誤解をしているのだと思いますが、宜しくお願いします。

  • 正規分布

    研究を行っておりますが統計が難しくいつも悩みます。 2群間の比較を良く行いますが,基本的にはt検定を用います。 t検定を用いるには様々な条件が必要ですが,データが連続変数であり,正規分布であり,分散が等しいなどがあるようです。 そこでいつも悩む点が,正規分布はサンプルが正規分布なのか,推定母集団が正規分布なのか,本によって書き方が難解で解りません。 また,サンプルが5個とか10個程度でも正規分布を示すことがあるのでしょうか。 教えてください。

  • 切断された正規分布

    今ある標本(Y,X)の組があって、その母集団が正規分布であることがわかっているとします。 ただ、得られた標本(Y,X)はXがある閾値以上のものに限定されている(すなわち、正規分布の尾の部分のみが観測されている)としたとき、 母集団である正規分布の統計量を推定するにはどうすればよいでしょうか?

  • 分布形の決定と確率密度関数の算出

    こんにちは。 統計について質問させていただきます。 10,000個のデータ(平均値5.4E-05、標準偏差2.5E-04)を ヒストグラムに変換したところ、その分布形が対数正規分布とみなせそうです。 そこで、ks検定で分布形の推定を行っているのですが、ヒストグラムに対応しそうな 確率密度関数(pdf)と累積分布関数(cdf)の算出が分からず困っております。 ここ何日か、書籍やネットなどで調べてみたものの、何度やってもうまくいきません・・・。 ヒストグラムのデータ区間が小さすぎるのが問題ではないかと考えておりますが。 恥ずかしながら、統計学に関してはあまり学んだことがありませんので、 言葉足らで分かりにくいかと思いますが、 どなたか詳しい方、説明して頂けませんでしょうか。 少しでも分かりやすいように、画像を添付しておきます。 よろしくお願いいたします。

  • 統計に関する基礎的質問

    (1)標準偏差や標準誤差をエラーバーとして示して、95%の信頼区間が推定できるようにすることが多いですが、これらは母集団が正規分布しているという前提のときのみ成り立つものなのですか?(お忙しい中ご回答頂くので、回答は「はい」あるいは「いいえ」のみで大丈夫です。ありがとうございます!) (2)「統計手法を選択する際の6チェックポイント」というのを見ていましたら、「正規分布」か否かという項目がありました。母集団が正規分布するか否かというのはどうやって分かるのでしょうか?