確率密度関数の求め方について

このQ&Aのポイント
  • 確率密度関数の求め方について説明します。
  • 身長に関する確率密度を求める手順について説明します。
  • 既存のテキストでは、実際のデータから確率密度関数を求める演習が見つからないです。
回答を見る
  • ベストアンサー

確率密度関数の求め方について

ある一つの変数に対するデータを数多く収集したとします.一人ひとりに一つづつ値がある身長などです.それを使って身長に関する確率密度を求めたいと思った場合,どのような操作手順になるでしょうか.例えば,最低身長を1mとして5cm刻みのレンジでその中に入る度数を調べて全数で除して,棒グラフみたいなものができたとします.そのグラフの縦軸は確率という次元(無次元)になります.横軸は身長ですね.そのようにしててきたグラフは実は確率密度ではないと思います.なぜなら,確率密度関数を横軸(身長)で積分したら確率になるのだから確率密度関数は身長の逆数の次元を持つ必要があります.そうしますと,例えば先に求めた5cmのレンジに対応して求まった確率をその刻み幅5cmで除す必要があるでしょうか. このようなことが明記されているテキストがありましたら教えて頂きたいのですが.私の見る限りでは確率密度関数を実際のデータから求めるという演習が載っているものがなく,すべて確率密度関数が与えられているという前提での演習ばかりです. よろしくお願いします.

質問者が選んだベストアンサー

  • ベストアンサー
回答No.7

>確率密度関数の定義を明確にすること は,そのとおりです。 定義とともに,どのような仮定(前提)で話を進めるかが重要です。 確率や統計は,身近にあることが対象となりうるために,かえって定義が曖昧になっているような気がします。 かなり確率を学んでいる(私よりかも・・)ようなので,蛇足かもしれませんが,ビュッホン(Buffon) やベルトラン(Bertrand)の問題では,定義が不明確のため解答に混乱を招いてます。 (参考) http://www.core.kochi-tech.ac.jp/m_inoue/work/math_tale/01.pdf >すなわち連続型の確率論が先に来るというのが正しいのでしょうか 先に来る,という意味が,はっきりしませんが,連続型で全て表せると考えてもいいでしょう。 確率論でデイラックδ関数を取り上げ,離散も連続も積分を使って一般的議論という解説もあります。古典力学と量子力学の橋渡し,ですね。 >レンジの確率密度関数でなく,その単位レンジの密度関数です。というのは確率密度関数の定義が既に先にある,ことを意味していると思います. ここも微妙ですが,「 確率 」密度関数とまでは言っていません。その点,注意深く言ったつもりです。自分でも間違いやすいので・・・ 棒グラフで止めれば,「離散密度関数」でしょうし,さらに,後半で話したように,曲線近似までもっていけば,「確率密度関数」です。 >確率・統計という学問は解析とか代数という数学分野とちょっと異なっているように思います。 全くそうですね。冒頭述べた,身近にある,ありすぎる点から,問題をややこしくしています。 >確率・統計については逆に実際に計算する手法が先にあってそれが定義であるかのように理解してしまう側面があるのではないでしょうか. これも全く同意です。 例えば, 誰もが誤差分布の正規性を信じている。実験家は、数学的定理であると思っ ているからであり、数学家は、実験的事実と思っているからである。 (クラメール) なんて言葉もあるくらいです。 また,統計の計算手法をめぐっては,ここの回答No1にも出てきたsanoriさんと真っ向から対立したくらいですから, http://okwave.jp/qa/q6733154.html 計算,それが定義,という面はあると思います。 >数学的な厳密性に対して反乱することがほぼできません. 私も応用分野の人間ですから,そんなものですよ。 >私が挙げた箇条書きの計算手順で循環論になる部分があるとしたらどの部分でしょうか 2.各レンジの度数をレンジ幅で除したリスト(棒グラフ)を作成する. 3.そのリストを積分して値Sを求める.理屈から考えると総サンプル数になるが. の部分です。各レンジは,総サンプル数が得られたからこそ決められます。例えば,あとからサンプルを加えて行けば,レンジが変わることもあるでしょう。 その決められたはずの総サンプル数に計算を施して,総サンプル数を求める,総サンプル数が求まったら,レンジを決める,決めたら総サンプル数を求める計算をする・・・ こういうことですか? それなら,不要な計算です。

その他の回答 (6)

回答No.6

すみません,No4訂正です。 私の示した例では, 5 cm 当たり,でなく,10 cm 当たり(10cm幅)でした。

回答No.5

No4の図が、うまくUPできなかったようなので,ここに再掲です。

回答No.4

少々わかりづらい点があるのですが。。。 例えば,身長が 150cm以上160cm未満,10人 160cm以上170cm未満,10人 170cm以上180cm未満,10人 の合計30人いたとします。 それぞれの絶対度数10人を合計の30人で割って,相対度数を求めると 150cm以上160cm未満,1 / 3 160cm以上170cm未満,1 / 3 170cm以上180cm未満,1 / 3 となります。 人数を人数で割ったので,「無次元」と言っているのではないかと思いますが,いかがでしょうか? もしそうなら,絶対度数とか相対度数(あるいは割合)という言葉を入れてください。 そうでないと分かりにくい。 もし以上の私の推察が正しければ(質問者の意図を誤解してなければ),以下の解説を参考にどうぞ。 回答No1のお礼に示した 2.各レンジの度数をレンジ幅で除したリスト(棒グラフ)を作成する. 3.そのリストを積分して値Sを求める.理屈から考えると総サンプル数になるが. 4.各リストをSで除した値(規格化)がそのレンジの確率密度関数となる. は,間違いではありませんが,あまり良い方法でなく,また,循環論にもなっています。 例えば, 2.度数をレンジ幅で除するような2次操作をせずに,最初から,レンジ幅を調節(例えば,1cm)として,そこに落ちるデータ数を数えたほうが,生データをそのまま使えて正確です。 3.Sは,総サンプル数なのに,なぜ,わざわざ積分で求めるのでしょうか? 4.各リストをSで除した値(規格化)がそのレンジの確率密度関数. 変ですよ。2で,リストは,除されたレンジ幅(単位レンジ幅,例えば,1cmあたり)の度数となっています。だから,求めたのは,レンジの確率密度関数でなく,その単位レンジの密度関数です。 それなら,最初から単位レンジ幅を定め,その中のデータ数を求めて,そこから密度関数を割り出せば良いことです。 そもそも,問題が離散なのか連続なのか,混同した話になっています。 確率密度関数という用語は,通常,連続分布に使います。 上記のような離散分布の例では,確率質量関数(probability mass function)とか離散密度関数とか確率離散関数とか言われます。私も,このような離散と連続に対する用語の区別に賛成です。 それでは,まず,離散分布の場合。 上記例に示したように,離散密度関数は 1 / 3, 1 / 3, 1 / 3 となります。質問者が言うとおり,無単位(無次元と言うより,こちらのほうが良い)のように見えます。 その和は, 1 / 3 + 1 / 3 + 1 / 3 = 1 です。 しかし,これは無単位というわけではありません。「5cm当たりの確率」を示すからです。 あえて単位をつければ,1 / (5 cm) となります。 回答No1の指摘に近いものですが,私の推察どおりで,既に全数で割った話(つまり比率)なら,人 / (5 cm) のように「人」が付くことはありません。 通常は,このような,1 / (5 cm) は書かれていません。階級(この場合,5 cm)の逆数になるので,書かなくても分かるからです。 したがって,上記の和は,正確に書くと,それぞれ, 高さが,(1 / 3 )/ (5 cm) 幅が,5cmなので, 面積は,高さ*幅より, (1 / 3 )/ (5 cm) *(5cm) + (1 / 3 )/ (5 cm) *(5cm)+ (1 / 3 )/ (5 cm) *(5cm) = 1 / 3 + 1 / 3 + 1 / 3 = 1 となります。 ただしこれは,幅をcm (本例では,5cm)で表そうが,mm (本例では,50mm)で表そうが,m (本例では,0.5 m)で表そうが, 1 / 3 + 1 / 3 + 1 / 3 = 1 です。 つまり,x軸の単位に影響されません。いくつに区分するか(本例では,3)によって確率が変わります。 次に,連続分布の場合。 上述の離散分布に類似して,区間 150 cm ≦ x ≦180 cm で,一様確率密度関数を考えます。 すると, f(x) = 1 / (180 - 150) = 1 / 30  (150 cm ≦ x ≦180 cm) f(x) = 0  (その他のx) となります。 添付図左です。当然,面積は,30 *(1 / 30) = 1です。 ここでも,図の縦軸に「単位」が示してあることに注意してください。 通常は,これも書かれていません。x軸単位の逆数になるので,書かなくても分かるからです。 そして,確率は無単位,という思い込みの落とし穴がここにあります。 左図の縦軸は,いわば「1cm当たり」の出現率を示しています。 さきほど述べた,「単位幅」に相当します。 ここで,単位をcmの代わりに,mとしてみましょう。 一様確率密度関数は, f(x) = 1 / (1.8 – 1.5) = 1 / 0.3 = 1 0/ 3  (1.5 m ≦ x ≦1.8 m) f(x) = 0  (その他のx) となります。 添付図右です。これも,面積は,0.3 *(10 / 3) = 1です。 縦軸は,「1m当たり」の出現率を示しています。その値が,1を超えている点も注意しましょう。 両方とも,全体面積は1であり,10cm (0.1m)間隔で調べると,1/3 となります。 しかしながら,x軸の単位をどう取るかで,確率密度関数は異なってきます。 縦軸は,確率と呼ぶより,x軸に示された単位当たりの出現率を示しており,その関数が確率密度関数となります。 しかし,前述のとおり,それはx軸を見れば分かることなので,わざわざ「x軸に示された単位当たりの確率密度」と書かないで,せいぜい「確率密度」とか「相対頻度」などと書かれる程度です。 人口密度などという場合と同様に,確率密度というわけは,このように,ある単位あたりの出現割合を示すことから来ています。 離散分布の場合,離散密度関数をp(x)とすると ∑p(x) = 1 であり, 0 ≦ p(x) ≦ 1 です。 一方,連続分布の場合,確率密度関数をf(x)とすると, ∫f(x) = 1 ですが, f(x) は,非負,つまり f(x) ≧ 0 というだけで,1を超えることもある点に注意しましょう。 これは上記でも説明したとおりです。 >確率密度関数が与えられている問題ばかり ある意味当然のことです。 離散分布でも連続分布でも,事象の出現確率をどう関数で示す(近似する)か,という問題となります。したがって,既に知られた分布(例えば,ポアッソン分布とか正規分布とか)で近似できるかどうかという問題に帰着されるからです。もし,xを変数変換(例えば対数など)しても,既知のどの分布にも適合せす,新たに適合する密度関数を見つけられれば,それだけで優れた発見となるでしょう。 それでもなお,自分なりに密度関数を作ろうとすれば, ∑p(x) = 1 (0 ≦ p(x) ≦ 1) または ∫f(x) = 1 (f(x) ≧ 0) に合うように,p(x)なりf(x)を定めてやれば良いのです。 だから,質問者の考える方向性は誤っていません。

skmsk1941093
質問者

お礼

大変示唆に富む回答を頂き,ありがとうございます. 現在,この回答を印刷して検討しているところです.また途中までしか読み通しておりませんが,前段部分までの内容について私の考えを述べたいと思います. この一連の議論(私の元発言でも)において確率分布とか確率密度関数などの定義に触れられていないように思います.その部分が不明確のまま実例として確率密度関数の計算方法の手順をお尋ねしています.しかしながら一般的なテキストでは確率・統計では実例の方(サイコロとか宝くじとか)が先にあってそれらを元にして計算手順を示してからそのような物が確率密度関数である,という風な展開になっているように思います. 従って確率密度関数の定義を明確にすること,すなわち連続型の確率論が先に来るというのが正しいのでしょうか. 回答者さまのコメント: >変ですよ。2で,リストは,<中略>となっています。だから,求めたのは,レンジの確率密度関数でなく,その単位レンジの密度関数です。 というのは確率密度関数の定義が既に先にある,ことを意味していると思います. また,以下のコメント: >3.Sは,総サンプル数なのに,なぜ,わざわざ積分で求めるのでしょうか? 箇条書きした私の計算手順の中にもまだ連続量的なことが何も定義されていないのにその手順の中に”積分”のなどと軽々しく言っているわけで定義とか計算手順がごちゃまぜになっています. このあたりのことをしっかり整理したいと言う気持ちがあります. 以下,ちょっと大げさになるかも知れませんが,確率・統計という学問は解析とか代数という数学分野とちょっと異なっているように思います. 例えば力学現象は解析的に表現されており,それが厳密であることがとりあえず承認されています.それを離散的に近似してシミュレーションが行われていると思います.言わば学問的な教義の有り様が固定されているわけです.私が確率・統計に対してそのような理解が不足しているのでこのような質問が出てくるのだと思います. 確率・統計については逆に実際に計算する手法が先にあってそれが定義であるかのように理解してしまう側面があるのではないでしょうか. ”計算手順=定義”という混乱です. 私は先に述べた力学現象側の人間なので,数学的な厳密性に対して反乱することがほぼできません.しかし,確率・統計は具体例の方が優先されて理論が規定されていくのではないでしょうか.だから,確率・統計では発見者の名を冠した理論が多いように思います. 以上,大げさな展開となっておりますが,確率密度関数の根本的な定義についてお考えを頂ければと存じます. また,私が挙げた箇条書きの計算手順で循環論になる部分があるとしたらどの部分でしょうか.どこかに”ある定義の中にその定義が含まれる”ということじゃないのかなと思いますが.

  • africaa
  • ベストアンサー率33% (6/18)
回答No.3

確率密度を推定する方法ならあります。 density estimationで調べれば、推定する方法がたくさん出てきますし、本もあります。 しかしながら、これらの方法は密度の形状を推定するものであって、関数形を特定するものではありません。 今後、統計学を学ばれれば分かることと思いますが、確率密度関数を推定したいなら、まず身長という確率変数が従っている分布にパラメトリックな分布(正規分布やガンマ分布などなど)を仮定し、最尤法で分布の形を特定することならできます。

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.2

そのとおりです。 ちょっと補足しますと、 区間を細切れにすると、それだけ関数の精度は上がるのですが、 サンプル数(人数)がそれほど多くないなどの理由で棒グラフ(というかヒストグラム)のてっぺんがぎざぎざになるようだと、当てはめた関数(多項式近似など)が適切なのかどうかが判定しづらくなります。 (工業の品質管理のQC七つ道具のテキストに、たしか、ヒストグラムの区間の刻み幅を簡単に最適化する方法が書かれていますが、昔勉強したことなので忘れてしまいました。)

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.1

こんにちは。 >>>横軸は身長ですね. はい。そうです。 >>>そのグラフの縦軸は確率という次元(無次元)になります. いいえ。 人/(5cm) という次元になります。 そして、棒の高さを全部5分の1に縮めると、人/cm になります。 しかるのち、総面積(総人数)が1(1人)になるように規格化すると、 縦軸の単位が 1/cm で、横軸の単位が cm の確率密度関数のグラフになります。

skmsk1941093
質問者

お礼

ありがとうございます.箇条書きにすると以下のようでしょうか. 1.レンジ幅(5cmなどを決めて)その中に入る度数をカウントする. 2.各レンジの度数をレンジ幅で除したリスト(棒グラフ)を作成する. 3.そのリストを積分して値Sを求める.理屈から考えると総サンプル数になるが. 4.各リストをSで除した値(規格化)がそのレンジの確率密度関数となる.

関連するQ&A

  • 確率密度関数の縦軸Y

    まず、確率分布表があって、X軸に離散的な数値が並んでいます。 つぎに、X軸が連続的な形の確率密度関数があります。この関数の曲線とX軸との間に挟まれる部分の面積が、確率Pであると本に書いてあります。この場合、曲線なので、面積の求め方は、積分を使うようです。 ところで、確率密度関数の縦軸Yは、この場合、何でしょうか? 横軸X軸は、確率をもって現れる変数(確率変数)であるようですが、縦軸って何でしょう? 統計ど素人

  • 確率密度関数が対称であるかどうかを検定

    1次元データから確率密度関数を求めたとします。 その確率密度関数がある軸の周りで対称であるかどうかを 判定したいのですが、どのような検定手法があるのでしょうか?

  • 確率密度関数

    確率密度関数 確率変数Xの確率密度関数 f(x)=ax(x-4) (0<=x<=4) =0 (その他) これの関数f(x)のグラフとP(x>=3)を求めるのですが、aの求め方からわかりません。 お手数ですが、解き方も合わせて教えてください。 よろしくお願いします。

  • エクセルで階段状のグラフの作成

    横軸の値が 10 100 300 1000 それに対する縦軸の値が 100 90 70 0 となっているときに,グラフの横軸は1000まで1刻みで階段状のグラフを作成したいのですが方法がわかりません 縦軸の値は横軸10まではずっと100、11から100までは90…となっており、縦軸の値が変わる境界値が横軸というイメージです 100 100 100 100 100 100 100 100 100 100 90 90 90 90 90 90… のように1から1000まで1刻みでデータがあればできるのですが… 実際のデータは1000までではなく数千万個ほどでわざわざ同じデータをコピーするのも大変なので、なにかいい方法はないでしょうか? エクセル2013です よろしくお願いいたします

  • 確率密度

    波動関数の確率密度は、波動関数が実数なら常に0になります。ということは 実数の波動関数(たとえば1次元のポテンシャル無限大の井戸型ポテンシャルなど)は必ず定常波を作ると解釈してもよいのでしょうか。どなたかアドバイスお願いします。

  • 離散と連続での確率の和および積分の考え方

    普通、確率は例えば全部足したら1になるというような場合、Σpi=1というように表記します。一方で連続的なものは∫pdx=1となります。この場合、piは確率であり無次元で、その和をとっても無次元ということは理解できます。連続型の場合、pdxを確率とみなすという考え方になるのでしょうか。またpは確率密度関数ということになると思います。その定義はどのようなものなのでしょうか。pの次元はdxの逆数の次元となるということになりますが、pの定義を問うとしたら∫pdx=1としてそういうものという陰的な定義となるものでしょうか。そして例えばlim(dx→0)(dx区間の存在確率/dx)とかでしょうか。これだとデータがあっても計算できないわけですが。 実際に計測された大量のデータから確率密度関数を求めるという操作を行う場合、どのような手順になるのでしょうか。よろしくお願いします。離散量と連続量での確率の取り扱いということになるのかもしれませんが。

  • 正規分布のグラフ

    正規分布のグラフでは、横軸はそれぞれですが、縦軸は・・・なんなのでしょう? よく確率密度と表示されているのを見ますが、その確率密度の数字は何を意味するのでしょう? あの山型のグラフの山が高いと、発生頻度が高いとか、そういうものだとは思っているのですが縦軸にある数字が何を表すのかわかりません わかりやすい説明をお願いします

  • 密度関数を求める

    確率空間(Ω,F,P)上に各t > 0に対して確率変数Bt : Ω → Rがあり,t > s > 0のと き,(Bs, Bt) の分布(結合分布,同時分布)は密度関数が ρs,t(x,y) = 􏰂 1 e-x2/(2s)-(x-y)2/(2(t-s)) 2π s(t-s) で与えられる 2 次元正規分布(R2 上の正規分布)であるとする.(そのような無数の確率 変数が矛盾無く定義できることは知られていて,ここでは既知とする.) 問 (1) Bt の分布の密度関数 ρt(x)はどうやって求めればいいのでしょうか? 解き方が分かりません。何を参考にすべきでしょう?

  • 正規分布についての質問です。横軸は確率変数(身長ならば170cmなど、

    正規分布についての質問です。横軸は確率変数(身長ならば170cmなど、または標準化したzの値)ですが縦軸は0.1とか0.2などの数値が記載されております。この縦軸は確率変数に対応する相対度数のことでしょうか?宜しくお願いします。

  • 高低狂いパワースペクトル密度から高低狂い波形を生成する方法。

    高低狂いのパワースペクトル密度P(F)を用いて高低狂い波形を生成する方法がわかりません。 F:空間周波数である。 走行速度をvとするとF=f/vの関係からP(F)は時間周波数fの関数pr(f)に変換される。 すなわち、 pr(f)=P(f/v)/v この式の意味もわからないのですが、そこから縦軸変位z、横軸時間tのグラフをだしたいのですがどのようにすればいいのでしょうか?? パワースペクトル密度は数本の直線で近似したもので 横軸:Spatial frequancy (1/λ) [1/m] 縦軸:PSD P(1/λ) [mm2・m] でλは波長でこの逆数1/λ(空間周波数)であらわされるパワースペクトル密度です.