• 締切済み

離散と連続での確率の和および積分の考え方

普通、確率は例えば全部足したら1になるというような場合、Σpi=1というように表記します。一方で連続的なものは∫pdx=1となります。この場合、piは確率であり無次元で、その和をとっても無次元ということは理解できます。連続型の場合、pdxを確率とみなすという考え方になるのでしょうか。またpは確率密度関数ということになると思います。その定義はどのようなものなのでしょうか。pの次元はdxの逆数の次元となるということになりますが、pの定義を問うとしたら∫pdx=1としてそういうものという陰的な定義となるものでしょうか。そして例えばlim(dx→0)(dx区間の存在確率/dx)とかでしょうか。これだとデータがあっても計算できないわけですが。 実際に計測された大量のデータから確率密度関数を求めるという操作を行う場合、どのような手順になるのでしょうか。よろしくお願いします。離散量と連続量での確率の取り扱いということになるのかもしれませんが。

みんなの回答

回答No.2

いくつか基本的と思われることの理解や区別ができていないのではないかと、失礼ながら質問文を読んで最初に感じました。(言葉は悪いのを承知で書くと、新しく聞いた小難しい単語を散りばめた文章を読まされたような印象です。)質問に答えていませんが(というか質問文が〈答え〉を定めるほど正確でハッキリとした性質のものではないので)、専門家でもない者ですら気がつく程度の漫然としたコメントを以下に書きます。 質問文にて「∫pdx=1」などと書いているのは確率と確率密度関数の区別がついていないのではと少し疑ってしまいます。意外に思われるかもしれませんが、確率密度関数の値は1よりも真に大きい(どんな)値も取り得ます。指数分布の確率密度関数を考えてみればよいでしょう。あと pdx は確率ではありません。 また母集団と標本の区別もついていないように見えます。扱っているのが(大量のデータであろうと)母集団ならば確率質量関数にすべては集約されます。そもそも連続的でないので確率密度関数の出る幕はありません(が、連続近似としては役に立つかもしれない)。扱っているのが標本ならば、できるのはせいぜい母集団分布の確率密度関数を何らかの意味で近似することでしょう。「求める」のは無理です。近似ならば母集団分布としてどういうモデルを想定するのかとか(e. g. 正規分布と仮定して母数だけを推定する)、どんな尺度に関して近いものを選ぶのかとか(e. g. 母数だけの推定で済ませるのならば尤度関数の値を尺度にする)を定めておかなければ具体的な手順を示すのはどんな人にとっても無理そうです。そして、それらは(示されていない)扱っているデータの性格や分析の目的と密接に関連しているでしょう。 他の回答にある確率密度関数を累積分布関数の「微分」として定義するのは標準的なものです。(ただし、いつ存在するかとか、厳密にどういう意味かは難しい。)その回答に対するコメントを見るとヒストグラムにおける階級の恣意的なことを気にされているようです。恣意的ではない視覚的表現のひとつは経験分布関数(empirical distribution function)のグラフです。ただし直感的に解釈しにくいのが難点です。探してみてください。 最後に、技術的なことはともかく「なぜ確率密度関数を求めたいのか」や、「その目的を達するのに確率密度関数を求めるというのは適切な選択か」ということの方がよほど問題な気がします。 Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise. ---J. Tukey

  • f272
  • ベストアンサー率46% (8011/17119)
回答No.1

確率密度関数f(x)を定義する前に累積分布関数F(x)を定義して,f(x)=dF(x)/dxとするのをよく見かけます。F(x)についてはF(x)=Pr(X≦x)で定義します。 私が実際に計測された大量のデータから確率密度関数を求めるとしたら,データからヒストグラムを作ります。その後は,データに合うように適当な分布(例えば正規分布とか...)を当てはめます。

skmsk1941093
質問者

お礼

回答ありがとうございます。連続量として定義して示すというのは数学の微分積分論が背景となって論理性が揺ぎ無くなっているという風に理解できると思います。累積分布関数とはxより値が下である確率(未超過)で定義されると思います。 一方、実際のデータで処理するとなった場合、ヒストグラムを作っていくのですが、短冊(ヒストグラム)の幅はどれくらいか?という疑問があります。パッと出てきませんが何らかの指標がありましたね。でも、その指標は数学的なものではないように思うのですが。実際の処理をするところで解釈が存在し、その解釈の幅もまちまちという印象を持ってしまうのです。短冊の幅のゼロの極限をとり、もちろん確率もゼロになるけれども、その比率として確率密度関数が定義されるということはないでしょうか。すなわち、(短冊の間にある確率)÷(短冊の幅)で(短冊の幅→0)の極限が確率密度関数ということにはならないでしょうか。実際の離散データでやる場合はその近似を求めるということですが。

関連するQ&A

  • 連続と離散の確率分布の関数について

    確率変数が連続量(実数)の場合と離散量(例:サイコロ)の場合があります。 連続型の確率分布の場合、確率密度を例えば∞からaまで積分したものを確率分布P(a)としているのではないでしょうか。連続量ですから微分とか積分となじみます。 一方で離散量(例:サイコロ)では、変数と言っても1,2,3,4,5,6しかありません。、確率分布は1/6の等分布です。離散量ですから微分もできず、そういう意味で確率密度関数もないようなのですが、確率質量関数というものがあるようです。これは昔からあるものでしょうか。テキストには載っていないようです。確率の説明では常にサイコロを用いた離散量での説明が教科書に載っています。そのため確率質量関数は出てきておかしくないのにあまりなじみがないように感じています。これは昔からずっとあるものでしょうか。

  • 連続型理論的確率変数の平均の定義について!

    連続型理論的確率変数の平均は  ∫(∞→-∞)xp(x)dx    ※p(x)は密度関数のグラフの方程式                  xは確率変数 で定義されるのですが、なぜそう定義されるのか理解に苦しんでいます。 確率密度関数という曲線p(x)は、全確率1が確率変数の範囲でどのように分布しているか表しているグラフの方程式で、求めたい範囲の値と値までのx軸とグラフで囲む面積がその範囲内の値をとる確率になる。コトはわかるんですが、なぜ平均がこの式でもとまるのかが一切合財よくわかりません。教えてください!

  • 連続型確率変数

    離散型確率変数Xの密度関数をf(x)とすると、あるxでf(x)の値は、その点での確率となりますが、Xが連続型確率変数の場合f(x)の値は何を示すのでしょうか? 連続型確率変数のf(x)の一点の値は0になるので、確率ではないですよね?でも、例えば、最尤推定量の考え方は、母集団からランダムサンプリングされたあるn個の標本の実現値x1,x2,・・・xnが得られる確率を最大にする母数を求めるというものですよね? そうすると、母集団が連続型の場合は不具合が生じないでしょうか? 回答宜しくお願いしますm(_ _)m

  • 確率・統計の基本的な式について質問です

    確率質量関数:= p(x) 確率密度関数:=ρ(x) とした場合、dρ・ x=dp と見て良いですか? つまり離散値のp(x)と違って連続値のρ(x) は 例えるなら分布荷重wの様な物で、wを距離で積分すれば荷重F=∫ w dx が求まるのと同様にP(x)=∫ ρ dx が求まり、さながら質点のモーメントを求めるような式が 期待値=∫ p(x) dx で、 その連続値Ver. が 期待値= ∫ x・ρ(x) dx であり、 確率のモーメントを求めるのは重心を求める事にほど近い(関係が深い) という事でしょうかね? 参照 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q13242779663

  • 確率密度関数の求め方について

    ある一つの変数に対するデータを数多く収集したとします.一人ひとりに一つづつ値がある身長などです.それを使って身長に関する確率密度を求めたいと思った場合,どのような操作手順になるでしょうか.例えば,最低身長を1mとして5cm刻みのレンジでその中に入る度数を調べて全数で除して,棒グラフみたいなものができたとします.そのグラフの縦軸は確率という次元(無次元)になります.横軸は身長ですね.そのようにしててきたグラフは実は確率密度ではないと思います.なぜなら,確率密度関数を横軸(身長)で積分したら確率になるのだから確率密度関数は身長の逆数の次元を持つ必要があります.そうしますと,例えば先に求めた5cmのレンジに対応して求まった確率をその刻み幅5cmで除す必要があるでしょうか. このようなことが明記されているテキストがありましたら教えて頂きたいのですが.私の見る限りでは確率密度関数を実際のデータから求めるという演習が載っているものがなく,すべて確率密度関数が与えられているという前提での演習ばかりです. よろしくお願いします.

  • 確率密度を求める問題(基本的・・・)

    確率の勉強を始めたばかりで、基本的なことがわかってません。 確率変数Xの密度関数が、f(x)={3x^2,(0<x<1) 0,(その他)} であるとき、Y=1-X^2の密度関数を求めよ という問題を出されたのですが、イメージが湧かないので離散型に置きかえて 自分なりに考えてみました。以下の考え方でいいのでしょうか。それともピントが ずれてるのでしょうか。また、実際の答えはどうなるのでしょうか? f(x)dxは、各階級における発生確率を求める関数なので、離散型っぽく 書くと下のようになる。そして、Yは、1-X^2であるから、Xが一様に起こる 確率変数だとしたら3列目のようになるが、実際はXの発生確率はf(x)dxで あるから、1-X^2で求まる値にf(x)dxを乗じなくてはならない。 これを最後に、全体が100%として補正した値が1-X^2の確率密度(的)となる。 X  f(x)dx Y=1-X^2  f(x)dx*Y  p 0   0.0%  100.0%  0.0%   0.0% 0.1  0.3%  99.0%   0.3%  0.8% 0.2  1.2%  96.0%   1.2%  2.9% 0.3  2.7%  91.0%   2.5%  6.2% 0.4  4.8%  84.0%   4.0%  10.2% 0.5  7.5%  75.0%   5.6%  14.2% 0.6  10.8%  64.0%  6.9%   17.5% 0.7  14.7%  51.0%  7.5%   19.0% 0.8  19.2%  19.0%  4.6%   11.7% 1   30.0%  0.0%   0.0%   0.0%

  • 離散分布でも連続分布でもない確率分布

    数理科学2006年7月号「第2回使うための確率論入門」p.65寄り道によると、 「離散分布でもなく連続分布でもない確率分布も存在する」ということですが、 具体的にどんな分布なのでしょうか?

  • 確率密度関数の縦軸Y

    まず、確率分布表があって、X軸に離散的な数値が並んでいます。 つぎに、X軸が連続的な形の確率密度関数があります。この関数の曲線とX軸との間に挟まれる部分の面積が、確率Pであると本に書いてあります。この場合、曲線なので、面積の求め方は、積分を使うようです。 ところで、確率密度関数の縦軸Yは、この場合、何でしょうか? 横軸X軸は、確率をもって現れる変数(確率変数)であるようですが、縦軸って何でしょう? 統計ど素人

  • 確率過程 離散→連続

    今読んでいる本にある、ランダムウォークの離散的な確率過程から連続的な確率過程への拡張の際にわからないことがでてきたのでご教授願えますでしょうか?(今、他の文献の持ち合わせがないのです) x:t[i]秒後にいる位置 t[i]=iΔt:Δtを1ステップとしてiステップ後の時間(i=1, 2,・・・) p:右へ行く確率 q=1-p:左へ行く確率 まず離散的な確率過程を考えて i番目の変位をΔX[i]としてt[n]秒後の位置はx = X[n] = Σ[i=1,n]ΔX[i] <ΔX[i]>=(p-q)Δx,<ΔX[i]>=(Δx)^2 よりΔX[i]の期待値と分散は(p-q)Δx,4pq(Δx)^2 Δt→0, Δx→0の極限を取ったときのt秒後の位置をX(t)として、期待値と分散は <X(t)>=t(p-q)(Δx/Δt), σ^2=4pqt(Δx)^2/(Δt) となる。 ここでイキナリ、(Δx)^2/(Δt)は有限でp-qはΔx程度の大きさがないといけないとわかるそうなので、係数Dとcを以下のようにおけると書いてあります。 (Δx)^2/(Δt)=2D,p=(1/2)+(c/2D)Δx,q=(1/2)-(c/2D)Δx <X(t)>=2ct,σ^2=2Dt このDを拡散係数, cを漂速と言う。らしいですが、もって行きかたが不自然で納得いきません。 拡散係数はFickの法則から定義(?)するのではないでしょうか? この行間を埋める、もしくは他の方向からのアプローチできますでしょうか。 よろしくお願いします。

  • 確率分布関数の絶対連続性と特異連続性の違いについて質問です。

    確率分布関数の絶対連続性と特異連続性の違いについて質問です。 もし一言で分布関数の絶対連続と特異連続の違いを説明するようにいわれたとしたら、 「絶対連続のときは確率密度関数をもつが、特異連続のときは確率密度関数をもたない(密度関数で分布を表すことができない)」 と述べるのは適切でしょうか? よろしくお願いします。