• 締切済み

確率、データ分析、ならまかせてという方お願いです!

高校生の英語の教科書にある記述で、納得いかないところがあります。 話は前回のサッカーワールドカップ、タコのパウルくんをご存知ですか? 彼は3位決定戦を含めたドイツ戦計8試合の勝敗を的中させた予言タコと して認知されました。 普通に考えるなら、その確率は1/2^8 =1/256 なので、256人いれば 一人は的中ということに常識的にはなるのですが、Jose Meridaという データアナリストはコインモデルを使えば178人いれば十分に的中させら れる、と書いています。 なぜ256でなくて178なのかまったくメカニズムがわかりません。統計学 的な数字が関与しているのか、はたまた違うファクターがあるのか、どち らにしろ現実的には2のべき乗という単純な話ではない、とわかる方がお られたら後学のため、ぜひとも教えてください。お願いします。

みんなの回答

noname#227064
noname#227064
回答No.8

回答No.3お礼 > しかし教科書では、good chance つまり、十分に、ということなので、100パーセントを超えるという意味では?と思ってしまいます。 そう書かれているらしいですね。 100%を超えるということはないですが、それなりに確かな確率で全て当てられるならgood chanceと言ってもいいでしょう。 しかし、どこからgoodなのかは皆同じとは限りません。 私は、5割程度でgood chanceと言うのはどうかと思いますが、そのデータアナリストは違うのでしょう。 そういう基準が書いてあるかと思い元となったものを探してみたのですが、そこまでは記載されていないようなんですよね……。

全文を見る
すると、全ての回答が全文表示されます。
回答No.7

#4,#5です。 幾何分布の部分、「あのデータアナリストがどう間違えたか」の部分を全修正させて下さい。 検算を行ったら間違いに気付きました。申し訳ありませんでした。 まず、前提は復元抽出です。#5で述べたとおり、私の勘違いです。 それによって、各試行は、「非同時・独立」の試行となりますので、累積しても良いです。 178回目「までに」当たりが出現する確率は累積して「1を超えることはありません」。 ここは、計算間違いしていました。#3さんと同じ結果になります。 累積和は、確率密度の原則通り、∞まで累積すると初めて1になります。 以上が間違いの訂正です。 ここで補足ですが、復元抽出の場合、 178番目にくじ引くのは、1番目に引くより有利になっていることは、 決してありません。最後に引いても同じ確率です。 では、あのデータアナリストは、どういう間違いを犯したのでしょうか。 間違いの作り話をでっち上げるのもなかなか骨が折れますが、 多くの人は、177回も外れが続いていれば、そろそろ自分が当たるのではないか、 178回目までに当選が出る確率は、0.50176なので、 この確率だと、あと何回で当たりが出るかは、1/p=1.993 だと考えます。 これは、今回の試行を含めての値だから、次回以降は1を引いて0.993回。 つまり、178回目で、あと何回調べれば良いかという値が1を切ります。 そうです。もう調べなくても良いというのです。 どういう間違いを犯しているのでしょうか。 今のpは、今までに当たりが出る確率。つまり過去のことを言っているのであり、 今後当たりが出る確率、未来のことについての値ではないのです。 それを未来の生起確率として使用したことが間違いなのです。

echizenist
質問者

お礼

解答された文を自分なりによく読みました。256人いても、1/256を当てられるのは50パーセントくらいの確率だと言うこと、もちろんくじはいつ引こうが同じということはわかりました。統計学にとって、256分の1の確率をあてるのに178人という数字はいったいどんな意味を持っているのか、がいまいちわかりません。データアナリストも教科書もそんなにいい加減ではないと思うのですが。非復元抽出に関しては、よく理解できたつもりです。5分の1あたるくじを元に戻してあたりを引くまでの確率は5分の1より大きく、20回引いて99パーセントですよね。それでも178が気になります。ホセなんとかという有名な人なんでしょうか。

echizenist
質問者

補足

すみません、お返事が遅くなりました。マシントラブルで今日まで開けませんでした。今急いで読んでいます。取り急ぎ解答の方、ありがとうございました。詳しく読まないと、わからなそうなので、時間がかかるかも、です。

全文を見る
すると、全ての回答が全文表示されます。
noname#227064
noname#227064
回答No.6

少し気になったので、もとになった記事を探してみたら http://en.academic.ru/dic.nsf/enwiki/11844571#cite_note-Merida-36 これのreferencesの37が元のようですね。 スペイン語のようでなんて書いてあるのかよくわかりませんが、多分詳しい話は書かれていないと思います。

echizenist
質問者

補足

すみません、お返事が遅くなりました。マシントラブルで今日まで開けませんでした。今急いで読んでいます。取り急ぎ解答の方、ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
回答No.5

#4です。深夜なので、頭が鈍っていて間違えました。すみません。 幾何分布について、これは復元抽出です。 n-1回目までの確率は、外れくじを元に戻すので、一定になっています。 言いかえれば、同じ間違いを何度も犯すことを想定しています。 勝敗予想では、あり得ない想定ですね。 データアナリストに言いたいけれど、 予想の場面では、非復元抽出ですよね。 復元抽出、確率の累積、こんな間違いだらけの話を、高校の教科書に載せて良いのでしょうか。

echizenist
質問者

補足

すみません、お返事が遅くなりました。マシントラブルで今日まで開けませんでした。今急いで読んでいます。取り急ぎ解答の方、ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
回答No.4

私は企業で品質管理を担当しており、応用統計学で博士号を持っています。 この問題の類似問題は、今年3月の品質管理検定に出題されています。 私も、ご質問者同様このデータアナリストの説明は納得がいきません。 問題を簡単にするために、256ケース中1個の当たりがあるくじとしましょう。 これまでの回答者が回答されているように、もし、復元抽出(くじを元に戻す)であるなら、256回くじを引いても、それまでに必ず当たりが出るわけではありません。 全部外す確率(255/256)^256=0.367を1から引けばよいので、63%くらしか当たりません。 非復元抽出では、くじを戻しませんが、必ず当たりが出るのは、ご質問者の直感通り256回目です。これをご説明したいと思います。 まず、このデータアナリストがどういう間違いを犯したのか、紐解きましょう。 さて、くじを非復元抽出で引き、n個目で当たりが出たとしましょう。 n-1個目までは外れを引いているわけですから、その確率は、P=(255/256)^(n-1)・(1/256)です。 非復元抽出というのは、前に外れを引いたら、二度とそれを引かない、勝敗の予想では外れパターンは2度と予想しないということです。 この分布を幾何分布といいます。 このデータアナリストは、この確率を、1~178回まで累積しているのです。何を勘違いしたか、n回目「までに」当たりが出る確率は、その和だと思ったのでしょう。しかし、n-1回で出なかったときに、n回目で出たという確率は従属関係にありますので、和を取るものではありません。 実際に、エクセルで上のPを累積していくと178回で1を超えます。しかし!確率密度の積分(累積)は全範囲で1で、1を超えることはありません。ここで気付くべきです。 さて、では、非復元抽出でn回中に当たりを引く確率はどうなるかというと、256ケースからn個引く場合の数が全ての場合の数で、これが分母となり、1個の当たりから1個を引く場合の数×255個の外れからn-1個の外れを引く場合の数が分子となります。 P=1C1・255C(n-1)/256Cn です。 CはエクセルではCOMBINという関数で計算できますので、n=1~256について計算してみて下さい。256回目でやっと確率は1になります。これを超幾何分布といいます。 つまり、商店街の福引で、256個中当たりは1個というとき、 復元抽出では、256人目までに必ず当たりが出るかと言うとそうではなく、その確率は6割ちょっと。 非復元抽出では、256人目まで進まなくても178人目くらいで当たりが出るだろうと素人は考えるが(かのデータアナリストも)、でも実際には、超幾何分布に従うので、確実に当たりがでるのは256人まで引かない分からないということです。 このような確率論は、製品の抜き取り検査では非常に重要です。だから、品質管理検定でも出題されるのです。

echizenist
質問者

補足

すみません、お返事が遅くなりました。マシントラブルで今日まで開けませんでした。今急いで読んでいます。取り急ぎ解答の方、ありがとうございました。追記、今ようやく読了しました。確かに非復元抽出は63パーセントになるかもしれません。ということは私の理解では確率は半分以下になりますよね。178はどこからきたのだろう。

全文を見る
すると、全ての回答が全文表示されます。
noname#227064
noname#227064
回答No.3

1/256の確率で8試合の勝敗を全部当てることができるのであれば、 1-(1-1/256)^178 = 0.5017603 から、178人いれば50%の確率で誰かが全て当ててくれる計算にはなりますね。

echizenist
質問者

お礼

はい、確かにその考え方、数式だと、50パーセントになりますね。しかし教科書では、good chance つまり、十分に、ということなので、100パーセントを超えるという意味では?と思ってしまいます。

echizenist
質問者

補足

すみません、お返事が遅くなりました。マシントラブルで今日まで開けませんでした。今急いで読んでいます。取り急ぎ解答の方、ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
  • ikuzecia
  • ベストアンサー率26% (364/1363)
回答No.2

>確率、データ分析、ならまかせてという方お願いです! 私は九九と分数の計算程度なら出来ますが 高校の数学はもとより中学の数学も怪しいですが このくらい解りますよ。 まず、貴方の理論が間違ってます。 ワールドカップの予選リーグ3試合は引き分けも有ります。 8試合の場合の数は3x3x3x2x2x2x2x2=864です。 >256人いれば一人は的中ということに常識的にはなるのですが、 たとえ864人いても一人的中とはなりません。 サイコロの1の目がでる確率は1/6ですが6回振ると 必ず1が出るとは限りませんね。 864人が申し合わせをし全員が異なる様に選ん時に 初めて必ず1人は的中となるのです。 >178人いれば十分に的中させられる、と書いています。 サッカーの試合はサイコロの目のように完全確率方式では 有りませんね。 サッカーでは必ず弱いチーム強いチームが有ります。 たとえばドイツと日本が戦えば勝ち、負け、引き分け が必ずしも1/3で出てこない筈です。 各々の試合の勝敗の確率を予想すれば 864通りあっても1/178の確率で十分的中できると言うことでしょう。

echizenist
質問者

お礼

はい、グループリーグでは確かに引き分けもあるんですが、パウルくんは時間内に選ばなかったら引き分けと予想、かなんかだったと思います。確かに引き分けを考えたら、大幅に数字が変わるんですが。Wikiでもそうだったので。

echizenist
質問者

補足

すみません、お返事が遅くなりました。マシントラブルで今日まで開けませんでした。今急いで読んでいます。取り急ぎ解答の方、ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

まず、ご質問は確率の話じゃありません。 > その確率は1/2^8 という考え方は間違い。考えるべきは、「(どんなに確率が低かろうが)起こりうる結果は何通りあるか」です。 (たとえば、3年間、毎年1枚だけ宝くじを買うとする。当たりか外れかだけを考えると、2^3 = 8通りの結果がある訳です。3回とも当たる確率なんて微々たるものですが、それでも起こりうる結果のひとつとして、3回とも外れる場合と同じように1通りとカウントしなくちゃいけない。)  それはさておき、必ず勝ち負けが決まる(引き分けなしの)勝負を8回やれば、結果は256通りだという計算は、ご質問の通り。  しかしですね、タコの事ならまだしもサッカーの事なんざまるで知らないstomachmanだって、優勝チームは3位決定戦に出場しないだろう、ということぐらいなら分かります。  勝負の途中結果によって、「ドイツ戦」の試合が行われない場合がある、ということを考慮に入れて、実際何通りの結果があり得るかを、もう一度数え直してみては如何でしょう。

echizenist
質問者

お礼

いま、読まさせていただきました。舌っ足らずだったかもしれません。決勝戦はスペイン対オランダ、3位決定戦は、ドイツ対ウルグアイを予想して、的中ですので、8試合連続的中なんです。情報不足で申し訳ありません。

echizenist
質問者

補足

すみません、お返事が遅くなりました。マシントラブルで今日まで開けませんでした。今急いで読んでいます。取り急ぎ解答の方、ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • データ分析について教えてください!

    あるサービスの解約を検討している人を引き止めたというデータがあります。 その人が解約を申し出たときに引き止められても、気が変わればいつでもやめられるという状態です。 そのデータから、継続率や平均継続日数など調べたいと思っていますが、数学が苦手な私に方法を教えていただけると助かります。(引きとめ策がどれくらい効果的だったか調べたいため) 1.解約を申し出たタイミングは人によって異なります。(本日まで) 1年前の人もいれば昨日の人もいて、昨日の人も含めると平均継続日数の計算に1日なども含まれるとことなりますが、スタートが違う人々の平均継続日数の求め方は単純に解約を申し出た日~本日までの日数割る人数でよろしいのでしょうか? 2.平均継続日数を出すには、現在解約している人を除いた人のみで計算すべき?? 3.引止め策がどれくらい効果的だったか、ほかに証明できる指標があれば教えてください。 質問がわかりにくいかもしれませんが、一人で悩んでいて大混乱しています。 どなたかお知恵を貸していただけると本当に助かります。よろしくお願いします。

  • データ分析について

    こんにちは。カテゴリ違いかも知れませんが、データ分析についてお教えください。 店頭でシャンプーを10商品売っているA店のシャンプーの売れ行き。 同じくA店でインターネットを通じて100商品のシャンプーの売れ行き。 ※店頭では10商品のみ、インターネットでは100商品のみ取り扱っています。100商品の中には店頭で取扱っている10商品は含まれています。 この両方を比較することは意味があるでしょうか?例えば、店頭で取扱っている10商品とインターネットで売っている同じ10商品の売上の比較ならわかります。 取扱っている数が違う店頭をインターネットのショップを比較することは意味があることでしょうか?素朴な疑問を感じたのでお教え頂けると嬉しいです。宜しくお願い致します。

  • データの分析

    データの分析の質問です (イ)と(ウ)が解説を読んでもわかりません 詳しい説明よろしくお願いします

  • データ分析のやり方

    ある物を見せる前と後の、前後のイメージ感の変化をグラフ化したいのですがどのようにしたら両者が対比できるようなグラフがかけるのでしょうか? データは「とてもソウ思う、ソウ思う、そう思わない、とてもそう思わない」と4段階評価法です。 どうしてもグラフのイメージがつきません。 どうぞよろしくお願いします。

  • データの分析 118

    nを2以上の自然数とする。次の問いに答えよ。 (1)変量xの値がx(1),x(2),・・・,x(n)であるとし f(a)=1/nΣ[k=1,n](x(k)-a)^2 とする。f(a)を最小にするaはx(1),x(2),・・・,x(n)の平均値で、そのときの最小値はx(1),x(2),・・・,x(n)の分散であることを示せ。 (2)cを定数として、変量y,zのk番目のデータの値が y(k)=k(k=1,2,・・・,n),z(k)=ck(k=1,2,・・・,n) であるとする。このときy(1),y(2),・・・,y(n)の分散がz(1),z(2),・・・,z(n)の分散より大きくなるためのcの必要十分条件を求めよ。 (3)変量xのデータの値がx(1),x(2),・・・,x(n)であるとし、その平均値をxバーとする。新たにデータを得たとし、その値をx(n+1)とする。x(1),x(2),・・・,x(n),x(n+1)の平均値をx(n+1),xバーおよびnを用いて表せ。 (4)次の40個のデータと平均値、分散、中央値を計算すると、それぞれ、ちょうど40,670,35であった。 120,10,60,70,30,20,20,30,20,60 40,50,40,10,30,40,40,30,20,70 100,20,20,40,40,60,70,20,50,10 30,10,50,80,10,30,70,10,60,10 新たにデータを得たとし、その値が40であった。この時、41個のすべてのデータの平均値、分散、中央値を求めよ。ただし、得られた値が整数でない場合は、少数第1位を四捨五入せよ。 この問題を解いてください。お願いします。

  • データー分析

    エクセルで A1 金額(1) B1 金額(2) A2 10000 B2 9000 A3 20000 B3 1400 A4 9000 B4 10000 と入力があり。 したいこと・・・ 金額(1)と金額(2)の突き合せで どちらも突き合せできないものには色をつけるなどして すぐ分かるようにしたいです。 上の場合ですと A2 とB4 A4とB2が一致で、A3 B3 が一致データーがないということが すぐ分かるようにしたいです。 教えてください。 お願いします。

  • データ分析について

    統計初心者です。2000人ほどの体力測定のデータとアンケートデータで男女に分け条件で3群に分け分析しようと考えております。 量的データで打ち間違いや計測の怪しいデータを削除したいのですが、例えば「立幅とび」で怪しいデータの時は、その人の「立幅とび」の項目だけ削除でいいのでしょうか?怪しいデータがあったその人の全項目を削除するのでしょうか。また分析は一要因分散分析でよいでしょうか。 よろしくお願いします。

  • データの分析について。

    以下の画像が分かりません。ご教授下さい。すみません。(2)が何故(2)になるのかです。

  • データ分析について教えてください

    会社で顧客のリピート分析をしなければなりません。 一度購入した顧客のうち、1年後に50%がリピートしている というのが目標です。 つまり経過日数365日で50%が達成率100% だとすると、 300日で46%なら達成率は何%といえるのでしょうか? 何か良い計算方法を教えてください。 宜しくお願い申し上げます。

  • データ分析で何ができますか

    自分も一応大学でデータ分析の授業を履修してましたが、少し難しかったので、内容はほとんど覚えてません。 仕事でデータ分析の知識は具体的にどのようなときに役に立つのでしょうか。 エクセルで集計を出し、表を作成して、相関関係を見ることが一応できますが、それと比べてどのような違いがありますか。 いまはホームページ作成の仕事をしてますがどのような職種でもデータ分析の知識は今後必要となってくるのですか。 よろしくお願いいたします。

このQ&Aのポイント
  • Windows11に更新した後、MFC-J6583CDWでのカラー印刷ができなくなった。モノクロ印刷は問題なくできるが、カラー印刷ができない状況。
  • カラー印刷トラブルの解決を試み、プリンタドライバーを削除して再インストールしたが、問題は解決しなかった。
  • 質問者はWindows11を使用し、MFC-J6583CDWを無線LANで接続している。関連するソフトやアプリについては不明。
回答を見る