統計 考古学調査でのサンプル数と結果の妥当性

このQ&Aのポイント
  • サハラ砂漠にある古墳の中で、「鍵穴型円墳」は紀元前3000年前後のものと断定できるのか疑問です。
  • 統計的な妥当性を考えると、7基のサンプル数は少なすぎるのではないかという疑念があります。
  • 正規分布でない場合には最低6-8サンプルが必要と言われていますが、この場合の妥当性をどのように評価すれば良いのでしょうか。
回答を見る
  • ベストアンサー

統計 考古学調査でのサンプル数と結果の妥当性

統計について知識のないものからの質問です。 サハラ砂漠には様々な古墳がありますが、その中で「鍵穴型円墳」が約1000基あります。その内7基の年代測定をしたところすべて紀元前3000年前後に集中しています(CalBC3340-3030~CalBC2910-2700の範囲)。  この結果を受けて、「この形式の古墳は紀元前3000年前後のもの」と断定してよいものでしょうか。母数に対してサンプル数が少なすぎないでしょうか。 結果の妥当性はどのように考えれば良いのでしょうか。  別の方の質問への回答で、「正規分布でない場合は最低6-8サンプル必要」との説明を見つけましたが、このサンプル数での妥当性はどのように考えるべきでしょうか。 よろしくお願い致します。(素人の考古学愛好者からの質問)

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 ホントに断定するには全数調査が必要で、ひとつでも例外が見つかったらアウト、というのが、考古学で普通に言う意味での「断定」(年代決定の指標として使える)ってことではないかしらん。  ところで、「紀元前3000年前後」の「前後」というところが600年も幅がある。(逆に言えば「紀元前3000年前後ではない」という表現は一体どういう意味なのか)そこがどのぐらいユルい概念であるかによって、話がずいぶん変わりそうな気もします。  また、「正規分布を仮定する」なんてのは、よほどの根拠でもない限り採用できないしょう。で、1000個中7つしか調べてないような段階では、たいした根拠なんざ、ある筈もなかろうと思うんですけどね。  …という注意点を一応気に留めた上で考えてみましょ。  まず、「紀元前3000年前後である」というのが、ま、なんらか「厳密な性質」なのだと思って、これをHと書く事にします。そして、「ランダムに取ったサンプルがHである確率」をpとしましょう。で、観測事実X:「ランダムに取ったn個のサンプルはどれも性質Hを満たすものだった」から、pを推定しろ、という風に考える。(ただ、本当にランダム調査なのかどうかは、ご質問からは分からない。もし近場のやつをまとめて調べたりしてたら、ランダムとはとても言えない。が、ま、ま、それはさておき。)  たとえばp=0.65だとすると、p^7≒0.05です。つまり、実は墳墓の65%だけがHを満たす、という状況で、調べた7例が偶然全部Hを満たすということが生じる確率は5%ある。この時に言える推定は、ですから「有意水準5%で、p>0.65だ」ということです。言い換えれば「多分、鍵穴型円墳の2/3ぐらいがHを満たす」という話ですから、これでは仰るところの「断定」にはほど遠い。  そこで、有意水準5%で p>0.9 となるnを計算すると、 n≧29。  つまり、「29個のサンプルがどれもHだった」という観測があったとする。その場合、「鍵穴型円墳の90%以上がHを満たす」と言ったとき、それが間違っている確率は5%以下である。このぐらいになると、ちょっと「断定」っぽくなってきます。(サンプルがランダムでない場合には、間違っている確率はもっと大きくなります。)

hanafusa52
質問者

お礼

分かりやすいご説明ありがとうございます。 やはりサンプル数が少なすぎるようですね。

関連するQ&A

  • サンプル数の妥当性を統計で求めるには?

    初めまして。統計や確率には全くの素人ですので、間違った内容の質問になっているかも知れませんがよろしくお願いします。 ある製品の故障率を求めよという指示がありました。 ただしその製品はある試験で1000時間まで試験を行なった実績はあるのですが、1000時間で故障はありませんでした。 試験サンプル数は3台です。 これに対して、4台で試験したと仮定し、4台目が1001時間で故障したと仮定してワイブル分析を行いなさいという指示です。(通常この製品の試験はサンプル数3台で試験しているのですが、サンプル数3台による試験結果の妥当性を、過去の試験実績データ---と言っても故障実績の無い試験実績データですが---から立証せよというものです。) 質問1:以上につき、できるだけ具体的に分かりやすくご教授いただけますでしょうか? そもそもここまでの過程でつまずいていますが、これを求めるにあたっては故障率を想定する必要があるということも聞きました。 しかし対象の製品は部品ではなく、色々な電子部品が数百点以上実装されたいわゆる箱物です。 実際は一つ一つの部品の故障率を求め、総合して「箱物」としての故障率を求める必要があるのでしょうが、今回故障率に関してはそこまでしなくとも良いと。。。 質問2:家電製品なのですが、そのものずばりでなくとも結構ですので、一般的なテレビの故障率は○○、エアコンの故障率は○○という参考文献などありますでしょうか?又は、家電製品全般という括りでも結構です。 以上、非常に初歩的な質問ですし間違った認識で書いている部分も多々あるかとは思いますが、よろしくお願いいたします。

  • 検定のサンプル数について

    こんにちは。 最近レポートをまとめる際に統計学を使うようになった者です。 とても基礎的な質問だと思いますが、検定のサンプル数はどれくらいあれば有意差など調べる際に有効なのでしょうか?サンプル数によって使う計算式が違うというのを耳にしたのですが、実際はどうなのでしょうか? サンプル数が50~100ぐらいで有意差など十分な結果が出せるのであればいいのですが・・・ 教えて下さい。

  • 検証・妥当性確認のサンプルサイズについて

    開発製品のサンプルサイズの根拠についてお聞きしたいです。 開発中の商品の検証・妥当性のサンプルサイズについて、 弊社では過去に開発した製品の評価数を元に定めていました。 ただISO監査の際に、そのやり方だと類似製品の開発品の説明にはなるが、全く新しい製品のサンプルサイズの説明にはならないと言われて困っています。 統計学的手法でと言われても、ライン生産するものでは無く受注後1台ずつの生産ですし、コスト的にも何台も検証・妥当性確認するのは厳しいです。 少ないサンプルサイズでも問題ないと言える根拠が欲しいです。 お知恵をお借りしたいです、よろしくお願いいたします。 ※OKWAVEより補足:「技術の森( 開発・設計)」についての質問です。

  • 統計学的に有意かどうかを判断するためのサンプル数

    インターネット上に出している広告の有意性を見るためのテストをしているのですが、統計学的に有意かどうかを判断するためのサンプル数としてどれを見るべきなのか分かりません。「サンプル数400あれば、危険率5%で有意」みたいに使われてたと思うのですが、以下のようなケースでは、どう判断したらよいのでしょうか? ■行ったテストの内容  ABテスト:インターネット上に出した広告の効果があるかどうかを見るために、その広告を表示した「A群」と、その広告は表示せず代わりに関係のない広告を表示した「B群」を作り、比較検討してみた。(B群はあくまでも比較のためなので全体の5%程度表示されるようにした。ちょっと足りませんが。) ■実施結果(まだ途中の段階なのですが…現在のところ)  □A群:   ・広告表示回数: 8,434,601   ・購入数: 321   ・購入率: 0.00381% (=321÷8,434,601)  □B群   ・広告表示回数: 368,696   ・購入数: 13   ・購入率: 0.00353% (=13÷368,696) ■質問内容  ・上記のようなケースで、A群に出した広告は、果たしてどの程度「効果があった」   と言えるのでしょうか?現状、購入率の違いは、約8%(0.00381% vs. 0.00353%)   となると思うのですが、この数値は統計学的にどの程度有意と言えるのでしょうか?  ・ここでのサンプル数というのは、表示回数の8,803,297(=8,434,601+368,696)   でしょうか?それとも、購入回数の334(=321+13)でしょうか?  ・統計学でいうところの「危険率」や「信頼区間」は、いくつだということになる   のでしょうか?  

  • 少ないサンプル数でも使える機械学習

    はじめて質問させていただきます。 機械学習を用いて画像からオブジェクトの存在確率のようなものを求めたいと思っています。 しかし、手元にあまりサンプル数がなく(N<50)、公開DBなどもないので、少ないサンプル数でも機械学習で良い結果が得られるかわからず質問させていただきました。 機械学習にも数多くの手法があるので一概には言えないと思いますが、なにか対処法がございましたらご教示願います。

  • 母集団のばらつきをサンプルから推測【統計学】

    客先に納入している、ある製品の寸法のバラつきを聞かれ、n=10個でデータ測定して提出したら、「サンプル数が少ない!もっと信頼性のあるデータをくれ!」と怒られてしまいました。 で、統計学に基づいて抽出サンプル数を決めたいのですが、いろいろなサイトやここの過去質問を見て回っても、難しくてさっぱりわかりません。 ちなみに10個計ったときのデータは以下の通りです。 図面寸法:3.5mm±0.1mm 実測寸法:3.56mm~3.58mm 上記データより、母集団も大体はこの寸法前後に収まると予測できるのですが、95%の精度で寸法のバラつきを予測する場合、サンプル数をいくつ取ったらいいのかわかりません。 だれかご教授願います! ちなみに母集団の数は数十万個です。 しかも、サンプル数を決定した根拠を説明するために、資料も用意しなければならないので、どこかいいサイトがあったら教えてください!

  • 統計的に必要なサンプル数について

    以下のようなアンケートを実施した場合、統計学的に信頼のおけるサンプル数について、どのように考えればよいか教えていただけないでしょうか? 下記のようにビールについてのアンケートを実施し、最終的にビールの満足度ランキングを作成するとします。 【質問1】 普段一番よく飲むビールの銘柄は何ですか 1|アサヒスーパードライ 2|キリン一番絞り 3|キリンラガー 4|サッポロ黒ラベル 【質問2】 (1)「コク」についての満足度をお聞きします 1|大変良い 2|良い 3|普通 4|悪い 5|大変良くない (2)「切れ味」についての満足度をお聞きします 1|大変良い 2|良い 3|普通 4|悪い 5|大変良くない (3)「のどごし」についての満足度をお聞きします 1|大変良い 2|良い 3|普通 4|悪い 5|大変悪い 【質問3】質問1でお選びになったビールの総合満足度についてお聞きします。 1|大変良い 2|良い 3|普通 4|悪い 5|大変悪い ---------------------------------------------------- 【前提】 回答結果の内訳は以下の通りだったとします。 スーパードライ|600 一番絞り |400 ラガー|15 黒ラベル |100 各社ビールの総合満足度は上記3つの設問から算出します。 なお、3つの設問全てに下記の通り点数を付与します。 大変良い=5点 良い=4点 普通=3点 悪い=2点 大変悪い=1点 ここで質問です。 (詳細は省略しますが)ざっくり、まず総合満足度についての重回帰式を立て、それをもとに各ビール毎に総合満足度の平均値を算出、それらを比較(分散分析⇒多重比較で有意性の判断もする)して、順位づけを行う方法を考えています。 この時、例えば上記の前提条件では、キリンラガーのサンプルサイズが15と他と比べて少なかったりするわけですが、何をどう考えて、ランキング対象とするビールを決めればよいのでしょうか?

  • 統計学的なサンプル数の妥当性について

    ある回路の故障検査を行っています。 母集団は70,000本で、これは回路の全配線数です。 このうちの1%(700本)に対して、強制的にエラーを 付加した結果、外部から観測できたのは、630本でした。 このときの1%は、完全にランダムに選ばれたものと します。 これから、故障を発見できる確率は、    (630/700)*100 = 90% と計算できます。 このとき、この90%という確率の信頼性は、どのように 計算できるのでしょうか? ちなみに、視聴率の計算では、標本誤差が    ±2√(世帯視聴率*(100-世帯視聴率)/標本数) となると書かれていましたが、この式は今回のような 場合にも当てはめる事ができるのでしょうか? また、できるのなら、この式についての詳しい解説を よろしくお願いします。

  • 実測データからの誤差を求めるためのサンプル数とその方法

    マンセル色票と呼ばれる、1600色のデータの分光特性を調べようと思っております。それを基本データとし、ある実測データの解析を行う予定です。 しかし、1600と数が多く、すべてを調べるのは不可能なので、以前に実測したデータや、公表されているデータを使いたいと考えていますが、実験環境が同じとは限りません。 そこで、いくつかサンプルを抽出して実測し、誤差何%、よって、実測データの解析結果の誤差何%、という最終結果を得たいと思っています。 質問は、 ・どれくらいの数のサンプルを、どうやって抽出すればよいか ・誤差と許容範囲の計算方法 以上を教えてください。よろしくお願いいたします。

  • 試験におけるサンプル数について

    当方、電子製品の評価試験を行っている部門で仕事をしているものです。 早速ですが、質問させていただきます。 当方の電子製品の評価試験は、環境、寿命等様々な試験がありますが、評価台数は、当方が入社したときから一つに試験につき、サンプル数は5台以上ということになっています。 しかし、先日、試験報告書を客先へ提出したところ、「評価台数が5台で十分ですか?」と指摘を受け見直しているところです。 当然、10台、20台と台数を増やしていけば、より信頼の増す結果となることはわかりますが、一般的な基準というのはあるのでしょうか? どなたか、ご教授の程、宜しくお願いします。