• ベストアンサー

分散を求める時、データ数で割るのかデータ数-1で割るのかどちらが正しいのでしょうか。

この度、基本情報技術者試験を受けようと思うのですが、 分散を用いて答えを出す問題があれば、データ数でそのまま割るのか、それとも-1したデータ数で割るのか、情報処理技術者試験という垣根においてはどちらが正しいのでしょうか。 手元に情報処理技術者試験の対策本が2冊ありますが、一方はデータ数で、もう一方はデータ数-1で割れと書いてあります。 データ数-1で計算したほうがより正確な値が出るのはわかっているのですが、情報処理技術者試験ではどちらを採用しているのかわかりません。 ご存知の方、どうぞよろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • equinox2
  • ベストアンサー率48% (321/660)
回答No.1

>データ数-1で計算したほうがより正確な値が出るのはわかっているのですが そういう差異ではありません。 母集団そのものの値を使用するか、母集団からサンプリングした値を 使用するかの違いです。 http://staff.aist.go.jp/t.ihara/dispersion.html >情報処理技術者試験ではどちらを採用しているのかわかりません。 問題がどうかかれているかによりますが、分散の計算は過去問にも なかなか見つかりませんね。 いかのサイトの問1(H12春午前) )のような問題なら、 データ数をそのまま使えばよいでしょう。 http://www.ne.jp/asahi/license/ikawa17/info_2/kako/h12sp_am.html

arlstumia
質問者

お礼

ありがとうございました。

関連するQ&A

  • 2種類のデータ数が同じデータについてら平均値と分散

    2種類のデータ数が同じデータについてら平均値と分散を計算したら、同じ値でした。これらのデータはヒストグラムも同じ形状をしていると考えて良い。 ○か×か。

  • くり返しの数が揃わない時の2元配置分散分析

    2×2、反復数10の分散分析を行うつもりで試験を行いました。 要因A、Bの組み合わせ、計40サンプルを測定予定だったのですが、 1サンプルが測定出来ませんでした。 (つまり、10個、10個、10個、9個のデータが得られた) この場合、どうやって計算したら良いのでしょうか? 手計算でやろうと思っても、合計の数が違って来るし、どうやったらよいのか分かりません。 欠測データがあっても分散分析が行えるのでしょうか? とりあえず、4処理区として、多重比較は行えるかなとは思うのですが、 要因AとBそれぞれを足して(20サンプルと19サンプル、交互効果は無視して)検定する、 もしくは、10サンプル取れた他の区の反復を一つずつ減らして、 くり返しの数を9回として統計処理を行うのは間違いでしょうか?

  • マイナスを含むデータの平均と分散

    例えば, {-0.0027,0.0005,-0.0006,0.0003,-0.0002,-0.0002,0.0016,-0.0017,-0.0003,-0.0004,-0.0005,-0.0007} のようなマイナスを含む誤差データがあるとします. この誤差データの平均と分散を求めたいとしますと,単純に足してデータ数で割っただけだとマイナスでキャンセルされてしまって平均とは呼べないと思います. そこで平均二乗誤差を使用してデータの平均を求めた場合,分散を計算するときに使用する平均値のデータとしては,平均二乗誤差を使用しても良いのでしょうか? このようなデータ処理の仕方について,わかりやすい本がありましたらついでに教えていただけると助かります.

  • 投資の分散について

    これから投資を始めようとしている初心者です。 投資をすると貯金より利息がつき、資産を増やしやすいとされています。しかし投資には、会社等倒産や元本割れなどのリスクがあるため、一般的には異なる値動きのものに分散投資するのが望まれます。ここで疑問がわいてきたのですが、異なる値動きをするものに分散投資した場合、リスクは分散されますが、利益も分散されてしまい、包含すると利益と損で相殺してしまうのではないかと思われるため、本当に分散投資がよいと言えるのでしょうか? 或いは分散投資の場合、マイナスになるものがある一方、プラスに出るもののプラス度合や数が平均すると大きいため、双方合わせても全体としてはプラス傾向になる、という解釈でよろしいでしょうか。 素人質問ですみません。よろしくお願いします。

  • 分散の求め方、量が多いほど分散が大きい。この解決法。

    各国の米の生産量の分散を求めて乱数を発生させることを考えています。 その乱数は1を平均として(つまりパーセントで)正規分布で発生させようと考えています。 純粋に生産量の分散を計算すると生産量の多い国ほど分散の値が大きくなってしまうことに気がつきました。 通常、どのような処理の仕方をするものなのでしょうか? 私のとった処理法は (平均値との乖離/平均値)^2 を合計し、標本数で割る というものです。 これによって、生産量に関わらず分散の大きさが国ごとにでた感じがしますが、自信がありませんし、どのような考え方があるのか知りたいので教えていただけませんでしょうか? もし、良い教科書などがありましたらそれも教えてください。

  • 分散インターフェースについて

    分散インターフェースという言葉がありますが、意味を調べているのですが、 なかなか捉えづらいので質問に至りました。 検索すると、どこからでも異なるデバイスで、情報処理できることのようですが、 それは、ユビキタスという言い方も当てはまるように思いますし、 クラウドコンピューティングもそのような感じではとおもいます。 どのような分類体系になって、どのような技術や仕組なのか、明確に知りたいのです。 お詳しい方がいらっしゃられましたら教えて下さい。 よろしくお願い致します。

  • 標準偏差の評価において妥当なデータ数は幾つか?

     標準偏差や分散などのデータのばらつきを調べる場合、評価の対象にするデータ数が多い程、その母集団の性質に近くなります。しかし、評価するデータ数が2個では、それから標準偏差を求めても、それが母集団の性質を表す数値とは言い難いです。評価するデータ数が幾つ以上であれば、その標準偏差や分散が意味のある値となるのでしょうか?一般的に。

  • サンプル数が大きく異なる分散分析について

     大学の統計の講義で勉強しています。分散分析で少し疑問があったので質問させてください。  練習用のデータでは、幸福度に関する調査で、量的変数として1~10の段階評価の幸福度があり、質的変数は幾つかあったのですが、自分はその中から、年齢(20代/50代)と喫煙の有無の2種類を選びました。  このデータから2要因の被験者間分散分析を行い、喫煙の有無(有/無)と被験者の年齢段階(20代/50代)と、その組み合わせの効果によって幸福度の平均値に差がでるかということを調査してみようと考えました。  しかし調べてみると、20代の喫煙有り/無しが(12/95)。50代では (15/90)とサンプル数が大きく異なっています。  このようなケースで分散分析を行った結果は、信頼できるものといえるのでしょうか?また、言えない場合はどのように調整すればいいのでしょうか。データ数を揃えるために、多い方のデータから無作為抽出を行って必要な分だけデータを取り出してしまったりしていいんでしょうか?  よろしくお願いします。

  • 14桁の16進数を10進数で表した時の桁数

    いつもお世話になってます。 情報処理技術者試験の問題で分からない部分があったので質問させて頂きます。 ***問題 14桁の16進数を10進数で表した時の桁数 但し、log10(2) = 0.301とする。 ***解答 log10(16^14) = 14 * log10(16) = 14 * log10(2^4) = 14 * 4 * log10(2) = 14 * 4 * 0.301 = 16.856 繰り上げて答えは17桁になります。 質問ですが何故、14桁の16進数の最大値の桁数が16^14と同じになるのかが分かりません。 14桁の16進数の最大値は16^14 - 1になるので、 桁数も16^14 - 1と同じになるのではないのでしょうか。 基本的な事を見逃している気がします。 解答宜しくお願い致します。

  • 二元配置の分散分析、多重比較法のときデータの数が合わない場合は?

    反応時間を測定して分散分析を行ないたいのですが、外れ値を検出してそのデータを捨てると、各水準のデータの数が異なってくるため、繰り返しのある二元配置分散分析や多重比較(方法によっては)ができません。 ボタンを押して反応時間を測定してもらうため、押し間違えや押しそびれなどがどうしても生じてしまいます。そのためデータの数が少し異なってしまいます。 このような場合は平均値を代用値として使って埋めてもいいのでしょうか? 代用値の決め方や他の分析方法があればご教示のほうお願いします。

専門家に質問してみよう