• ベストアンサー

アンケート統計で弾いても良い回答

ネット上でアンケート統計をとっているんですが、その中に「明らかにおかしい」と言えるような回答が混ざっていることがよくあります。 例えば、年齢が「0歳」になっていたり、身長が「10cm」になってたりするようなケースです。 こういう回答は統計分析の際に弾いても良いのでしょうか?

  • kknow
  • お礼率22% (51/231)

質問者が選んだベストアンサー

  • ベストアンサー
  • TIGANS
  • ベストアンサー率35% (244/680)
回答No.1

用途しだいでしょう そのような「欠損値」をどう扱うかはいろいろです 例えば年0歳でも、身長が妥当ならば母集団の身長サンプルには使えますが でも、それを年齢別の成長曲線にはつかえませんよね。

kknow
質問者

お礼

ネット上の統計なので、「0歳」という回答が入ってるとそれ以外の部分も極めて信憑性に欠けると思うんですが、どうでしょうか。 その人の身長項目が「140cm」という妥当な範囲の数字だったとしても、適当に入力した可能性が高いと考えてしまいますよね。 ただ、それを言い出すと「一見普通に見える適当回答」が他にもあるはずなので、統計的に弾いて良いものなのか疑問に思っているのです。

その他の回答 (3)

  • TIGANS
  • ベストアンサー率35% (244/680)
回答No.4

>「一見普通に見える適当回答」が他にもあるはずなので、統計的に弾いて良いものなのか疑問に思っているのです。 とりあえず故意の悪意回答は考えないとします (実際にはネットアンケートでは、ちゃんと考えないと全然ダメですが) 本人アンケートなら「0歳」は信憑性に欠けるでしょうね。 とすると、「3歳」「6歳」「9歳」「12歳」 どこから信憑性があることになるのでしょう? じゃあアンケートがもともと、ママさんへの赤ちゃんに対するアンケートなら? という問題に行き着きます。つまり「明らかにおかしい」という概念が恣意的なものです つまり、統計的に弾いて良いものなのかは、恣意的に決めるしか道はありません。

  • hue2011
  • ベストアンサー率38% (2800/7250)
回答No.3

普通に統計で行う方法を知りませんか。 極端値の除去、です。 一番大きい値、一番小さい値を集計から外すのです。 これは、何かの事故で取得された信頼性のないデータと疑われるから除去であって、事実と違うからではありません。 たとえば血圧の値で258なんて言うのがあったとすれば、それを集計から外すのです。 で、一番困るのは、自分の価値観でデータをフィルタリングすることです。 あなたのやろうとしていることで、これは明確に不適切なことです。正しくありません。これは変だと思うから抜こうという話でしょう。 それは一般的にデータの改ざんといって一番やってはいけないことです。自分が希望している集計結果を生むのに便利ですから。 たとえば大学の学費無料化をしたいと考えている人間が、現在の学生たちにアンケートを取って、もし月の生活費が50万以上だというような集計がでそうだったら、それは「おかしい」として高額のを全部抜くと、学生の平均生活費が10万以下になって、こういう人たちを助けるために学費無料化が必要だという結論を出そうとしたりするのです。 別に今回あなたがそういうことをしようとしているとはいいませんが、自分の価値観でこれは無効だと判断することがいかに間違ったことかご理解いただきたい。 こういうのを、感情的でも価値観でもない形で雑音として除去するのが極端値の除去という思想なんです。 統計分析をする場合は、極端値を抜いた集計をし、集計前の除去数がいくつであるという追記をするのです。それでフェアです。 少し書き足しますが、例えば身長平均をとろうとしたとき、2メートル3というのがあったら極端値として抜かれますが、これは無効なデータではないかもしれない。バスケットボールの八村塁の身長です。明らかにこういう人がいるのに集計から外すかというのは面倒ですが、除去数1としてそういうものがあったことを明示すればインチキではなくなるのです。

kknow
質問者

お礼

言いたいことはわかりますが、物理的にあり得ない数字もあると思います。 収入なら10億だろうと100億だろうと事実である可能性もありますが、 「0歳」「身長10cm」は100%あり得ないと言い切れる数字です。 他にも、矛盾する場合なんかもあると思います。 「身長120cm」なのに「座高121cm」とか。 これも100%あり得ない構図です。 こういうのは自分の価値観ではなく客観的な価値観であり、有効回答から弾くという選択肢があっても良いような気がするんですが・・・。

  • qwe2010
  • ベストアンサー率19% (2132/10811)
回答No.2

弾かないと、正しい統計は取れません。 一応、弾くのと、弾かないのでは、どれくらい数字が違うのか、計算するとよいですよ。 入れても、入れなくても、あまり変わらないのか、 大きな影響があるのかで、何らかの対策が、必要なのか、必要ないのかがわかります。

関連するQ&A

  • 統計学的なアンケートの取り方

    統計学的なアンケートの取り方 キーボードのタイプ方法をいくつか用意してタイプミス率を計測する実験をしています。 その際どの程度の人数に調査を行えば信頼できるデータとなるか悩んでいます。 統計学的な上手い手法があれば教えてください。 出来ればそのアンケート方が詳しく書かれている論文等の文献も添えていただけると助かります。 どうかよろしくお願いいたします。

  • アンケートで最適な回答数って

    例えば、30代の主婦に「新築マンションを購入する際に決め手となるのは何ですか?」というアンケートを実施したとして、最低何人の回答でマーケティングしたと言えるでしょうか?また仮に統計学上で、最も信憑性が高い回答数はどの位なんでしょうか?

  • 統計学に詳しい方教えてください!!

    統計学に詳しい方教えてください!! 統計学を勉強している大学生です。大学の友達の身長から日本の22歳の男児平均身長を予測したいのです。 友人は12人。有意水準0.05で計算すると・・・ 170.44cm<母集団平均<179.55cm  となりました。 総務省統計局のデータを見ると22歳平均が172.4cmで見事範囲に入りましたが、 エクセルで、「尖度=-1.39526」「歪度=0.2675」でした。 これは正規分布と言えるのでしょうか? この結果を正しく分析するならば、母集団平均予測は偶然だったというのが考察として適切なのでしょうか?

  • アンケートによる調査の統計

    統計の初心者です。次の推定方法を教えてください。 教育用のある自作ビデオを全国の小学校の特定の学年(例えば4学年)に見てもらうため、各学校に1本ずつ贈ることを企画しています。この予備調査として、ビデオが果たして面白いか否かをアンケートで調べようとする際、どれだけのアンケートを取れば、そのビデオが小学校で受け入れられるかどうかを予め予測するの役立つでしょうか? 因みに、文部科学省の統計によりますと、小学校数は直近で23,420校あり、例えば4学年の人数は約1,231,871名です。 またアンケートの仕方は「面白い」から「ぜんぜん面白くない」まで5つ選択肢、またはこの5つの選択肢に「わからない」を加えた6つの選択肢を設けようと考えています。 よろしくお願いします。

  • アンケートの回答数について

    アンケートを実施したときのデータとなる回答数ですが、 一般的に500とか1,000とか必要と聞きました。 そこで、上記を理由つけ(統計学的?)しているサイト、書籍を探しています。 例えば、『アンケートで回収する回答サンプル数は、アンケートにもより、一概に言えないが、一般的には、500(1,000)である。理由とし○○○...である。』というような記述が成されているものを求めています。 どなたか、ご存知でしょうか?

  • アンケートの統計処理について

    初めて投稿させていただきます。 アンケートの分析を行っているのですが、χ2乗検定を終え、多重比較を行いたいと考えています。 例えば、質問1に対しての答え方の差にどのような背景が関連しているかを調べたいのですが、どんな検定を行ったらよいのでしょうか。データは質的データが多く、標準偏差等を出せないため、主成分分析等を行えるのかどうかわかりません。 勉強不足でお恥ずかしいのですが、行き詰っていしまっています。どうぞご回答よろしくお願いいたします。

  • アンケート分析の仕方について学びたい

    こんにちは。 仕事でアンケートを取る機会があるのですが、どうもその結果をうまく反映できていないので、もっと勉強をしたいと思っています。 集計をして、数字を出して、どれが一番多いか、ぐらいにまとめる程度で終わらせてしまうのですが、もったいないと思うのです。 いろいろと調べて、統計学の一部にアンケート分析があることがわかりました。 統計学を勉強しようと本を借りてみたのですが、文系な私にはさっぱりで・・・。 どこかセミナーやビジネススクール、または大学に入って、など考えていますが、「統計学、大学」で検索をしてもなかなか出てこなくて。 どなたか、統計学(アンケート分析の仕方)を学ぶにはどうすればいいかお分かりの人がいたらぜひ教えてください。 現在、ハンバーガー統計学というHPを見つけたので、読んでいるところです。途中からわからないことだらけで???という感じです。 誰かに教わりながら、入門ぐらいはマスターしたいと思っています。 よろしくお願いします。

  • 卒論アンケートの統計分析

    学部の卒論で、アンケート調査を実施しました。 統計については、ヒストグラム、標準偏差程度しか理解しておらず、 以下の2点についてご教示いただけるとありがたいです。 (1)下記の【目的】のデータを得るために、どう分析すべきか。 (2)日本の学生・韓国の学生における分析結果の差が「統計的に有意」であることをどう示すか? --------------------------------------------------------- 【アンケート対象】 ・日本の学生(n=100) ・韓国の学生(n=100) 【目的】 ・上記の【対象】ごとに、「6要素(将来のキャリア、海外移住等、質問に記載のもの)が、英語学習の目的に与える影響度合い」のデータを得る。 (影響度合いは、6要素の順位といった定性的なもの、定量的なものどちらでも大丈夫です。) 【アンケート内容】 以下のような5択の質問が6つあります。 ■各質問の中から当てはまる選択肢を一つ選んでください。 Q1.英語学習の目的は、将来のキャリアのためである。 1.とてもあてはまる 2.ややあてはまる 3.少し当てはまる 4.まぁまぁあてはまらない 5.まったくあてはあらない Q2.英語学習の目的は、海外移住のためである。 1.とてもあてはまる 2.ややあてはまる 3.少し当てはまる 4.まぁまぁあてはまらない 5.まったくあてはあらない Q3.英語学習の目的は、〇〇のためである。 1.とてもあてはまる 2.ややあてはまる 3.少し当てはまる 4.まぁまぁあてはまらない 5.まったくあてはあらない Q4.英語学習の目的は、〇〇のためである。 Q5.英語学習の目的は、〇〇のためである。 Q6.英語学習の目的は、〇〇のためである。 --------------------------------------------------------- ご不明点があればご連絡ください。

  • 至急 助けてください! アンケート 統計 確率

    統計初心者です。具体的に説明いたします。 色違い((1)赤(2)白(3)青(4)黒)の同じ商品について200枚のアンケートをとりました。 (1)好きな商品を順番に並べる。 (2)実際ほしい商品を順番に並べる。 (1)好きな順(2)ほしい順 それぞれケンドール一致係数Wで順位性に一致性があると出ました。 (1)の結果は、全体で(1)赤 (2)白 (3)黒 (4)青の順番になりました。 (2)の結果は、全体で(1)黒 (2)白 (3)青 (4)赤の順番になりました。 好きな商品に赤という人は多かったが、しかし実際ほしいのは、黒という人が多かった と結論づけることができますか? (1)と(2)を比較するのにあたってまたさらに2元配置分散分析(対応あり)などで統計を行う必要がありますか。 行う場合、どのような統計で分析をかければよろしいでしょうか。 混乱しています。なにとぞ皆様のお知恵をちょうだいしたいです。よろしくお願いします。

  • アンケートの取り方について

    アンケートの取り方について 1、20歳以上の人を対象に、ある講座を受けたいか、受けたくないかのアンケートを取りたい場合、どれだけの標本を集めたらいいのでしょうか。 2、この場合、年齢層が広すぎてバラバラなので、そのアンケート結果は信用できるものになりますか。 統計学はよくわからないので教えてください。