• 締切済み

統計

統計学の重回帰を勉強しているものです。 解析ソフトを使って、重回帰の練習を使用と思うのですが、無料のデータセットで初心者でも比較的スカイやすい無料のデータセットは何かご存じですか? Kaggleというサイトで調べたのですが、あまり変数が使えるデータセットがなかなか見つかりません。見つけかたが悪いかもしれませんが・・・ おすすめのデータセットがあればお願いします。

  • suns
  • お礼率22% (211/936)

みんなの回答

  • unokwave
  • ベストアンサー率58% (966/1654)
回答No.1

国が公開している人口統計などを利用すれば良いのでは? 過去の各年の統計がそれぞれあるということは、答えが用意されているわけですし。

関連するQ&A

  • 統計おしえて!ロジスティック回帰でいいのかな?

    10項目程度の質問項目があります。 すべて、YES、NOで答えるタイプの項目です。(質的なデータで二値性) そのうち、ある一つの項目を従属変数(目的変数)としてほかの項目を独立変数として多変量解析したいのですが。。。 「ロジスティック回帰」を使えばいいのですか? 各独立変数ごとに従属変数に対するオッズ比が算出されるのですか? あと、これも重回帰のように独立変数の選択問題で当てはまりがよくないモデルがあったりするのでしょうか? あと、ロジスティック回帰を行いたいのですがソフトがなくて・・・ 無料でできるフリーソフト(初心者でもわかりやすい)とかあったら紹介してください。 たくさん質問してすみません。どれか一つでもわかるところがありましたら教えてください。お願いします。

  • 統計学の多変量解析の考え方で困ってます

    1)症例数が23程度で、多変量解析をしています。重回帰解析において、ある物質がP<0.05となるのですが、独立変数の選択の仕方で、Pが出たり出なかったりします。独立変数の選び方で、変わるならば統計者の意図が入る形になり、biasがかかる気がします。症例数が23程度での重回帰解析に意味はないのでしょうか?また同じ独立変数でstep-wise解析を行っても、その物質のみが採用されるようです。多変量解析を行ううえで、step wiseと重回帰解析の使い分けについてご教授ください。教科書的には重回帰で目安をつけて、step wiseで確認するみたいに書かれていますが、その認識でいいですか?

  • 統計解析ソフトRで単回帰分析(繰り返しあり)とその95%信頼限界を求めたい

    統計初心者です。 統計解析ソフトRで単回帰分析をしようと思っています。単回帰分析は繰り返しがある場合です。さらに回帰式の95%信頼限界を求めたいと考えています。昨日、書店を回って成書を見たのですが、上記の説明がされているものを見つけることができませんでした。 テキストファイルからデータの読み込みはできましたし、散布図を作成することもできました。 しかし、n=3のデータをそのままlm(従属変数~独立変数)として計算させると、Coefficientsの値(切片、傾き)が全く異なる値となります。 そこで 1.繰り返しがある場合、普通にlmだけでは解析できないのでしょうか。 また、95%信頼限界については、どのように取り組めばいいのか、検討がつきません。 ご教示の程、よろしくお願いします。 2.さらに、95%信頼限界の求め方を教えていただけないでしょうか。 よろしくお願いします。

  • 統計解析法に関して

    統計学に関しては全くの初心者です。現在、ある疾患の原因究明の研究に携わっています。具体的には、死後脳を使って候補遺伝子の発現量の違いを疾患群と健常者群とで比較検討を行います。そこで、データの解析法について御指導していただきたく存じます。論文など参考にするのですが、結果のみでそこにいきつくまでの考え方、解析の流れなどが判然といたしません。 得られた発現データと診断にてT検定を行うだけならクリアカットですが、死後脳を扱うために種々の影響を考えないといけないのではないかと思っています。実際、論文にはPMI(死後、脳摘出までの時間)、pH、死亡年齢などを考慮したように書いてあります。私の扱っているサンプルも調べてみると疾患群と健常者群でPMIなど有意な差があります。そのため、診断以外の変数が遺伝子の発現に影響している可能性を考える必要があるかと思います。素人なりに考えたのですが、それは重回帰分析をすればよろしいのでしょうか。それで発現量に影響を及ぼしている変数が見つかれば、それを共変量としてANCOVAを行う。発現量に影響を与える変数が見つからなければ、T検定もしくはOne-way ANOVAを行う。こういった考え方でよろしいでしょうか。統計ソフトはSTATISTICAを使う予定です。何卒、御指導の程よろしくお願いします。

  • 統計学の質問です@

    統計学の質問です.一つの目的変数と複数の説明変数の重回帰分析で求まった決定係数が0.5より低いと目的変数と説明変数の間には相関関係がほとんどないということですか? あとt値は何を表しているのですか?

  • ステップワイズ法が出来る市販ソフト

    統計の初心者です。 重回帰分析のステップワイズ法が出来る、安価な市販ソフトを知りたくて質問させて頂きました。 現在、4stepsエクセル統計(第3版)を持っており、データを重回帰分析をしたところ、強制投入法、変数増加法および変数減少法は選べるのですが、ステップワイズ法(変数増減法)はないようです。 エクセルの分析ツールにはステップワイズ法はない・・と思います。 ネットで検索したところ、数万円程度のソフト(エクセル統計2015)は見つけたのですが、可能ならば数千円程度で手に入れたいと考えています。 フリーソフトはあるようですが、信頼できるか判断できないので、出来たら市販品を買いたいと考えています。 そこで、ステップワイズ法が出来る安価なソフトをご存知ならば、教えて頂けないでしょうか。 また、エクセル統計ー実用多変量解析編ー にはステップワイズ法はありませんか? 知っている方がいらっしゃいましたら、是非よろしくお願い致します。

  • 統計 やはり以前の質問に疑問が・・・

    以前、重回帰分析についての従属変数と目的変数との関係について、疑問に思い、以下のような質問をしました。↓ 【重回帰分析の目的変数が、(A+B+C+D)というものとします。 A~Dは、数量データです。 説明変数にAやBなどが入っていたら、それはダメですか? 説明変数X(Aとか)が目的変数Y(A+B+C+D)の一部の構成要素だったら、Xを使って重回帰分析はやったらダメなのですか?】 答えとしては、【してもよい】と受け止めました。 しかし、独立変数が従属変数の一部だと関係が強すぎてこれはやってはダメと考えるべきだという人もいます。(一応統計のできる人が言ってました) そういわれたら、そう思います。YにA、B、C、Dなどは関連しているので、重回帰分析の独立変数にA、B、C、Dは使用してはダメだということです。 ・・・結局、何が正しいのかよくわかりません。もしよかったら、考えなど教えてください。

  • 統計 単回帰 Xに性別はOKですか?

    大変お世話になります。 単回帰について教えてください。 単回帰のxに性別を入れてyとの関係をみることはできないのでしょうか?(StatFlexという統計ソフトを使用しています) 具体的には被験者の性別をx、サイトカインの血中濃度をyとして、単回帰を施行したいのですが、データベース型にサイトカインの値と、性別(M or F)を入力しても、統計>多変量解析>2変量統計で進んでいくと、X軸y軸共に選択肢に性別があがってきません。ダミー変数にしてみてもかわりませんでした。 また同様に病期1,2,3,4についても、選択肢に上がってこないのですが、 xには性・カテゴリーなどは使用できないのでしょうか?連続変数でないといけないのでしょうか? 統計不慣れなもので、常識内の質問であったらお許しください。

  • 重回帰分析に適したソフト

    重回帰分析によって、10種類ほどあるデータ(説明変数)から回帰式を作ろうと思います。 まずデータ数も10程度しかないので単回帰係数や、物理的な意味合いからデータの 候補を絞り、そののち説明変数を数学的に選ぼうと思います。自分は、本を少し読んで ステップワイズ法や偏回帰係数など勉強しはじめました。 そこで、上司に「市販ソフトを使って解析をすればよい」というアドバイスをもらったのですが、 何かお勧めのソフトはありませんか。数千円くらいがベストですが、2,3万となると少し抵抗があります。 SPSSなど有名なソフトは高そうなので、本屋に売っている、「本+おまけCD」のようなものを探しています。 できれば、なぜそういう結果が出るのか(ステップワイズ法なら、例題に対してステップごとの 数学的な説明がついている)わかるものがよいのですが。 贅沢な話だとは思いますが、アドバイスよろしくお願いします。

  • <統計>収量の要因がしりたいです。

    gooも統計についても初心者です。 統計手法についての質問です。 いま植物の花について勉強しています。具体的には植物体(葉や根の長さ)が花の数にどのように影響しているかを調べています。 そこで統計上どの要因(葉の枚数、葉の長さ、根の長さetc)が花の数に影響を及ぼしているか、どの要因が一番の影響を与えているのかを知りたいのですがどのような統計手法を使うのかがわかりません。 自分なりにですが主成分分析や重回帰分析などを統計ソフトなどにて試しては見たのですが、 主成分分析では全体に対する寄与率や第一主成分が出てしまい自分が欲しい「花の数」に対する数値ではないと思い断念しました。 重回帰分析でも第一要因が掴めませんでした。 統計的に「何をやってるの?」また「前にも同じ質問あった」などありましたらお叱りやURLの参照お願いいたします。 出来れば疑問に回答いただけたら幸いです。