• 締切済み

散布図の回帰計算と信頼区間の設定

 2つの量に関する散布図があって、そこから回帰計算で直線近似するというのは最小2乗法のシンプルな適用事例です。さらにそこに”95%信頼区間”というものが設定されるようです(図を参照願います)。これはどういう風に計算するのでしょうか。 図はRが計算したもので、作図コマンドに”信頼区間を出せ”と指定するだけで出てきます。  直線が最小2乗法の結果からずれると誤差が増えることは評価できると思います。誤差が大きくなると信頼性が落ちるということを評価するのでしょうか。誤差と信頼性(%)の関係が示されないと具体的な数値が出せないと思うのですが。あるいは別の考え方かもしれませんが、信頼区間をどのように決めるのでしょうか。

みんなの回答

  • f272
  • ベストアンサー率46% (7996/17094)
回答No.2

> 直線が最小2乗法の結果からずれると誤差が増えることは評価できると思います。 ここで直線とか誤差とか言うのは何? xとyと言う変数があってy=a+b*xという関係があるとして,それぞれの変数の観測点Nペアをx[i],y[i]すると,y[i]=a+b*x[i]+e[i],回帰直線Y=A+B*Xとなる。 ここでe[i]を通常は誤差と呼ぶのだけれど,この誤差を意味しているのかな?直線と言うのはy=a+b*xのこと?それともY=A+B*Xのこと? なんだか言いたいことがよくわからない。 > 誤差が大きくなると信頼性が落ちるということを評価するのでしょうか。 何の誤差の話をしているんだろう? #1さんが計算式は示しているので,それを適当な数値を使ってエクセルで図にしてみるとちゃんと計算できたのが確認できるでしょう。 母集団の真の特性であるy=a+b*xは有限個の観測点ではわかりませんが,この信頼区間と言うのは真の特性であるy=a+b*xがその範囲に入っていると95%の確率で推量できる区間を言います。

skmsk1941093
質問者

お礼

回答ありがとうございます。用語の間違いがありました。最小二乗法の原理は推定値(直線上)と実際のデータの差分の2乗和が最小になるように決めたわけで、その2乗和を誤差と言ってしまいました。誤差というとどうしても真値との差分であり、真値がわからないので誤差を評価することもできないですね。この質問の根本的な主旨はなぜ、そう言えるのかということでした。推定区間をどうして定めることができるのか?ということです。そしてそれは何かが仮定されているからではないかと思えるのですが。

回答No.1

統計についての計算式は複雑で簡単には計算できません。 その計算の意味を理解出来たら、後は、パソコンに任せるのが現実的だと思います。 参考: https://www.monodukuri.com/gihou/article/946

skmsk1941093
質問者

お礼

回答ありがとうございました。実際のところ計算機によってはじき出された数値に従ってそのあとの処理を進めていくことになると思います。しかしながら、どういう風な原理でそれが計算されたかという問いを遡及させていくことも可能だと思っています(下手な考え休むに似たりと言われても)。ただし、どこかで、ここはどうしても演繹的に理解できないから近似でやっています、というところが出てきてもいいとは思います。どのように位置づけるのかということなのですが。

関連するQ&A

  • 回帰式の信頼区間について

    現在,実験で得られたデータを散布図にし,回帰式を計算しています(JMPやIGORソフト使用). この回帰式を使って様々な計算をしたいのですが,データにはばらつきが多く,R二乗値が0.4ほどなのです. そこで,このばらついたデータのうち,明らかに異常だと思われるものを削除して,フィットした回帰式を得たいのです. 回帰式の信頼区間から外れたデータを削除すれば,回帰式はフィットする,というものでは無いのでしょうか. 信頼区間とは,そもそも何なのか,を調べていますがよく理解できません.. ご存知の方,どうぞ教えてください. よろしくお願いします.

  • 散布図からの近似曲線の書き方についてアドバイスをお願いします

    あるデータから散布図を書きました。横軸が長さで縦軸が長さに対する回数です。データの性質的に切片は間違いなくゼロです。散布図をエクセルで書いたところ、右肩あがりのようでしたので、直線回帰してみましたら、Rの2乗が0.7くらいで有意な直線関係が得られました。ただ、よくよくみますと、一番Y軸のさきの方でプラトーに達するような二次曲線のようにみえなくもありません。つまり、直線回帰してその傾きどうしを比較して、違うデータと比べて考察していましたが、そもそも直線でない可能性がることを指摘され、困っています。 そこで質問なのですが、得られた散布図で一番フィットする線を書くためにモデルを選択するにはどうすればよいのでしょうか?また、そこから近似曲線の性質(たとえば傾きなど)はどうやって求めたらいいか、参考となるURLや書籍があれば同時に教えて頂きたいのです。 わかりにくい説明で申し訳ありませんが、宜しくお願いします。

  • べき乗関数の回帰式の95%信頼区間

    モデル式としてべき乗関数[Y=a*X^b]を用いて回帰分析を行なっています。回帰式の95%信頼区間を求めたいのですが、計算できません。ご教授願えますか? これまでやったことを示します。線形回帰の95%信頼区間の計算をRを使って行なうことができるので、べき乗関数を対数変換し、直線回帰を行ないました。ここで得られた95%信頼区間を表す式の切片、傾きから実数空間に戻して再計算したのですが、正しい結果が得られませんでした。 使用しているサンプルは下記の通りです。 X     Y 0.844   2.041873793 0.83   5.242322324 0.743   3.123938274 0.69   1.288763738 0.62   4.60944809 0.42   0.178478931 0.313   0.743454646 0.304   0.87 0.27   0.857248415 0.086   0.171183408 よろしくお願い致します。

  • 散布図に回帰直線の反映方法

    散布図に回帰直線を反映させたいのですが、他の質問に対する回答で、 近似曲線の追加を選択から反映可能とのことで試したところ、追加対象の系列が複数あるためかうまく反映しません。他に方法はないでしょうか。 ちなみに、散布図は以下のデータの形から作成してます。 よろしくお願い致します。  ア イ ウ エ 1 A 2   B 3     C 4       d

  • Excel:散布図に回帰直線を反映させるには

    あるデータについて散布図(x軸は説明変数、y軸は目的変数)を作成しました。 その散布図のグラフに元が同じデータの回帰直線の式y=α+βx(α、βは求めてある)の直線グラフを付加する方法を教えて下さい。 お願いします。

  • グラフ(散布図)の上に直線を描きたい

    パワーポイントで、散布図のグラフを描きました。このグラフ上にY=○X+aという直線を描きたいのですが、どうすればいいでしょうか。 また、散布図のデータから近似される直線を導き出すにはどうすればいいでしょうか。 よろしくお願いします。

  • 散布図から原点を通る近似直線を引きたいのですが。。

    散布図から原点を通る近似直線を引きたいのですが、 どうしたらよろしいでしょうか?

  • エクセルの散布図の近似曲線で得られる式について

    エクセルで回帰分析で得られる式と 散布図からの近似曲線の式 というのは同じものなのでしょうか?ちがうのでしょうか? もし違う場合はどう違うのか教えていただけると幸いです。 よろしくお願いいたします。

  • 二変数の線形近似の方法

    ある二変数(x,y)に正の相関があることがわかりました。 最小二乗法などで回帰直線を求めてみたのですが、散布図に当てはめても、どうもずれているようなものになってしまいました。 変数が正規分布しているとみなせるなら、傾きが(yの標準偏差)/(xの標準偏差)、点(xの平均,yの平均)を通る直線で近似できると思うのですが、かなり歪んだ分布で、片方に裾が広がっています。 このようなケースでうまく近似する直線を求めるにはどうすればよいでしょうか。方法が間違っているのでしょうか。 質問に不備がありましたら補足要求をお願いします。よろしくご指導ください。

  • 統計学(信頼区間)

    信頼区間が95%の時、平均±(2×標準偏差)の範囲に値が収まると覚えたのですが、 なぜ信頼区間を求める際には、平均±1.96標準誤差を用いるのでしょうか。 1.96はどこから来た数字なのでしょうか? 2で計算するのではなく1.96で計算するのはなぜでしょうか?厳密には1.96みたいな感じですか? この質問をわかる人が見たら質問の意図も分かりづらいと思うのですが、よろしくお願いします。 (分からないことを質問するって難しい。。)