• ベストアンサー

予測濃度と実測値の比較方法 検定、相関

 地下水の汚染物質の濃度分布をある方法で予測しました。実測値がある地点(20地点程度)について予測値との比較をして予測方法の妥当性を検討したいと思っています。何かいい方法はありませんでしょうか。とりあえず思いつくのは実測値を横軸、予測値を縦軸に取って散布図を作って相関を見てみようかというくらいしかありません。何かの検定で統計的に実測値と予測値はよく一致しているというように言えるようだといいと思うのですが。。。回答よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.5

No2です。 >汚染源に例えば、農業施肥と家畜排泄物があります。施肥した窒素のうち地下水に浸透する割合がパラメータAで0.2から0.4の範囲にある。同様に家畜排泄物に含まれる窒素のうち地下水に浸透する割合がパラメータBで0.3から0.5の範囲にある。  話がかなり違ってきたので。というのは、理論式は確定していると考えました。というのは、 >実測値を横軸、予測値を縦軸に取って とあったので、実測値が理論値にあっているかどうか、すなわち、理論値(理論式)は確定していると判断したからです。理論式が実測値にあっているかどうか、むしろ、理論式をだしたい、しかも、理論式には変数(独立変数)が2つはあるらしい、というのでは、私が想像した単回帰分析では無理です。  重回帰分析でうまくいくと良いのですが、次の不安があります。 1) 単回帰分析に精通していないように見受けますが、重回帰分析は、・・・。単回帰分析よりは、重回帰分析の方が難しいので。 2) 数値をぶち込めば、あとはパソコンで処理できますが、導き出した重回帰式の説明ができるかどうか(適否の判断ができるか否か)。  平均寿命の解析をしていて、平均寿命は、医師の数は多いほうが、看護婦数は少ない方が良い、という式をパソコンは導きますので。 3) 現在の重回帰分析は、説明変数は1次です。ですから、説明変数を対数や2次以上の次数に変換するか否か、この判断には、経験が必要になります。  以前にやった経験は、y=a(sin(x+θ)+bの理論式で、a,b,θを決めました。xに測定した条件を決め、a,b,θの最適な値を、実測との相関分析によって求めました。 この3つの数値は、BASICで求めたのですが、FOR~NEXTが3段階なので、時間が掛かりました。これも、理論式はy=a(sin(x+θ)+bのハズ、と分かっていたので、可能でした。  想定されている理論式が分からないと、なんとも言えません。 それに、説明変数も、肥料と排泄物だけではなく、餌の食べ残し、植物や微生物の死骸から、さらには雨量やN化合物からのNO2への変換効率(タンパクなのかアミノ酸なのか)、あるいは地下水だと、他の地域からの流入などなど、まだまだ変数が必要だと(素人考えですが・・・)。  変数が不足していると、相関異数は当然小さくなって、使いものにはなりません。重回帰分析なら、変数を多く用意しておいて、相関係数が高くなる変数を加えたり減らしたりすることで、最適な式を導く方法もあります。  もっとも、肥料と排泄物だけでやってみて、相関係数が高ければ、それでOKというのも有ですが。

greenvs188
質問者

お礼

丁寧なご説明ありがとうございます。説明変数自体を変換するようなケースもあるのですね。まだ敷居が高そうです。一応、SPSSが職場にあって多変量解析を行える環境にはあるのでだんだん練習していこうと思います。

その他の回答 (4)

  • backs
  • ベストアンサー率50% (410/818)
回答No.4

> 『予測計算に使うパラメータAの値はここからここの範囲、パラメータBの値はここからここの範囲でこれらを使って計算されるセルCの値(予測値)とα(実測値)、セルDの値とβそれぞれの差の合計が最小になるようなパラメータA,Bの値の組み合わせを見つける』とういうようなことはVBAなどでできるのでしょうか。 「できないことはない」としかいいようがないのですが,もう少し具体的に例データを提示してくだされば,何か助言できるかもしれません(もちろん,私のレベルを超えていれば無理ですが、、、)。 重回帰分析についても,どのような形式のデータであるのかが分からないと,ちょっと分からないですねぇ。

greenvs188
質問者

お礼

具体的には、地下水の硝酸性窒素汚染を予測しています。汚染源に例えば、農業施肥と家畜排泄物があります。施肥した窒素のうち地下水に浸透する割合がパラメータAで0.2から0.4の範囲にある。同様に家畜排泄物に含まれる窒素のうち地下水に浸透する割合がパラメータBで0.3から0.5の範囲にある。CまたはDの値に影響を与える施肥量と家畜排泄物量がそれぞれわかっているときにC、Dそれぞれが実測値α、βに近づくようにAとBの組み合わせを探したい。というようなケースです。  まだいまいち内容が伝わらないかもしれません。VBAなどプログラミングはやったことがないので「できないことはない」というご意見だけでも十分です。無理に回答いただかなくても大丈夫です。ありがとうございます。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

No2です。続きを  注意点としては 1) データは、散布図中に偏ってはいけません。例えば、1、1、2、2、3、28などのように、1つの点が離れていると、高い相関係数がでます。これは学術論文でさえ、そのような散布図を見つけることができます。  この場合は、数値を対数変換すると、偏りが少なくなることがあります。 2) 相関係数を求めるための回帰式は、直線である必要はありません。2次式や3次式の方が、高い相関係数が得られる場合もあります。私はそのよう回帰式を使いませんが(2次式や3次式になる根拠が説明不能なので)。  散布図を眺める、というのは、2)普通一次回帰式を使いますが、対数変換したり、の方が高い相関係数が得られる場合もあるからです。また、1)一つだけ飛び離れた点があり、それによって誤った結論になるのを防ぐためです。  同じ回帰式でも、「違った回帰式である」ことについて有意差検定もできるようです(本は手許にあり、初心者の私でも出来そうです)。が、この場合の「同一の回帰式」であることの証明とは、目的が正反対なので、使えません。

greenvs188
質問者

お礼

丁寧なご説明ありがとうございます。この方法を試してみようと思います。肯定する検定は無いようですね。そういえば、前にも「正規分布している」という検定をしたいと思ったのですが、「正規分布していない」というのしかなく残念だったことがありました。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

>実測値を横軸、予測値を縦軸に取って散布図を作って相関を見てみようか 統計学的には、普遍的かつ正当な方法です。  実際には、この方法で散布図を描き、相関係数を求めます。相関係数とデータ数から、t-検定で判定します。データ数が20なら、相関係数は、0.444以上あれば、危険率5%以下で有意差あり、すなわち、両者に関係ありと判断されるので、予測方法としては妥当という結論を導けます。  この方法は、新しい測定法を開発したときに、その方法が妥当かどうかの判定に使います。  すなわち、同一サンプルについて、旧方法での値をX軸に、新方法での値をy軸にとって、相関係数が有意で無いと、新しい方法が適切とは言えません。  ただ、相関係数が0.4程度になると、あまり一致しているような印象にはなりませんが、相関係数だけではなく、散布図も眺めることは必要です。

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

> とりあえず思いつくのは実測値を横軸、予測値を縦軸に取って散布図を作って相関を見てみようかというくらいしかありません。 普通は実測値に理論曲線を当てはめて予測値を求めるのですから,その曲線がよくフィットしているかで「実測値と予測値はよく一致している」ということがいえるのですが,状況が違うようですね。 質問者さんの方法だと,例えば, 実測値 = (1, 2, 3, 4, 5) 予測値 = (1, 2, 3, 4, 5) というのが完全に一致している状態ですよね(つまり相関係数が1であるということ)。それに対して,質問者さんが得た予測値を 実測値 = (1, 2, 3, 4, 5) 予測値 = (1.231, 2.119, 3.341, 4.512, 5.129) とすれば2つの直線(曲線)ができますよね?この平行間の距離を求めて一致しているかどうかを確かめる方法が使用されていたことがあります(ちょっとどの論文だったか思い出せないのですが)。

greenvs188
質問者

お礼

回答ありがとうございます。おもしろい方法ですね。今回の予測はいくつも不確定な要素があってその設定次第で予測値が変わってきます。設定を変えてみて距離が最小または、各比較地点の差の合計が最小になるような設定を探してみようかと思いました。もし、論文の名前など思い出すようでしたら教えていただければ幸いです。(以下は思いつきで聞いていますので無視していただいても結構です)計算はエクセル上でやっているのですが、『予測計算に使うパラメータAの値はここからここの範囲、パラメータBの値はここからここの範囲でこれらを使って計算されるセルCの値(予測値)とα(実測値)、セルDの値とβそれぞれの差の合計が最小になるようなパラメータA,Bの値の組み合わせを見つける』とういうようなことはVBAなどでできるのでしょうか。実際にはパラメータはもっとたくさん、予測と実測の比較ももっとたくさんあります。VBAというのは全く使ったことがないので思いつきで聞いています。もしわかるようでしたら教えていただけますでしょうか。それとも重回帰分析というもの(これもやったことがないですが)をする方が現実的でしょうか。

関連するQ&A

  • 実測値と予測値の同異の検定

    内容を見ていただき,ありがとうございます。 心理学のカテゴリから移ってまいりました。  (前QNo.1479096) 先日,以下の反比例式で予測できる値について,実験を行いました。  予測 : Y=Ax^-1 そして,2つの実験条件で測定を行った結果,以下の2つの式で表せる実測値を得ました。  (式は,Excelの近似式とSPSSにて算出しました)  実測1: Y=0.3x^-0.2  実測2: Y=0.8x^-0.9 これらの式をグラフにプロットしたところ, 予測と実測1は似たような反比例の曲線を描き, 予測と実測2はあまり一致しているようには見えませんでした。 そこで,予測で立てた式と実測で得られた式とが一致しているかどうかについて 検定を行いたいと考えているのですが,どのように行えば良いかわかりません。 愚考の末,対応のあるt検定にかけた結果, 予測と実測1の間はp<.05の差があり, 予測と実測2の間には差がありませんでした。 もちろん,この方法が正しいかどうかについて自信はありません。 このような予測式と実測値の式の同-異について,直接的に検定できる方法をご存知でしたら, なにとぞご教授いただけますよう,よろしくお願いいたします。

  • 散布図における予測値と実測値のばらつきの数値化

    よろしくお願い致します。 異なる3種類の方法で予測をし、予測値を出しました。 それらを実測値と比較するため、散布図をつくり、y=xの直線を引き、見た目ではどの方法が近いかは分かります。 しかし、これを数字でどの方法が実測値に近づくのか示したいのですが、方法が思いつきません。 相関係数は試したのですが、直線上にさえ乗れば実測値から離れていても1に近づいてしまいます。 以下の場合はどうすればいいでしょうか。 よろしくお願いします。 方法(1) 実測値  予測値 80.7  78.8 88.0  75.8 68.8  75.8 51.6  54.9 方法(2) 実測値  予測値 80.7  70.1 88.0  70.1 68.8  70.1 51.6  48.5

  • 予測値と実測値の数値の乖離を示す計算方法

    ある試験の加速度(G値)を異なる2種類の方法で予測をし、予測値を出しました。 その結果が以下のようです。 実際のものはデータ数がかなりあります。 実測値  予測値1 予測値2  80.7    78.8     70.2 88.0    75.8     90.4 68.8    75.8     75.6 51.6    54.9     45.8  :     :       :   :     :       :  予測値1と予測値2のどちらが実測値に近いかを数値的に示す方法がわかりません。 散布図で視覚的には示すことができるのですが、これを具体的な数値で示す計算方法がわかりません。 よろしくお願いします。

  • 予測値と実測値の同異の検定

    現在,以下のように表せる2つのデータの間に差があるかどうかを調べたいと思っています。  データ1:Y=Ax^-1  データ2:Y=0.8Ax^-0.9 なお,データ1は予測値,データ2は実測値です。 2つの違いは,データ2(実測値)の曲線の方が若干緩やかであることぐらいです。 2つの式に近似曲線を当てはめてr二乗値をとって比較するのではなく, もっと直接に2つの曲線を比較したいのですが,方法はありますでしょうか。 なお,現在のところ,両者をt検定にかけて有意差が無いという結果を得ているのですが, この方法は間違っていないでしょうか。併せてご教授いただけると幸いです。

  • 非正規母集団の相関係数の有意性検定法について

    変量(X,Y)に関する,大きさNのデータが既知であるとき,X, Yの相関係数ρの有意性を検定(無相関検定)する方法を探しています。 ただし,データは標本ではなく母集団であり,X,Yに関して正規分布が仮定できないとします。 無相関を仮定して,相関係数の確率密度分布を求め,その分布を利用して検定する(実際の相関係数ρが分布のどの程度端に存在するかを見る)という方法でよいのでしょうか? よろしくお願い致します。

  • 複数の相関係数の検定の方法

    2つやそれ以上の相関係数が求められている時の、その有意差を検定できないかと悩んでいます(例えば0.3と0.4で有意差があるかなど)。それでネットで多少なりとも探して、「相関係数の相等性の検定」という言葉を見つけました。でも本当にこれでいいのか分からないし、何よりやり方が分かりません。もしSPSSでできるのならそれがベストなのですが、他にも素人でできそうな方法があれば教えてほしいです。一応、大学の統計の授業くらいの理解はあります。またちょっとは理解して使いたいので、良い本なりウェブサイトがあれば、重ねてそれも教えてもらえればありがたいです。どうかご存知の方がおりましたら、よろしくお願いします。

  • 検定の方法を教えてください。

    検定の方法を教えてください。 患者184名を6段階の年齢別(35-39才)、(40-44才)、(45-49才)、(50-54才)、(55-59才)、(60才以上)で分けて、年齢別の乳腺濃度の分布(4段階)の有意差の検定の方法はどうすればいいのでしょうか?

  • Excel 2010での散布図の作成方法

    Excel 2010で相関を見る散布図を作りたいのですが、うまくいきません。 こちらのサイトで例に出ているような、横軸が系列1で縦軸が系列2の散布図を作りたいのですが、 http://hitorimarketing.net/tools/correlation-analysis.html サイトに書かれている、縦2列のデータを見出しを除き選択→挿入タブの散布図をクリック という方法では、2系列のデータなのに1系列の(横軸がデータ数・縦軸が数値の)散布図になってしまいます。 Excelに詳しい方、教えてください。

  • 【Excel2003】

    横軸に「実際の客数」、縦軸に「重回帰予測値」の散布図を作ろうと思います。ですが縦軸の重回帰予測値の目盛りはちゃんと正しく反映されましたが、横軸の「実際の客数」の目盛りは3桁のオーダーが正しく反映されずなぜか数十の数値に変換されています。 どういったことが原因なんでしょうか?正しいやり方を教えてください。

  • 正規分布でないときピアソンの相関係数を使いたいのですが。

    文献には、ピアソンの相関係数は ・連続変数 ・正規分布に従う。 時に使い、それ以外はスピアマンの順位相関係数を使うとありますが、正規分布をとらないときピアソンの相関係数を使うと問題がありますか?心理学では正規分布の条件は無視した論文もあると聞いたことがあるのですが。どうしてもピアソンで行いたいので、もし、無視できるくぐりぬけかたがあれば教えてください。 都市の「汚染物質排出量」と「イオン濃度」のあいだで相関係数を調べました。 サンプル数は29で「イオン濃度」はおおまかに正規分布をとるのですが「汚染物質排出量」では中央が少なく正規分布をとりませんでした。 相関係数はそれぞれ、ピアソンは、0.67で、スピアマンでは0.56です。 ともにp<0.01水準で有意でした。 どうか、分かる方がいましたら教えてください。お願いします。