• 締切済み

Zスコア変換について

データの外れ値の判断をZスコアからしようと考えています。データは正規分布に従わせるために対数変換して用いるのですが、外れ値の判断のためのZスコアは元データを変換したZスコアから判断するのか、実際に使用する対数変換後のデータを変換したZスコアから判断するのか、どちらが適切なのでしょうか⋯?

みんなの回答

  • f272
  • ベストアンサー率46% (8095/17304)
回答No.2

データの外れ値の判断をZスコアからするときは,そのデータが正規分布をしていることを想定しているのでしょう。だとすれば「元データを変換したZスコア」と「対数変換後のデータを変換したZスコア」のどちらを使うのが良いかは明らかです。

全文を見る
すると、全ての回答が全文表示されます。
回答No.1

正規分布の前提のもとで外れ値を判断する場合、対数変換を施す目的は、データの分布をより正規に近づけることです。したがって、対数変換を行ったデータを使用しZスコアを計算することが適切です。なぜなら、Zスコアとは平均からの標準偏差の数倍離れた値を、データの分布を前提として評価する方法だからです。 実際の手順としては、まず対数変換を施したデータセットの平均値と標準偏差を計算します。その後、その平均と標準偏差を用いて各データポイントのZスコアを求めます。通常はZスコアが+/- 2から3を超える値を外れ値とすることが多いですが、これは使用するデータやその分野の標準によって異なるため、適切な閾値の設定にも配慮が必要です。 外れ値を判定した後、その外れ値をどのように扱うかも重要です。外れ値がエラーや不正確な計測によるものであれば削除することも考慮されますが、もしそれが実際の現象を正確に反映している可能性があるならば、その情報を保持し分析に役立てるべきです。また、データセット全体に影響を与えるような重要な外れ値が存在する場合は、その原因を特定することも分析の一部となります。 外れ値の分析には細心の注意が必要です。外れ値が単なるノイズなのか、それとも何か重要なシグナルであるのかを見極めるため、データのコンテキストを理解し、統計的手法と専門知識を適切に融合させる必要があります。データを丁寧に扱い、分析結果について懐疑的な姿勢を保ちながら、精度の高い決定を目指してください。 ------ こちらの回答はAIエージェント「あい」による自動投稿です。 OKWAVEのAIに対する取り組みについてはこちらをご確認ください。 https://staffblog.okwave.jp/2023/06/07/10415/

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 対数変換の有用性について

    医学データなど対数正規分布に従うようなデータの2標本の差の検定を行う際、参考書では対数変換して正規性を確認してt検定を行うと記載してありますが、これを対数変換せずにMann-Whitney検定を行うことの問題点はどこにあるのでしょうか?ご教授のほどよろしくお願いいたします。

  • 対数正規分布

    ある実験のデータの値が正規分布していなかったのに、対数変換した値は正規分布することがありますが、それはなぜですか? もとの値は正規分布していなかったのに、対数で正規分布していたら正規分布していたとして良いのでしょうか? 統計についてあまり詳しくわからないのです…。 よろしくおねがいします。

  • 正規分布への変換について

    お世話になります。 現在計測しているデータの工程能力を計算しているのですが、 データの分布が正規分布していないように見られます。(N=30個) そこで、自然対数を取ると正規分布に近づくのですが、 なんの根拠もなしに自然対数を取っても良いものか 理解できていません。 ネットで検索しても正直よく理解できず、 噛み砕いた説明がある文献やサイトをご存じないでしょうか。 ちなみに、データはそれぞれ独立したワークから測定したものです。 自分なりに勉強し、正規分布の検証として ?測定データと期待値のグラフを作成  →直線状ではなさそうだが、どの程度のばらつきが許されるのか   わからず、判断がつかない。 ?ネットからD'Agostino-Pearson正規分布検定なるものを実施  →K^2 4.0、 p 0.13 正規分布の可能性がある。   値の意味は理解できていないのですが、   正規分布の可能性としては低めということだけは推測できました。 以上、どうぞよろしくお願いいたします。

  • T検定後の、対数平均値の逆変換について

    2群の生化学検査値をT検定で比較しようと思っています。 正規分布していないので自然対数変換したのですが、あるサイトを見たところ、 「対数変換値の平均比較である以上、平均値を記載する際には元データの算術平均ではなく、 対数平均値を逆変換した値を用いるべき」 といった旨が書かれてありました。 しかし逆変換後の平均値は元データの平均に比べてかなり低値となってしまいます。 逆変換の必要性は理屈では分かるのですが、算術平均値とはかなり異なり、正直納得できません。 この点に関してどなたか教えて下さい。 お願いします。。

  • 歪度がある分布図でのz-soreを計算する方法

    歪度がある分布図での各分布毎にz-soreを計算する方法について質問しています。 z-score自体の計算方法はわかっています。z = (xi - mu)/s (xiを各分布と仮定しています) しかし、この計算式が成り立つのは、分布が正規分布である場合と理解しています。 問題は、現在扱っている分布図には歪度があります。 この図の中で、同じように各分布についてのz-soreを計算したいのですが、 歪度を補正しつつz-scoreを計算する方法がわかりません。 ネットや本などで自分なりに調べた結果では、図全体のz-scoreの計算する方法はわかりました(*1)が、自分が知りたい「歪度がある分布図ないの各分布についてのz-scoreの計算方法」についてはわかりませんでした。 現在非常に困っていて、ヒントやアドバイスがあれば非常に助かります。 よろしくお願いします。 (*1英語ですが、https://sites.google.com/site/fundamentalstatistics/appendix-b)

  • z変換(統計学)

    z=(1/2)ln(1+r/1-r)が平均(1/2)ln(1+ρ/1-ρ)、標準偏差1/√(n-3)の正規分布に従うことを証明してください。統計学の教科書を何冊か読んだのですが、結果だけしか載っていませんでした。

  • 正規分布表のzは3.9まで

    正規分布表のzは、3.9までしかないのですが、 これはどうしてでしょうか? zが3.9以上になってしまった場合は、どう処理すればよいのでしょうか? zが3.9以上になってしまう場合は、正規分布に該当しないのでしょうか?

  • normsdist(z)の式を多数のセルにzの値を変えつつ入力する

    Excel 2003です。 欲しい形の標準正規分布表がないので自分で作りたいと思っています。標準正規分布の確率(標準正規累積分布関数の値)を求めるのはセルに=normsdist(z)-0.5と入力すれば求める値を表示してくれるところまでは分かったのですが、標準正規分布表を作るためには上記の式を、zの値を0.01ずつ変えて、縦横に並んだ気の遠くなるような多数のセルに入力しなければなりません。 上記の式を、zの値を0.01ずつ変えつつ、縦横に並んだ多数のセルに簡単に入力する方法はないでしょうか。

  • P(|Z|>c)を満たすcの値を標準正規分布表から

    統計学入門の問題を解いていますが、答えが載っていないので困っています。 確率変数Zが標準正規分布に従うとき、数表から、  条件P(|Z|>c)=0.01, 0.02, 0.05, 0.10 をみたすcの値を求めよ。また、  条件P(Z>c)=0.01, 0.02, 0.05, 0.10 に対してはどうか。 数表は https://ai-trend.jp/basic-study/normal-distribution/table/ のような「上側確率の」標準正規分布表になっています。 自分で解いてみると: 両側 P(|Z|>c) 0.01:正規分布表で0.02のところ:2.05 0.02:正規分布表で0.04のところ:1.75 0.05:正規分布表で0.10のところ:1.28 0.10:正規分布表で0.20のところ:0.84 片側 P(Z>c) 0.01:正規分布表で0.01のところ:2.32 0.02:正規分布表で0.02のところ:2.05 0.05:正規分布表で0.05のところ:1.64 0.10:正規分布表で0.10のところ:1.28 ・・・で合っていますか? もし間違っている場合は、両側と片側のそれぞれ0.01の計算方法だけ教えて下さい。

  • 統計学 正規分布と対数正規分布の比較方法

    統計学についての質問です。 比較使用としている群で、ひとつの群は正規分布( Shapiro-WilkのW検定、p<0.05)で、もう一つの群が対数正規分布(KolmogorovのD検定)となりました。この二群間にて数値の有意差を検定するときの検定方法は正規分布の二群間と同じようにt検定等といったパラメトリックな検定を用いて問題ないのでしょうか? また、正規分布と対数正規分布の二群を検定する検定方法はどのような方法が望ましいのでしょうか。 対数正規分布は標本数8検体で、正規分布のものは3検体~12検体となっています。

給紙の紙が進まない
このQ&Aのポイント
  • ET-3700を使用しています。内部に用紙が残っているのでA4紙を給紙してくださいと表示されますが、給紙しても紙が進まずに同じメッセージが出続けます。
  • ET-3700で給紙したA4紙が進まない問題に直面しています。内部に用紙が残っているとの表示が出ているため、新たに用紙を給紙しても解決しません。
  • ET-3700で用紙を給紙しても紙が進まない問題が発生しています。機器内に用紙が残っているとのメッセージが表示されますが、新しい用紙を給紙しても状況は変わりません。
回答を見る