相関係数と偏回帰係数の関係性 -何が違い、どう解釈すればよいか?-
はじめに
「相関係数と偏回帰係数って何がどう違うの?」というかつて抱いてた疑問に対する答えを書き留めます。
なお、回帰分析について何となく理解していることを前提に書いています。
回帰係数のおさらい
偏回帰係数
ある説明変数について、それ以外の説明変数を変化させない場合に、その説明変数が1変化したときに被説明変数がどれだけ変化するかを示す値1のことです。
標準偏回帰係数
すべての変数について、平均0・分散1になるよう標準化した場合に導き出される偏回帰係数のこと2のことです。
仮に、説明変数に年齢と年収が含まれていたとしましょう。当然ながら値の取りうる範囲が違います。
つまり、偏回帰係数の値は説明変数が元々取りうる値に依存するため、偏回帰係数間の比較ができません(=どちらの説明変数が被説明変数に対してより影響を及ぼすか)。
説明変数の大きさを一定のスケールに変換することで、偏回帰係数間の比較を可能にします。
偏回帰係数と相関係数
内容と違い
変数x1と変数yの関係性について検討することにします。
相関係数と偏回帰係数の違いは以下のようになります。
- | ざっくり言うと | 特徴 |
---|---|---|
相関係数 | 変数x1を動かしたときに変数yがどれだけ動くか | 変数x1以外の変数による影響も含む |
偏回帰係数 | 変数x1を動かしたときに変数yがどれだけ動くか | 変数x1以外の変数による影響も含まない |
説明変数x1が変化した際、それにつられて説明変数x2も変化したとしましょう。
仮にx2がyに対して影響力がある場合、結果的にはyもx1につられて動くことになり、このx2によるyへの影響をも含めたx1とyとの関係を表すのが相関係数ということになります。
相関係数と標準偏回帰係数に基づく解釈
相関係数 | 標準偏回帰係数 | 符号 | 解釈 |
---|---|---|---|
有意 | 有意でない(0に近い) | 同符号 | 疑似相関の可能性 |
有意でない(0に近い) | 有意 | 同符号 | 抑制変数の可能性 |
有意 | 有意 | 異符号 | 多重共線性の可能性 |
疑似相関
相関はあるものの、被説明変数に対して直接的に影響を及ぼしていない (他の説明変数の影響であたかも影響を及びしていたように見えただけ)
抑制変数
他の説明変数の影響で相関関係はないように見えていたが、実際は被説明変数に対して影響を及ぼしている
多重共線性
説明変数同士で高い相関がある場合に生じる問題 詳細はこちらに書いています
おわりに
相関係数と偏回帰係数の概要と違いを整理してみました。 この記事の内容が誰かの助けになったのであれば幸いです。