回帰係数の有意性の話 -その説明変数に説明力はあるか?-
はじめに
回帰分析を行うのは簡単ですが、その結果を解釈するのはなかなか難しいものがあります。 私自身、理解できていない部分があったため、今回はそのことについてまとめてみました。
回帰分析の結果を見てみる
重回帰分析を行い、その結果を確認してみます。 以下の表はPythonのStatsModelsで出力したものです。RやExcelでも同様の出力結果を確認することができます。
今回は、この表をもとに回帰式の正しさを確かめたいと思います。 具体的には、説明変数が被説明変数に対して影響を及ぼしているかどうかを確認します。統計学的な表現をするならば、回帰係数の有意性を確認するということになります。
たとえば、気温、湿度(説明変数)を用いてソフトクリームの売上(被説明変数)を回帰分析によって予想しようとしたとき、湿度がソフトクリームの売上にそもそも影響を与えているかどうかを知ることは重要です。
回帰係数の有意性の仮説検定
はじめに、対象となる回帰係数βについて、「説明変数Xは被説明変数Yに影響を与えていない」という帰無仮説を設定します。対立仮説はその逆になります。
- H0:説明変数Xは被説明変数Yに影響を与えていない
- H1:説明変数Xは被説明変数Yに影響を与えている
回帰分析では、上記の仮説を確かめるためt値を用いた検定を行います。 具体的には、t値をもとにP値を算出し、P値と有意水準を比較することで仮説検定の結論を出すことになります。
t値とP値の話
t値は標本から導き出すことができます。(肝心の数式は省略します)
図からわかるように、t値とP値には関係性があります。 t値が大きくなればP値が小さくなり、t値が小さくなればP値が大きくなるのです。
有意水準と仮説検定
有意水準とは、仮説検定において帰無仮説を棄却する基準となる確率のことを指します(*1)。5%または1%とすることが多いようです。
すでに述べた通り、P値と有意水準を比較することで仮説決定の結論を出すことができます。P値が有意水準よりも小さければ、H0を棄却しH1を採択、すなわちXにYに対する影響力があると言えるのです。 なお、P値が有意水準よりも大きい場合、その分析において、「XはYに対して影響力があるとは言うことはできない」だけで、影響力がないと断定することはできません。
有意水準として設定された確率は、誤って帰無仮説を棄却したと評価する確率であると言うことができます。たとえば、有意水準を5%(0.05)とした場合にP値が0.05以下となった場合、P値が0.05以下ということは(=「XはYに対して影響を及ぼす」と誤って判断する確率が5%以下であるということは)、そもそも帰無仮説(XはYに対して影響を与えない)は間違っているため棄却されるべき(=対立仮説を採択すべき)、と考えるのです。
有意水準5%のときに重回帰籍分析の結果としてP値(P>|t|)が0.03となったとすると、H0棄却、H1採択となるため、当該説明変数は被説明変数に対して影響力を持つと言うことができます。
反対に、上記の前提のもとP値が0.12となった場合はH0を棄却できずそのまま採択されるため、当該説明変数は被説明変数に対して影響力を持つということはできないことになるのです。