多重共線性の対応事例をまとめてみた

はじめに

多重共線性については以前同じような記事を書いたのですが、公表されている論文で実際にどう扱われているか気になったので調べてみました。

OLS では相関の高い説明変数の組がある場合，回帰分析が不安定になる（多重共線性問題）ため，高相関の組の一方を除外する必要がある(P.54)

一般的な対応の一つですね。

ちなみに、上述の記載はあるものの、論文中ではSVM使ってるので問題ないっす！という流れになってました。

多重共線性の有無を確認する指標としてVIF(Variance Inflation Factor：分散拡大要因)を用いた．(P.246)

全体的に丁寧かつ詳細に書かれている印象です。

説明変数を一気に追加してから多重共線性について対処するのではなく、多重共線性と認められない最低限度の説明変数を追加しようというスタンスみたいです。非常に参考になりました。

相関係数が0.9を超えるような強い相関を持つ組が存在した。（中略）推定②の推定式から落とし(P.5)

事例1と同様ですね。

論文の展開としては、一度そのままの分析結果を示した後、頑健性の確認として多重共線性の問題を検討しているようです。なるほど。

同じ潜在的因子により影響を受けている項目については、説明変数間の相関を回避するために、因子毎に各変数を合計して変数の数を除したものを合成変数とし、これらを新たな説明変数として重回帰分析を行った。(P.1119)

具体的には同じ潜在的因子により導かれた変数についてはそれらの平均値をとって、その値を重回帰分析に使ったようです。

対応方法はいろいろあるみたいですが、これできまり！というやり方はないようです。

多重共線性の存否を調べ（VIF and/or 相関係数）、存在する場合はなくなるまで対処（当該説明変数を除外する or 合成する）すればなんとかなりそうです。