Matsu Blog

マーケティング、事業開発、統計学をテーマに何かしらを書き留めていきます

多重共線性の対応事例をまとめてみた

はじめに

多重共線性については以前同じような記事を書いたのですが、公表されている論文で実際にどう扱われているか気になったので調べてみました。

事例1:高い相関関係にある変数のうち一方を除外するパターン

都道府県の相対的貧困率の計測と要因分析

OLS では相関の高い説明変数の組がある場合,回帰分析が不安定になる(多重共線性問題)ため,高相関の組の一方を除外する必要がある(P.54)

一般的な対応の一つですね。

ちなみに、上述の記載はあるものの、論文中ではSVM使ってるので問題ないっす!という流れになってました。

事例2:VIF<10を満たすように変数追加するパターン

橋梁振動波形特徴量の重回帰分析による交通量推定式の構築

多重共線性の有無を確認する指標としてVIF(Variance Inflation Factor:分散拡大要因)を用いた.(P.246)

全体的に丁寧かつ詳細に書かれている印象です。

説明変数を一気に追加してから多重共線性について対処するのではなく、多重共線性と認められない最低限度の説明変数を追加しようというスタンスみたいです。非常に参考になりました。

事例3:高い相関関係(基準0.9)にある変数を除外するパターン

食料品価格上昇による消費への影響--消費税軽減税率導入による消費反動減の抑制効果--

相関係数が0.9を超えるような強い相関を持つ組が存在した。(中略)推定②の推定式から落とし(P.5)

事例1と同様ですね。

論文の展開としては、一度そのままの分析結果を示した後、頑健性の確認として多重共線性の問題を検討しているようです。なるほど。

事例4:説明変数を合成するパターン

保険薬局における患者満足の研究—共分散構造分析と重回帰分析を用いた患者アンケートデータの解析—

同じ潜在的因子により影響を受けている項目については、説明変数間の相関を回避するために、因子毎に各変数を合計して変数の数を除したものを合成変数とし、これらを新たな説明変数として重回帰分析を行った。(P.1119)

具体的には同じ潜在的因子により導かれた変数についてはそれらの平均値をとって、その値を重回帰分析に使ったようです。

おわりに

対応方法はいろいろあるみたいですが、これできまり!というやり方はないようです。

多重共線性の存否を調べ(VIF and/or 相関係数)、存在する場合はなくなるまで対処(当該説明変数を除外する or 合成する)すればなんとかなりそうです。