Matsu Blog

マーケティング、事業開発、統計学をテーマに何かしらを書き留めていきます

因子分析を行う前に知っておきたいこと

多変量解析について調べるとよく目にする因子分析(Factor analysis)。 個人的には使ったことがなく、わからないことが多かったので今回いろいろ調べてみました。

基本的な考え方というよりは、分析の大前提や注意点を中心にまとめていきます。

因子分析とは

因子分析を一言でいうと「観測可能な変数から、直接観測できない要因(因子)を明らかにする分析」です。

因子分析の考え方については、当記事の主題ではないので他のWebサイトにお任せします。

個人的にはこちらの資料こちらの記事がわかりやすかったです。

どのような目的で使うか?

個人的に関心のあるマーケティングに的を絞ってまとめていきます。

まず、因子分析によって求められる因子得点、すなわち各個体が持つ各因子に対する重み*1をインプットとして顧客をクラスタリングすることが結構あるようです*2。顧客の行動データやアンケートの回答などから、価格重視クラスター、品質重視クラスターなどでわけることができそうですね。

また、ブランドイメージに関する調査においてブランドへの印象を因子分析で明らかにする(因子を明らかにしグルーピングする)という使い方もあります*3。個々の質問項目に対する回答からブランドに対する本質的な意識を抽象するイメージですね。

どのようなデータを使えばいいか?

使用するデータは量的変数(比例尺度や間隔尺度)です。

なお、非常に悪い~非常に良いなどの5段階評価(順序尺度)を間隔尺度とみなして使用しても構いません*4

ただ、順序尺度をデータとして採用した場合、ピアソンの相関係数では値が伸びづらくなってしまいます。因子分析は変数間の関係性(相関)を基に因子を導く手法であるため、相関の有無が見えづらくなると意味のある分析結果が出てこない可能性があります。

順序尺度を用いる場合はポリコリック相関係数を用いて因子分析を行う方がが望ましいようです*5

重回帰分析と因子分析の違いは何か?

重回帰分析では被説明変数を設定しますが、因子分析では被説明変数を設定しません

重回帰分析は被説明変数に対する各説明変数の直接的な影響度(偏回帰係数)を明らかにする手法ですが、因子分析では説明変数(観測変数)の裏にある因子を明らかにする手法であるため、そもそもの考え方が異なります。

また、重回帰分析では多重共線性に対する検討が必要となるため、分析にあたり説明変数間の関係性をチェックする必要がありますが、因子分析はそもそも説明変数間の関係性が分析結果の源泉であるため、多重共線性の検討は不要となります。

ちなみに、多重共線性に関してはいくつか記事化しています。詳しく知りたい方はこちらをどうぞ。

wannko5296.hatenablog.com

wannko5296.hatenablog.com

おまけ:重回帰分析の前処理としての因子分析

通常の重回帰分析では、説明変数同士で相関係数が高くなるような場合、多重共線性の問題を回避するため、説明変数の削除を行います。たとえば、年齢と社会人経験年数という説明変数があった場合、片方残して他方は削除します。

因子分析を使えば、年齢と社会人経験年数は一つの因子にまとめられるため、このときの因子得点を説明変数として使用する(年齢と社会人経験年数は使用しない)ことで、少なくとも当該部分については多重共線性の問題は発生しなくなります。

おわりに

データサイエンスについてはまだまだ勉強中です...。

今後も何か気になることがあったら記事化していきます。