Matsu Blog

マーケティング、事業開発、統計学をテーマに何かしらを書き留めていきます

ロジスティック回帰さん 独占インタビュー「分類を行う私がなぜ"回帰"と名乗るのか」

司会「本日はロジスティック回帰分析さんにお越しいただきました。ロジさん、本日はよろしくお願いいたします。」

ロジスティック回帰(以下ロジ)「はい、よろしくお願いいたしますー。」

司会「早速ですけど自己紹介をお願いします。」

ロジ「はい、ロジスティック回帰(logistic regression)と申します。多変量解析の手法の一つで、一つのカテゴリ変数(二値変数)の成功確率を複数の説明変数によって説明・予測します1。」

ロジ「具体的な分析例を挙げると、たとえば、ある特定の病気を発症した人とそうでない人の性別や年齢、生活習慣などのデータを分析することで、病気の発症に対する各要素の影響度を明らかにすることができます。もちろん、そのモデルを使って『この人は病気にかかっているか』を予測(分類)することも可能です。」

ロジ「医療の例を挙げましたが、業界にとらわれずさまざまな分野で使っていただいていると認識しています。」

司会「ありがとうございますー。なるほどー幅広く使われているんですね。」

司会「早速ですが本題に入りたいと思います。ロジさん、基本的には二値分類が分析タスクになると思うんですけど2なぜロジスティック分類ではなく、ロジスティック回帰というお名前なんでしょうか。

ロジ「最終的には分類していますが、実際には回帰分析だからですね。」

司会「ほほう、もう少し詳しく聞きたいですね。」

ロジ「まず、ロジスティック回帰では0/1の分類問題をいきなり解いている訳ではありません。ある事象が発生する(1)確率を予測し、0.5をしきい値として分類しています。たとえば、予測された確率が0.6なら事象が発生する(1)と判定します。」

司会「あれ、それなら普通に確率を重回帰分析すればいいんじゃないんですか?」

ロジ「そうしたいところなんですけど、できないんです。というのも、求めたいのは確率なので被説明変数は0から1の間に収めたいんですが、普通に回帰分析してしまうとたとえば1を上回る数値が出てきてしまうんです。」

ロジ「ここでちょっと視点を変えてみます。確率という0から1の間に収まる値を、線形回帰できるように-∞から+∞をとる値に変換できないでしょうか。この話の前提となるオッズ比について説明しますね。」

ロジ「オッズ比とは、ある事象が起こる確率pと起こらない確率1−pの比(p/1-p)のことで3、確率が高くなればなるほど大きく、確率が低くなればなるほど小さくなります。この段階でとりうる範囲は0から+∞になります。」

ロジ「さらに、このオッズ比の自然対数を取った値を対数オッズ比(log odds)と言います。オッズ比と同様、事象の発生確率が高いと値は大きくなります。対数化によりとりうる値が-∞から+∞になりました!パチパチパチ」

司会「は、はあ」

ロジ「この対数オッズ比を関数とみなしたものをロジット関数(logit function)といい4、確率pをこの形に変換することをロジット変換と言います5。」

ロジ「ロジット変換により、確率という0から1までしか取り得ない概念を-∞から+∞までの数値に対応付けることができました。あとはこれを回帰すればいいので、ln{y/(1-y)}=α+β1x+...+βnxnで、ロジスティック回帰モデルの完成です!はい、ということで終わりにしたいと思うんですけど」

司会「いや勝手に終わらないでください。そもそも、線形回帰ならy=ax+bでyがそのまま被説明変数な訳ですけど、その式だとy、つまり確率そのものまで求め切れてないですよね。」

ロジ「バレましたか。ではもう少しご説明します。」

ロジ「おっしゃる通り、最終的に求めたい値はyなので式を変形していきたいと思います。そのためにロジット関数の逆関数を求めてみます。具体的な式変形についてはこちらをご覧ください。これにより、ロジット関数はロジスティック関数y=1/(1+e^-(α+β1x+...+βnxn))に変換されました。」

ロジ「あとは、予測したいデータの値をxに当てはめれば、具体的な予測確率yが求められます。」

司会「おーついに確率まで求められましたね。ありがとうございますー。本来は線形回帰できないはずの二値データをロジット変換によりあたかも量的データとして扱うことによって回帰させちゃうということですね。よくわかりました。」

司会「ちなみに、分析するうえで注意すべき点など何かありますでしょうか。」

ロジ「分析で注意すべき事項についてはこちらのスライドとかがわかりやすいですかね。あと、参考文献を下の方にまとめているのでぜひお読みください。」

司会「ありがとうございますー。ということなので読んでみてくださいッ。いやー今日はロジさんのことがよくわかりました。改めてありがとうございましたー。」

ロジ「こちらこそありがとうございましたー。誰かのお役に立ったのであれば幸いですー。」

参考文献


  1. http://www.cardio.med.tohoku.ac.jp/2005/news/pdf/20131010_slide.pdf

  2. 二値分類だけでなく、3項(カテゴリー)以上の分類も可能です。その場合は多項ロジスティック回帰分析を行います。

  3. 3.ロジスティック回帰 - BootCamp for B4

  4. ロジット関数とロジスティック関数 - 具体例で学ぶ数学

  5. ロジット変換とプロビット変換