11 廣義線性模型
我們前面探討了不同的資料型態可以對應不同的迴歸模型。
不覺得每個迴歸模型都有那麼點相似的地方嗎?
線性迴歸:
$$
\mathbb{E}[y] = \mu = \mathbf{w}^T\mathbf{x} + b
$$
羅吉斯迴歸:
$$
ln(\frac{\mathbb{E}[y]}{1 - \mathbb{E}[y]}) = ln(\frac{p}{1 - p}) = \mathbf{w}^T\mathbf{x} + b
$$
Poisson 迴歸:
$$
ln(\mathbb{E}[y]) = ln(\lambda) = \mathbf{w}^T\mathbf{x} + b
$$
在右手邊的部份都是一樣的,是一樣的線性組合加上一個常數。
差別在於預測出來的數值是怎麼連結到目標變量的平均值上 $\mathbb{E}[y]$。
是的,我們在預測的都是目標變量的平均值。
鏈結函數(link function)
要連結目標變量的平均值 $\mathbb{E}[y]$ 跟線性組合加上一個常數…,姑且叫他 $\eta$ 好了。
$$
\mathbb{E}[y] \leftrightarrow \eta
$$
統計學家發展出使用鏈結函數來連結這兩者,所以不同的資料型態會對應不同的鏈結函數。
線性迴歸使用 identity function $y = x$:
$$
\mathbb{E}[y] = \eta
$$
羅吉斯迴歸使用 logit function $y = ln(\frac{x}{1 - x})$:
$$
ln(\frac{\mathbb{E}[y]}{1 - \mathbb{E}[y]}) = \eta
$$
Poisson 迴歸使用 log function $y = ln(x)$:
$$
ln(\mathbb{E}[y]) = \eta
$$
廣義線性模型(generalized linear model)
這麼一來我們就可以把三個模型搓一搓做成 撒尿牛丸 廣義線性模型啦!
$$
y \overset{f}{\longleftrightarrow} \mathbb{E}[y] \leftrightarrow \eta = \mathbf{w}^T\mathbf{x} + b
$$
對應不同的目標變量,我們就有了萬用的模型,就像物理的大一統理論一樣。
廣義線性模型其實包含了三個部份:
- 鏈結函數
- 線性預測子
- 指數族
線性預測子(linear predictor)
統計學家特別給了一個線性預測子這樣的名字。
$$
\eta = \mathbf{w}^T\mathbf{x} + b
$$
這代表要從預測變量 $\mathbf{x}$ 去預測我們的目標變量,其中 $\mathbf{x}$ 的變數之間都是 互相獨立 的。
互相獨立的變數之間,要以 線性組合 來預測我們的目標變量。
指數族(exponential family)
可是每一種資料的機率分佈都可以接上廣義線性模型嗎?答案是否定的。
$$
y \overset{f}{\longleftrightarrow} \mathbb{E}[y]
$$
統計學家研究了一下這個模型,發現只有符合指數族的條件才能夠用。
指數族長成這樣:
$$
f(\mathbf{y} \mid \boldsymbol{\theta}) = \frac{1}{Z(\boldsymbol{\theta})} h(\mathbf{y}) exp(\boldsymbol{\theta}^T \phi(\mathbf{y}))
$$
$\boldsymbol{\theta}$ 是機率分佈的期望值,或是稱為 natural parameter。
$\phi(\mathbf{y})$ 是 sufficient statisitcs,這邊有非常多有趣的東西,不過也有點理論。
$Z(\boldsymbol{\theta})$ 稱為 partition function,是機率分佈的分母,常常會在不同的領域見到他,像是物理。
$h(\mathbf{y})$ 就是個縮放因子,沒什麼重要性,常常是 1。
我知道大家可能會有很多疑問,但是礙於篇幅,我就不再繼續介紹下去了,這邊下去又是統計所一門課了。