今天我們來談談 activation function 吧!

前言

在神經網路模型(neural network)及深度學習(deep learning)中,activation function 一直扮演重要的角色。

網路模型中的層的概念基本上是由以下的式子構成:

$$
\sigma(Wx + b)
$$

其中 $Wx$ 的矩陣相乘是大家在線性代數中常見的線性運算(linear operation),$Wx + b$ 嚴格來說是稱為仿射運算(affine operation)。相對應線性空間,仿射運算會構成仿射空間,不過兩者只差一個位移 $b$ 而已,但是大家都把它叫做線性(其實是錯誤的阿阿阿阿阿阿阿阿)。最後就是最外層的 $\sigma$ 了。這就是我們今天要談的 activation function。大家應該知道 activation function 會提供神經網路模型非線性的特性,而在沒有非線性特性前的神經網路長什麼樣子呢?

仿射?線性?

其實是可以將仿射看成線性的。假設

$$
Wx + b = \begin{bmatrix}
w_{11}& w_{12}& \cdots& w_{1n} \\
\vdots& \vdots& \ddots& \vdots \\
w_{m1}& w_{m2}& \cdots& w_{mn} \\
\end{bmatrix}
\begin{bmatrix}
x_{1} \\
\vdots \\
x_{n} \\
\end{bmatrix} + \begin{bmatrix}
b_{1} \\
\vdots \\
b_{m} \\
\end{bmatrix}
$$

然後把 $W$ 跟 $b$ 合併,有點像高中學的增廣矩陣那樣,就變成了:

$$
= \begin{bmatrix}
w_{11}& w_{12}& \cdots& w_{1n}& b_{1} \\
\vdots& \vdots& \ddots& \vdots& \vdots \\
w_{m1}& w_{m2}& \cdots& w_{mn}& b_{m} \\
\end{bmatrix}
\begin{bmatrix}
x_{1} \\
\vdots \\
x_{n} \\
1
\end{bmatrix} = W’x’
$$

這樣就可以把 $b$ 吸收到 $W$ 裡面,整體就變成線性的了。

先談談線性轉換

談 activation function 之前先要談談線性轉換。去除掉 activation function 後的神經網路層只剩下 $Wx + b$ 的部份,而如果講這部份看成線性,我們就可以用線性代數裡的東西來解釋它。

有上到比較後面的線性代數的同學,應該有爬過 SVD 這座高山。基本上,SVD 是一種矩陣分解的技巧,可以適用各式的矩陣(只要是可分解的)。SVD 可以告訴我們一些關於線性運算的特質。

推薦可以看周老師的線代啟示錄 奇異值分解 (SVD)

我們可以知道一個矩陣可以被看成線性轉換,而矩陣這個線性轉換可以被分解成 3 個矩陣:

繼續閱讀

Basis for topology

分類 Topology

上一篇介紹完基本的拓樸結構,接下來我們來看基底(basis)的部份。

有上過線性代數的朋友們應該會知道,向量如果滿足線性獨立可以 span 到整個空間,而一個空間有他們的基底。

你可以把向量看成一種數學物件,空間的話就是很多這種數學物件的集合,那相對基底的話就是要擴展成整個空間的基本元素。

拓樸也是一樣的,開集(open set)也是一種數學物件,一個拓樸空間中所包含的元素就是開集,那麼就會很自然的想知道他的基底是什麼?

繼續閱讀

我們終於來到拓樸學的大門口了!

(謎:前面走那麼多圈是在幹什麼的!

拓樸其實是幾何學的拓展,他往更基礎的方向去,當我們在探討幾何學的時候,其實我們研究的是空間關係。

繼續閱讀

Infinite sets

分類 Topology

我們已經遇到一些無限集(infinite set),接下來會討論他的一些特性,然後會自然地討論到選擇公理(axiom of choice)。

Theorem

$A$ 是一個集合,以下的命題等價:

  1. $\exists \enspace injective \enspace f: \mathbb{N} \rightarrow A$
  2. $B \subset A, \exists \enspace bijective \enspace f: A \rightarrow B$
  3. $A$ is infinite
繼續閱讀

Countable sets

分類 Topology

前面有提到正整數可以用來作為有限集的原型,我們會把所有正整數的集合稱為 可數無限集(countably infinite sets)

繼續閱讀

Finite sets

分類 Topology

接下來我們會來討論幾個常見的概念,像是有限集及無限集、可數集及不可數集。

有限集(finite set):

Def.

A set A is finite if

$$
\exists f: A \rightarrow \{ 1, …, n \}, f \enspace is \enspace bijective.
$$

這時我們會說 set $A$ 的 cardinality 是 n。

繼續閱讀

Cartesian products

分類 Topology

前面我們定義了集合的笛卡爾積,這邊我們來定義一個更廣義的,$\mathcal{A}$ 是一個非空集合(collection of sets):

Def.

$$
A \enspace indexing \enspace function \enspace is \enspace a \enspace surjective \enspace function \enspace f: J \rightarrow \mathcal{A},
$$

$$
J \enspace is \enspace called \enspace index \enspace set.
$$

$$
The \enspace collection \enspace with \enspace the \enspace indexing \enspace function \enspace f \enspace is \enspace called \enspace indexed \enspace family \enspace of \enspace sets.
$$

繼續閱讀

以上我們談了一些 邏輯的基礎,接下來我們會談一些 數學的基礎,也就是整數與實數系統。其實我們已經用了很多,非正式地,接下來我們會正式地討論他們。

建構 實數系統的一個方法就是利用公理跟集合論來建構。

繼續閱讀

Relations

分類 Topology

我們有比函數還要更有彈性、更一般化的概念,稱為 關係(relations)

我們會定義數學上的關係,並且談到在數學上大量使用的兩個關係:等價關係及次序關係。次序關係將會貫穿整個拓樸學領域。

關係(relations) 的定義如下:

Def.

$$
A \enspace relation \enspace on \enspace set \enspace A \enspace is
$$

$$
a \enspace subset \enspace C \subseteq A \times A
$$

繼續閱讀

Functions

分類 Topology

Function 會是在數學上常常看到的概念,但他到底是什麼?Function 常常被視為兩個集合之間對映的規則。我們先來定義對映的規則(rule of assignment)

Def.

$$
two \enspace sets \enspace C, D, r \subseteq C \times D, \forall c \in C , d \in D,
$$

$$
\exists \enspace at \enspace most \enspace one \enspace (c, d) \in r
$$

繼續閱讀

Yueh-Hua Tu

目標是計算生物學家!
Systems Biology, Computational Biology, Machine Learning
Julia Taiwan 發起人


研發替代役研究助理


Taiwan