損失函數偏微分

      在〈損失函數偏微分〉中尚無留言

損失函數定義為 “預測值跟實際值的差異”,稱為 Loss。這個定義,也就是迴歸線的定義。

迴歸線定義為
(預測的 y 值 – 實際的 y 值)平方總合,再求平均數,以公式表示為

$(Loss=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\tilde{y_{i}})^{2})$

求最小值

損失函數既然是預測值與實際值的差異,那麼損失函數的值當然是愈小愈好愈準確。上述的損失函數中, $(x_i)$ 及 $(y_i)$ 都是已知的,只有 a, b 是未知的。那麼 a , b 的值是多少才能確保損失函數的值是最小值呢? 不急,這還要先了解偏微分觀念才有得解。

一階迴歸線偏微分

在眾多的點中,求取一階迴歸線,那麼迴歸線的公式為 y=ax+b。a 及 b 目前都不知道是何值,也是我們要努力計算取得的東西。

$(\tilde{y}_i)$ 是 y = ax + b 所計算出來的預測值,$(y_i)$ 是實際 y 值 。

然後把上面的公式代入

$(Loss(a,b)=\sum_{i=1}^{n}(y_{i}-(ax_{i}+b))^2=\sum_{i=1}^{n}y_{i}^2-2y_{i}ax_{i}-2y_{i}b+a^2x_{i}^2+2ax_{i}b+b^2)$

損失函數中,變數為 a 及 b

對 a 偏微分為
$(\frac{\partial Loss(a,b)}{\partial a}=\sum_{i=1}^{n}(-2y_{i}x_{i}+2ax_{i}^2+2x_{i}b)=2\sum_{i=1}^{n}(-y_{i}+ax_{i}+b)x_{i}=2\sum_{i=1}^{n}(\tilde{y}_{i}-y_{i})x_{i})$

對 b 偏微分為
$(\frac{\partial Loss(a,b)}{\partial b}=\sum_{i=1}^{n}(-2y_{i}+2ax_{i}+2b)=2\sum_{i=1}^{n}(ax_{i}+b-y_{i})=2\sum_{i=1}^{n}(\tilde{y}_{i}-y_{i}))$

二階迴歸線偏微分

二階迴歸線的公式為 $(y=ax^2+bx+c)$,所以

$(Loss(a,b))$
$(=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\tilde{y_{i}})^{2})$
$(=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-(ax_i^2+bx_i+c))^{2})$
$(=\frac{1}{n}\sum_{i=1}^{n}y_{i}^2-2y_i(ax_i^2+bx_i+c)+(ax_i^2+bx_i+c)^2)$
$(=\frac{1}{n}\sum_{i=1}^{n}y_{i}^2-2ay_ix_i^2-2by_ix_i-2cy_i+a^2x_i^4+2ax_i^2(bx_i+c)+(bx_i+c)^2)$
$(=\frac{1}{n}\sum_{i=1}^{n}y_{i}^2-2ay_ix_i^2-2by_ix_i-2cy_i+a^2x_i^4+2abx_i^3+2acx_i^2+b^2x_i^2+2bcx_i+c^2)$

對 a 偏微分
$(\frac{\partial Loss(a,b,c)}{\partial a})$
$(=2\sum_{i=1}^{n}-y_ix_i^2+ax_i^4+bx_i^3+cx_i^2)$
$(=2\sum_{i=1}^{n}(ax_i^2+bx_i+c-y_i)x_i^2)$
$(=2\sum_{i=1}^{n}(\tilde{y_i}-y_i)x_i^2)$

對 b 偏微分
$(\frac{\partial Loss(a,b,c)}{\partial b})$
$(=2\sum_{i=1}^{n}-y_ix_i+ax^3+bx_i^2+cx_i)$
$(=2\sum_{i=1}^{n}(ax_i^2+bx_i+c-y_i)x_i)$
$(=2\sum_{i=1}^{n}(\tilde{y_i}-y_i)x_i)$

對 c 偏微分
$(\frac{\partial Loss(a, b, c)}{\partial c})$
$(=2\sum_{i=1}^{n}-y_i+ax_i^2+bx_i+c)$
$(=2\sum_{i=1}^{n}\tilde{y_i}-y_i)$

n 階迴歸線偏微分總結

由上可知,如果是 n 階迴歸線的話
對 a 偏微分就是 $(=2\sum_{i=1}^{n}(\tilde{y_i}-y_i)x_i^n)$
對 b 偏微分就是 $(=2\sum_{i=1}^{n}(\tilde{y_i}-y_i)x_i^{n-1})$
對 c 偏微分就是 $(=2\sum_{i=1}^{n}(\tilde{y_i}-y_i)x_i^{n-2})$
到最後是
$(2\sum_{i=1}^{n}(\tilde{y_i}-y_i)x_i^1)$
$(2\sum_{i=1}^{n}(\tilde{y_i}-y_i)x_i^0)$

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *