Stochastic Gradient Descent

��

�� $m$ �� $n$-�� $\Bbb{R}^n$: $$ p_1, p_2, \dots, p_m \in \Bbb{R}^n. $$ �� , �� (features). �� . �� , �� $$ w_1, w_2, \dots, w_k. $$ �� $k$-�� $w\in \Bbb{R}^k$.

�� $$ H(w, p_1, p_2, \dots, p_m) \to \min_w, $$ �� $w$ � �� $p_1, p_2, \dots, p_m$. �� : $$ H(w, p_1, p_2, \dots, p_m) = 1/m \cdot\sum_{i=1}^m L(w, p_i), $$ �� $L(w, p_i)$ — �� $p_i$ �� . �� $\lambda$: $$ H(w, p_1, p_2, \dots, p_m) = 1/m \cdot\sum_{i=1}^m L(w, p_i) + \lambda R(w). $$ �� $w$, $$ R(w) = ||w||^2, $$ �� $||w||$, �� -�� , �� $w$.

�� $p_1, p_2, \dots, p_m$ �� $w$, �� : $$ w = \text{argmin}_w H(w, p_1, \dots, p_m). $$

�� .

�� (��) ��

�� , �� $x$ � �� $y$ �� $f(w, x)$ �� $n$: $$ y = f(w, x) = w_0 x^n + w_1 x^{n-1} + \dots + w_n. $$ �� $m$ �� $y$ �� $x$. �� $m$ �� $\Bbb{R}^2$, �� $i$-� �� $x_i$ � �� $y_i$: $$ p_i = (x_i, y_i), \quad i = 1, 2, \dots m. $$ �� $y_i$ �� $f(w, x)$ � �� $x_i$: $$ H(w, p_1, p_2, \dots, p_m) = 1/m\cdot \sum_{i=1}^m (f(w,x_i) - y_i)^2, \\ p_i = (x_i, y_i), \quad i = 1, 2, \dots m. $$

�� 

�� $m$ �� $t_i$ � $n$-�� , �� : $$ t_1, t_2,\dots, t_m \in \Bbb{R}^n. $$ �� $y=1$ �� $y$, �� $y=-1$. �� , �� $$ p_1, p_2,\dots, p_m \in \Bbb{R}^{n+1},\\ p_i = (t_i, y_i), \quad y_i = \pm 1. $$

� �� $\Bbb{R}^n$, �� $t_i$ �� . �� $$ \langle w, t\rangle - b = 0, \quad w,t \in \Bbb{R}^n,\ b\in \Bbb{R}. $$ �� $w$ — �� . �� $f(t) = \langle w, t\rangle - b$ �� $t$ � �� , �� , � �� , �� . �� , �� $(w, b)$, $w\in\Bbb{R}^n$, $b\in\Bbb{R}$.

�� : $$ H((w, b), p_1, p_2,\dots, p_m) = ||w||^2 + C\cdot 1/m\cdot\sum_{i=1}^m L(y_i(\langle w, t_i\rangle - b)) % \to \min_{w, b} ,\\ p_i = (t_i, y_i), i=1,\dots,m. $$ �� $�\in\Bbb{R}$ — �� . �� $L(x)$ �� :
1) Hinge Loss $$ L_1(x) = \max(1 - x, 0), \quad x\in \Bbb{R}, $$ 2) Logistic Loss $$ \begin{array}{l} L_2(x) = \ln(1 + e^{-x}). \end{array} $$

��

�� . �� (��, �� ), � �� . �� , �� , �� . �� , �� , � �� .

�� — ��

� �� $p_1, p_2, \dots p_m$ �� $p_j$. �� $p_j$: $$ H_j(w) = L(w, p_j) $$ �� $$ H_j(w) = L(w, p_j) + \lambda R(w), $$ �� . �� , �� , � �� $w$: $$ g = \nabla H_j(w). $$ �� $g$ �� $w_{k+1}$ �� $w_k$: $$ w_{k+1} = w_k - \alpha\cdot g. $$ ��, �� $g$ �� "��" �� , �� , � �� , �� , �� .

�� -�� (Mini-Batch) — ��

�� . �� Mini-batch Gradient Descent, �� . Mini-batch — ��-��. �� $s$ ��-��, ��, $s=32$. �� $s$ �� , $s\le m$: $$ B = \{ p_{i_1}, p_{i_2}, \dots, p_{i_s} \} \subset \{ p_1, p_2, \dots, p_m \}. $$ �� $p_{i_j}$ �� , �� , �� , �� -��, � �� . �� -�� $B$ �� $s$ �� : $$ H_B(w) = 1/s \cdot\sum_{p \in B} L(w, p), $$ �� $$ H_B(w) = 1/s \cdot\sum_{p \in B} L(w, p) + \lambda R(w), $$ �� . �� $$ g = \nabla H_B(w) $$ �� . �� -��, �� $s$ �� , �� $s$ �� .

��

� �� , �� . �� $\alpha$. �� , �� $L$, �� $$ \alpha \lt 2/L. $$ �� $\varepsilon$ �� $O(1/\varepsilon)$.

� �� $L$ �� . �� �� . �� $i$-�� $\alpha_i$. �� (�.�. �� ) �� .

�� $\alpha_i$: $$ \sum_{i=1}^\infty \alpha_i = \infty $$ (��, �� , ��); $$ \sum_{i=1}^\infty \alpha_i^2 \lt \infty $$ (��, �� , ��).

��, �� , �� $1/i$, �� $i=1, 2, 3, \dots$ — �� , �� . �� $i$: $$ \alpha_i = {\alpha_0\over 1 + \eta \cdot i}. $$ �� $\alpha_0$ — �� , $\eta$ — ��, �� (�� , �� ). �� , � �� $\beta \le 1$: $$ \alpha_i = {\alpha_0\over 1 + \eta \cdot i^\beta}. $$

�������������� ����������� �����

���������� ������

�������� ���� ������ ��������������� ������������ ������

������������ ����� — �� ������ ���� ���������� ����� ���� ���� ��������� ������� �� ��������� �������

���������� ������ ��������������� ������������ ������ � ������ ����

��

��

��

�� — ��

��