Gradient Descent

�� :
��

��

�� : $$ f: \Bbb{R}^n \to \Bbb{R} $$ �� — ��, �� $x$, � �� . �� $x_*$, � �� : $$ ||\nabla f(x_*)|| < \varepsilon. $$

��

� �� $x_0$. ��, �� $x_0$ �� . �� : �� $x_0, x_1, x_2, x_3, \dots$, � �� . �� , � �� . �� , � �� .

�� $\alpha$, � �� — learning rate. �� $x_k$ — �� , �� $$ x_{k+1} = x_k - \alpha \cdot \nabla f(x_k) $$ �� $\nabla f(x_k)$ — �� $f$ � �� $x_k$, �� . �� $-\nabla f(x_k)$ �� . �� $\alpha \cdot \nabla f(x_k)$, �� , �� $\alpha$ — �� . �� $\alpha$, �� , �� $\alpha$ �� . �� , �� , �� , �� .�., �� . �� : � �� $\alpha = 0.1$ �� , � �� (�� 100, $\varepsilon = 10^{-5}$):

�� $\alpha = 0.4$ �� :

� �� , �� $\alpha = 0.5$ �� , � �� :

��, �� , �� $f(x)$ � �� (� $n$-�� ). �� , �� (��) ��, �.�. �� . � �� , �� , � �� :

��

�� , �� $f(x)$ �� $x_0$ �� . �� $L$: $$ ||\nabla f(x_1) - \nabla f(x_2)|| \le L ||x_1 - x_2|| $$ �� $\alpha < 2/L$ �� $x_*$, �� $N$: $$ N = O(LR^2/\varepsilon), $$ �� $R = ||x_0 - x_*||$ — �� .

�� "�� " (�� learning rate) �� $1/L$, ��, ��, �� $L$.

�� , �� , �� . �� : �� . �� .

��

�� : Heavy Ball.

� �� . �� , �� , �� .

�� , �� . �� $\beta$, �� (��. momentum). �� , �� $\alpha$, � �� , �� , �� $\beta$. �� $\beta$ �� (��, ��, �� ); �� $\beta$, �� , �� . �� $f$ (�� ). �� $\beta$ �� , �� .

�� $x_{k+1}$ �� $$ x_{k+1} = x_k - \alpha \nabla f(x_k) + \beta(x_k - x_{k-1}),\quad k \ge 1, \quad 0 \le \beta < 1. $$ �� (�� ) � � �� (�� ):

�� $\alpha=0.1$ �� . �� $\alpha = 0.4$, �� :

(�� $\beta = 0.2$.)

�� , ��, �� , �� : 25 �� 42 � �� .

��

�� , �� , �� . � �� , �� . �� , �� $x_k$, � � �� $y_k$, � �� $x_k$ � �� . �� : $$ \begin{array}{l} y_0 = x_0 \\ x_1 = y_0 - \alpha \nabla f(y_0) \\ y_1 = x_1 + \beta (x_1 - x_0) \\ \dots \\ x_{k+1} = y_k - \alpha \nabla f(y_k) \\ y_{k+1} = x_{k+1} + \beta(x_{k+1} - x_k) \end{array} $$ �� , �� , �� , � �� , � � �� . (�� : �� , �� , � � �� , �� .)

�� :

�� , �� . �� , �� — �� :

��, �� , � �� .

�� :
� �� .

��

�� $f(x)$ �� $L$: $$ ||\nabla f(x_1) - \nabla f(x_2)|| \le L ||x_1 - x_2|| $$ �� $\alpha$ (�� , �� ) � $\beta$ (�� , ��) �� : $$ 0 \le \beta < 1, \quad 0 \le \alpha < 2(1 - \beta)/L. $$ �� .

� �� $$ \alpha = 1/L. $$ �� $N$ �� $\varepsilon$ (�.�. �� $|f(x_N) - f(x_*)| \le \varepsilon$): $$ N = O(LR^2/\sqrt{\varepsilon}). $$ �� $R$ — �� : $R = ||x_0 - x_*||$.

�� : $$ N = O(LR^2/\varepsilon). $$ �� , �� $N$ �� $1/\varepsilon$, �� , �� $1/\varepsilon$. �� 100 �� 100 �� , � �� 10 ��. �� , �� .

���������� ���������� �������� ������� �� ���������� ����������: ����� ������������ ������ � ��� �����������

���������� ������

����� ������������ ������

����������� ������� ���������� ������ ������������ ������ � ������ �������� ����������

����� �������� ������ ������

���������� ����� ������������ ������ ���������

������ �������� ���������� ������ ���������

�� :
��

��

��

��

��

��

��