Kernel SVM

�� : ��

��

��, �� , �� $m$ �� $n$-�� $\Bbb{R}^n$: $$ x_1, x_2, \dots, x_m \in \Bbb{R}^n. $$ �� , �� (features). �� , �� , � �� .

�� , �� : ��, �� , �� $1$, �� — �� $-1$. �� $y_i$: �� $(x_i, y_i)$ �� , �� $y_i = 1$, �� $y_i = -1$.

� �� 1, �� : $$ \langle w, x\rangle - b = 0, \quad w\in \Bbb{R}^n, \quad x\in \Bbb{R}^n, \quad b\in \Bbb{R}. $$ �� $w$ — �� , $x$ — �� , $b$ — �� ; �� .

�� $p\in \Bbb{R}^n$ �� $$ \langle w, p\rangle - b \ge 0, $$ �� , �� $p$ �� ; �� , �� . �� , �� , �� .

��

�� , �� . �� , �� : �� , �� , �� — � �� . �� , �� , �.�. �� $x_i$ ��. �� , �� . ��, �� :

�� $h$. ��, �� $h$ �� , �� �� (support), �� (support vector machine).

�� $p$ �� , �� $\langle w, x\rangle - b = 0$: $$ h = (\langle w, p\rangle - b)/|w|, $$ �� $|w|$ �� $w$. �� $$ y_i(\langle w, x_i\rangle - b)/|w| = h, $$ (�� $y_i = \pm 1$). �� : $$ y_i(\langle w, x_i\rangle - b)/|w| \ge h. $$ �� $1/h$, ��: $$ y_i(\langle w, x_i\rangle - b)/(|w|\cdot h) \ge 1. $$ �� $w' = w\cdot(1/(|w|\cdot h))$, $b' = b/(|w|\cdot h)$. �� , � �� $x_i$ �� : $$ y_i(\langle w', x_i\rangle - b') \ge 1. $$ �� , �� $w' = w\cdot(1/(|w|\cdot h))$, �� $$ \begin{array}{l} |w'| = |w|/(|w|\cdot h)\quad =\gt \\ h = 1/|w'|. \end{array} $$ �� , �� , �� , �� $2h = 2/|w'|$. �� , �� $w$, $b$ (�� ). ��, �� , �� , �� , �� , �� — � ��. �� $|w|$, ��, �� $|w|$, ��, �� , �� $|w|^2$. �� : $$ \begin{array}{l} y_i(\langle w, x_i\rangle - b) \ge 1, \quad i=1,2,\dots,m \\ |w|^2 \to \min. \end{array} $$

�� . �� . ��, �� , �� . �� , �� , �� .

��

� �� $$ y_i(\langle w, x_i\rangle - b) \ge 1, \quad i=1,2,\dots,m $$ ��, �� . �� : �� $\xi_i$ � �� $\xi_i \ge 0$ � �� , �� 1, �� $\xi_i$: $$ y_i(\langle w, x_i\rangle - b) \ge 1 - \xi_i, \quad i=1,2,\dots,m $$ �� $\xi_i$ �� , �� . �� , �� $|w|^2$, �� (� �� ): $$ |w|^2 + �\cdot 1/m\sum_{i=1}^m \xi_i \to \min. $$ �� $C$ — ��-�� . �� $C$, �� . �� $C$ �� , �� . ��, �� $|w|^2$ �� (�� , �� $C$).

��, �� : $$ \begin{array}{l} |w|^2 + C\cdot 1/m\sum_{i=1}^m \xi_i \to \min \\ y_i(\langle w, x_i\rangle - b) \ge 1 - \xi_i, \quad i=1,2,\dots,m \\ \xi_i \ge 0 \end{array} $$

�� . ��, �� , �� $\xi_i$ �� . �� : $$ \begin{array}{l} \xi_i \ge 1 - y_i(\langle w, x_i\rangle - b) \\ \xi_i \ge 0 \end{array} $$ �� $\xi_i$ �� , �� , �� $$ \xi_i = \max(1 - y_i(\langle w, x_i\rangle - b), 0). $$ ��, �� $\xi_i$ � �� , ��: $$ |w|^2 + C\cdot 1/m \sum_{i=1}^m \max(1 - y_i(\langle w, x_i\rangle - b), 0) \to \min_{w, b} $$ � �� , �� (�� , �� .�.). �� $$ H(x) = \max(1 - x, 0), \quad x\in \Bbb{R} $$ �� Hinge Loss. �� :

� �� Hinge Loss �� $$ |w|^2 + C\cdot 1/m \sum_{i=1}^m H(y_i(\langle w, x_i\rangle - b)) \to \min_{w, b} $$

�� , ��

�� . � �� , �.�. �� $n$-�� , ��-�� . ��, �� (��) �� $d$ �� . �� $$ % \begin{array}{l} \begin{array}{l} \varphi(x): \Bbb{R}^n \to \Bbb{R}^m, \quad m > n, \\ \varphi(x) = (\varphi_1(x), \varphi_2(x), \dots, \varphi_m(x)), \end{array} % \end(array} $$ �� $x = (x_1, x_2, \dots, x_n)$ � �� $(\varphi_1(x), \varphi_2(x), \dots, \varphi_m(x))$. �� $F(t)$ � �� : $$ F(t) = \langle W, t \rangle - B, \quad \text{��}\ W, t\in \Bbb{R}^m,\ % B \in \Bbb{R}. $$ �� (�� !) �� $$ f(x) = F(\varphi(x)) = \langle W, \varphi(x)\rangle - B. $$

� �� $\varphi_1(x_1, \dots, x_n)$, $\varphi_2(x_1, \dots, x_n)$, $\dots$, $\varphi_m(x_1, \dots, x_n)$, �� $d$ �� $x_1, x_2, \dots, x_n$ (�� ). ��, ��, $d = 2$. �� $n = 2$, �.�. �� $\Bbb{R}^2$. �� 2 �� $x_1$, $x_2$: $$ \varphi(x_1, x_2) = (x_1, x_2, x_1^2, x_1 x_2, x_2^2), $$ � �� $m=5$. �� , �� :

�� –��

�� , � �� , �, �� , �� . ��, ��, �� 3 �� , �� $n$-�� , �� $O(n^3)$. ��, ��, �� , �� , �� . �� , �� $n$-�� .

�� (�� $n$-�� ) � �� . �� : $$ \begin{array}{l} |w|^2 + C\cdot 1/m\sum_{i=1}^m \xi_i \to \min \\ y_i(\langle w, x_i\rangle - b) \ge 1 - \xi_i, \quad i=1,2,\dots,m \\ \xi_i \ge 0 \end{array} $$

�� :
1) �� $1/m$;
2) �� $1/2$ �� $|w|^2$.
��: $$ \begin{array}{l} |w|^2/2 + C\cdot \sum_{i=1}^m \xi_i \to \min \\ y_i(\langle w, x_i\rangle - b) \ge 1 - \xi_i, \quad i=1,2,\dots,m \\ \xi_i \ge 0 \end{array} $$

�� , �� –��–��: $$ \begin{array}{l} |w|^2/2 + C\cdot \sum_{i=1}^m \xi_i \to \min \\ y_i(\langle w, x_i\rangle - b) + \xi_i - 1 \ge 0, \quad i=1,2,\dots,m \\ \xi_i \ge 0 \end{array} $$

�� –��–��

�� –��–��. �� . � �� $f(x)$ �� $h_i(x)$, $i=1,\dots,k$: $$ \begin{array}{l} f: \Bbb{R}^n \to \Bbb{R}, \\ f(x) \to \min \quad \text{�� }\\ h_i(x) = 0, \quad i=1,\dots,k. \end{array} $$ � �� $\lambda_1, \lambda_2,\dots,\lambda_k\in\Bbb{R}$ � �� �� �� : $$ L(x, \lambda_1,\dots, \lambda_k) = f(x) + \sum_{i=1}^k \lambda_i h_i(x). $$ �� , �� $\bar{x}$ �� f(x): �� $\bar\lambda_1, \bar\lambda_2,\dots,\bar\lambda_k\in\Bbb{R}$, �� $(\bar{x}, \bar\lambda_1,\dots,\bar\lambda_k)$ �� (��) �� , �.�. �� : $$ \nabla L(\bar{x}, \bar\lambda_1,\dots,\bar\lambda_k) = 0. $$

�� –��–�� , �� , �� : $$ \begin{array}{l} f(x) \to \min \quad \text{�� }\\ g_i(x) \le 0, \quad i=1,\dots,m,\\ h_j(x) = 0, \quad j=1,\dots,k. \end{array} $$ �� , �� $\lambda_1, \lambda_2,\dots,\lambda_m\in\Bbb{R}$, $\lambda_i\ge 0$ � $\mu_1, \mu_2,\dots,\mu_k\in\Bbb{R}$: $$ \begin{array}{l} L(x, \lambda_1,\dots,\lambda_m, \mu_1,\dots,\mu_k) = f(x) + \sum_{i=1}^m \lambda_i g_i(x) + \sum_{j=1}^k \mu_j h_j(x), \\ \lambda_i \ge 0, \quad i=1,\dots,m. \end{array} $$ �� $\bar{x}$ — �� $f(x)$. �� -�� , �� $\bar\lambda =(\bar\lambda_1,\dots,\bar\lambda_m)$ � $\bar\mu=(\bar\mu_1,\dots,\bar\mu_k)$, �� $(\bar{x},\bar{\lambda},\bar{\mu})$ �� ��  �� : ��  �� $x$ � ��  �� $\lambda_i$.

�� $\bar{x}$: $$ \begin{array}{l} \nabla_x L(\bar{x}, \bar\lambda, \bar\mu) = 0, \\ \bar\lambda_i \ge 0, \quad i=1,\dots,m, \\ \bar\lambda_i g_i(\bar{x}) = 0, \quad i=1,\dots,m \quad \text{(�� )}. \end{array} $$

�� –��–��

�� . �� : $$ \begin{array}{l} |w|^2/2 + C\cdot \sum_{i=1}^m \xi_i \to \min \\ y_i(\langle w, x_i\rangle - b) + \xi_i - 1 \ge 0, \quad i=1,2,\dots,m \\ \xi_i \ge 0. \end{array} $$ ��, �� . � �� –��–�� $\lambda=(\lambda_1,\dots,\lambda_m)$ � $\mu=(\mu_1,\dots,\mu_m)$, $\lambda_i, \mu_i \ge 0$, � �� : $$ L(w, b, \xi, \lambda, \mu) = |w|^2/2 + C\cdot \sum_{i=1}^m \xi_i - \sum_{i=1}^m \lambda_i(y_i(\langle w, x_i\rangle - b) + \xi_i - 1) - \sum_{i=1}^m \mu_i\xi_i $$ (�� , �� –�� $\le 0$, � � �� ).

�� –��–�� : $$ \begin{array}{l} \nabla_w L(w, b, \xi, \lambda, \mu) = w - \sum_{i=1}^m \lambda_i y_i x_i = 0 \quad \Rightarrow \\ w = \sum_{i=1}^m \lambda_i y_i x_i. \end{array} $$ �� $w$ �� $x_i$ � �� $\lambda_i$. ��, $$ \frac{\partial}{\partial b} L(w, b, \xi, \lambda, \mu) = \sum_{i=1}^m \lambda_i y_i = 0, $$ � �� $$ \frac{\partial}{\partial \xi_i} L(w, b, \xi, \lambda, \mu) = C - \lambda_i - \mu_i = 0, \quad i=1,\dots,m \quad \Rightarrow \\ C = \lambda_i + \mu_i. $$ �� $$ \begin{array}{l} \lambda_i(y_i(\langle w, x_i\rangle - b) + \xi_i - 1) = 0, \quad i=1,\dots,m. \end{array} $$ �� , �� $$ \begin{array}{l} \lambda_i = 0 \quad \text{��}\\ y_i(\langle w, x_i\rangle - b) = 1 - \xi_i. \end{array} $$ ��, �� $\xi_i$ ��, �� $$ \begin{array}{l} \mu_i\xi_i = 0 \quad \Rightarrow \\ \mu_i = 0 \ \text{��}\ \xi_i = 0. \end{array} $$

�� $w = \sum_{i=1}^m \lambda_i y_i x_i$ � ��. �� $\sum_{i=1}^m \lambda_i y_i = 0$ � $� - \lambda_i - \mu_i = 0$, ��: $$ \begin{array}{l} L(w, b, \xi, \lambda, \mu) = \langle w, w\rangle/2 + C\cdot \sum_{i=1}^m \xi_i - \sum_{i=1}^m \lambda_i(y_i(\langle w, x_i\rangle - b) + \xi_i - 1) - \sum_{i=1}^m \mu_i\xi_i = \\ = \frac{1}{2} \langle \sum_i \lambda_i y_i x_i, \sum_j \lambda_j y_j x_j \rangle + C \sum_i \xi_i - \sum_i\lambda_i(y_i(\langle \sum_j\lambda_j y_j x_j, x_i\rangle - b) + \xi_i - 1) - \sum_i\mu_i\xi_i = \\ = \frac{1}{2}\sum_i\sum_j \lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle + C \sum_i \xi_i - \sum_i\sum_j \lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle\\ \qquad + \sum_i \lambda_i y_i b - \sum_i \lambda_i\xi_i + \sum_i \lambda_i - \sum_i\mu_i\xi_i = \\ = -\frac{1}{2}\sum_i\sum_j \lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle + \sum_i (C - \lambda_i - \mu_i)\xi_i + \sum_i \lambda_i = \\ = \sum_i \lambda_i - \frac{1}{2}\sum_i\sum_j \lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle \end{array} $$ ��, �� : $$ L = \sum_{i=1}^m \lambda_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle. $$ �� , �� $w, b, \xi_i$, � �� $\lambda_i$, �� $x_i, x_j$. �� $\lambda_i$ �� : $$ \begin{array}{l} \sum_{i=1}^m \lambda_i - \frac{1}{2}\sum_{i,j=1}^m \lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle \to \max_\lambda \\ \text{�� } \\ \sum_{i=1}^m \lambda_i y_i = 0, \\ 0 \le \lambda_i \le C. \end{array} $$

�� , �� $w$ � �� $$ w = \sum_{i=1}^m \lambda_i y_i x_i. $$ �� $b$, �� . �� $i$ ��, �� $0 < \lambda_i < C$ (�� !). �� , �� $� = \lambda_i + \mu_i$, $\lambda_i, \mu_i\ge 0$, ��, �� $\mu_i \ne 0$; �� $\mu_i \xi_i = 0$ ��, �� $\xi_i = 0$. �� $\lambda_i \ne 0$, �� $$ \lambda_i(y_i(\langle w, x_i\rangle - b) + \xi_i - 1) = 0, $$ ��, �� $$ y_i(\langle w, x_i\rangle - b) = 1. $$ �� $x_i$ �� , �� , �� . �� (�� ).

��, �� $\lambda_i$, �� $0 < \lambda_i < C$. �� . �� $x_i$ �� $$ y_i(\langle w, x_i\rangle - b) = 1, $$ �� , ��, �� $y_i = \pm 1$, �� $b$: $$ b = \langle w, x_i\rangle - y_i. $$

��

��, �� $\lambda_i$: $$ \begin{array}{l} \sum_{i=1}^m \lambda_i - \frac{1}{2}\sum_{i,j=1}^m \lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle \to \max_\lambda \\ \text{�� } \\ \sum_{i=1}^m \lambda_i y_i = 0, \\ 0 \le \lambda_i \le C. \end{array} $$ ��, �� , �� $\langle x_i, x_j \rangle$ �� $x_i$, �� . �� $K(x_i, x_j)$, �� $x_i, x_j$ � �� , ��, �� . �� . �� , �� , �� , �� . �� , �� : $$ \begin{array}{l} \sum_{i=1}^m \lambda_i - \frac{1}{2} \sum_{i,j=1}^m \lambda_i\lambda_j y_i y_j K(x_i, x_j) \to \max_\lambda \\ \text{�� } \\ \sum_{i=1}^m \lambda_i y_i = 0, \\ 0 \le \lambda_i \le C. \end{array} $$ �� , �� $w, b$, �� $$ f(x) = K(w, x) - b, $$ �� $x$ � �� , �� $f(x) > 0$, � �� , �� $f(x) < 0$.

��

�� , �� RBF (Radial Basis Function): $$ K(x, x') = \exp(- \frac{||x - x'||^2}{2\sigma^2}) $$ �� .

�� $d$: $$ K(x, x') = (\langle x, x'\rangle + c)^d, $$ �� $c\in\Bbb{R},\ c\ge0$ — ��, �� .

�� , �� :
��  (RBF)

�� , �� 2

�� , �� 3

���������� ����� ������� ��������: ������� �������

���������� ������

���������� ������

������������ ������

������� ����–������� � ������������ ������

������� ������–����–�������

���������� ������� ������–����–������� � ������ ������� ��������

������������� ���� � ���������� ������ ������� ��������

����� ������ ����

�� : ��

��

��

��

�� –��

�� –��–��

�� –��–��

��

��