Глава 36. Близость последовательностей

Теперь переходим к самому главному. Процесс поиска общей подпоследовательности можно представить как путь по стрелкам на полученном рисунке из верхнего левого угла в нижний правый. Ясно, что чем больше на пути встретится диагональных стрелок (и, соответственно, отмеченных красным точек совпадения), тем длиннее получится общая подпоследовательность.

Идеи реализации
	Глава 36. Близость последовательностей

Ясно, что если бы таких диагональных переходов не было вовсе (то есть строки не имели бы общих символов), любой путь по стрелкам был бы наилучшим, а количество кварталов, пройденных пешеходом, оставалось бы одним и тем же и равнялось бы полупериметру прямоугольника, охватывающего весь граф. В этом случае количество переходов вдоль кварталов можно считать особым расстоянием от старта до финиша. Это расстояние отличается от обычного евклидова расстояния на плоскости, и называется манхэттенским (мы надеемся, что этот термин теперь не нуждается в пояснениях).

В нашей нынешней задаче сходная ситуация очень похожая. За каждый переход по горизонтали или вертикали полагается штраф в одну условную единицу, а диагональный переход не штрафуется. Нужен путь, грозящий наименьшим штрафом.

Кстати, а сколько же всего путей в нашем графе, соединяющих точки старта и финиша? Уж не перебрать ли их все, чтобы найти наилучший?

Подсчёт количества путей в прямоугольном графе

В качестве небольшого комбинаторного упражнения подсчитаем количество путей в прямоугольнике, разбитом на квадраты, и имеющим размеры $h$ квадратов по горизонтали и $v$ по вертикали. Пока мы никак не не учитываем возможность диагональных переходов. Тогда стоимость каждого пути одинакова и равна сумме длин строк — это как раз полупериметр прямоугольника, охватывающего граф, это манхэттенская длина пути. Ясно, что учёт диагональных переходов разве что увеличат это число, так что мы получим оценку снизу для трудоёмкости решения задачи методом полного перебора всех вариантов.

Каждый путь может быть закодирован как последовательность букв $H$ и $V$ , которые соответственно символизируют шаг вправо и шаг вниз. В последовательности должно содержаться ровно $h$ букв $H$ и ровно $v$ букв $V$ . Все такие последовательности и нужно подсчитать.

Первую букву $V$ можно расположить, очевидно, $h + v$ способами. Для второй будет уже на одну возможность меньше, то есть $h + v - 1$ . Для самой последней останется лишь $h + v - v + 1 = h + 1$ вариант. На оставшиеся места расставим буквы $H$ .

Итак, подсчёт приводит, казалось бы, к выражению $(h + v) (h + v - 1) \dots (h + 1) = \frac{(h + v)!}{h!} .$

Однако немного смущает то, что результат меняется при замене $h$ на $v$ и наоборот. Правильны ли наши выводы? Нет.

Дело в том, что каждую расстановку букв $V$ мы подсчитали несколько раз. К примеру, первую $V$ ставим на третье место, а вторую — на пятое. А затем первую на пятое а вторую на третье. Оба случая будут подсчитаны. В итоге наши подсчёты учитывают порядок расстановки букв $V$ по их местам, что нам совсем не нужно. Правильный результат получится, если выражение разделить на количество перестановок букв $V$ , то есть на $v!$ . В итоге получаем $\frac{(h + v)!}{h! v!}$ путей.

Да это же знакомое нам выражение для $C_{h + v}^{h} = C_{h + v}^{v}$ количества сочетаний из $h + v$ по $h$ (или, что то же самое, по $v$ )!

А теперь предлагаем вашему вниманию более изящное рассуждение. Обозначим количество последовательностей длины $l$ , в которой $v$ букв $V$ и $h = l - v$ букв $H$ , как $P (l, v)$ .

На первое место в последовательности можно поставить или $H$ , или $V$ . Если $H$ , то дальше путь продолжается в прямоугольнике размером $(h - 1) \times v$ , для чего имеется $P (l - 1, v)$ способов. Аналогично, если на первом месте окажется $V$ , для продолжения пути будет $P (l - 1, v - 1)$ возможностей.

Таким образом, получаем соотношение $P (l, v) = P (l - 1, v) + P (l - 1, v - 1) .$ Учтём также очевидные равенства $P (l, 0) = P (l, l) = 1$ (последовательность, состоящая из одинаковых букв, единственна). Вот теперь трудно не узнать соотношения для элементов треугольника Паскаля, которому мы посвящали главу 10. Полученное равенство выражает тот факт, что число, стоящее в числовом треугольнике в $l$ -ой строке, равно сумме чисел, расположенных слева и справа от него на одну строчку выше. Дополнительные равенства говорят о том, что числовой треугольник обрамлён слева и справа едииницами. В общем, $P (l, v) = C_{l}^{v} = \frac{l!}{v! (l - v)!} = \frac{(h + v)!}{h! v!} .$ Мы другим способом пришли к той же самой формуле.

Для нашего примера со словами туманы и мутанты получается $1716$ возможных путей. Перебрать их — задача, вполне посильная для современных вычислительных машин. Для двух слов, в каждом из которых по двенадцати букв, получается уже $2704156$ вариантов. Хоть это и не астрономическое число, такой перебор уже будет некоторым испытанием. Но не будем забывать, что задача определения близости последовательностей не ограничивается только лишь словами, это могут быть последовательности строк файлов. При сравнении двух файлов с сотней строк в каждом количество путей (мы грубо прикинули в уме) будет порядка $10^{59}$ . Это очень много, так что уже знакомый нам метод грубой силы и в этот раз покажет свою несостоятельность.

Идеи реализации

Подсчёт количества путей в прямоугольном графе

Рекурсивное решение

Динамическое программирование

Вычисление функции Беллмана

Алгоритм Майерса


Глава 36. Близость последовательностей		Разработка