Суффиксное дерево. Основы. Построение за O(nlogn)

№	Пользователь	Рейтинг
1	tourist	4009
2	jiangly	3823
3	Benq	3738
4	Radewoosh	3633
5	jqdai0815	3620
6	orzdevinwang	3529
7	ecnerwala	3446
8	Um_nik	3396
9	ksun48	3390
10	gamegame	3386

№	Пользователь	Вклад
1	cry	167
2	Um_nik	163
3	maomao90	162
3	atcoder_official	162
5	adamant	159
6	-is-this-fft-	158
7	awoo	157
8	TheScrasse	154
9	Dominater069	153
9	nor	153

Всем привет! Меня всегда завораживало то, как хитро сплетены так называемые "строковые алгоритмы". Полгода назад я писал здесь статью о возможности быстрого перехода от Z-функции к префикс-функции и обратно. Некоторые опытные пользователи уже знают, что такие переходы возможны и между более сложными строковыми структурами — суффиксным деревом и суффиксным автоматом. Такой переход достаточно подробно описан на е-maxx.ru. Сейчас же я хотел бы в целом рассказать о такой структуре, как суффиксное дерево, а также поделиться достаточно простым (с теоретической точки зрения) способом его быстрого построения — получением суффиксного дерева из суффиксного массива.

Напомню, что суффиксное дерево — это бор, содержащий все суффиксы заданной строки. В самой простейшей реализации его построение потребует O(n²) времени и памяти — мы просто будем добавлять в бор все суффиксы по одному, пока не получим то, что получим. Чаще всего, такой расход времени и памяти оказывается слишком большим. Постараемся что-нибудь с этим сделать.

Для начала сведём ассимптотику по памяти до O(n). Для этого нам потребуется следующая идея: если мы имеем группу рёбер, которые соединены последовательно и не имеют ответвлений, мы можем объединить их в одно, которому в соответствие будет представлена подстрока, а не отдельный символ. Таким образом, мы получим сжатый бор (также известный как radix tree или patricia tree). Но это ещё не всё. Наконец, мы можем заметить, что нам незачем целиком хранить подстроку на ребре, мы можем хранить лишь индексы её начала и конца в исходной строке. Именно это и даст нам желанную линейную ассимптотику. Ведь действительно, вершины в нашем дереве теперь будут появляться только в местах разделения следующих друг за другом лексикографически суффиксах, а таких мест будет не больше, чем n - 1.
И, наконец, сведём к O(n) время построения дерева. Для этого нам подойдёт следующая стратегия:
1) Добавляем в бор лексикографически минимальный суффикс.
2) Для каждого следующего суффикса поднимаемся до точки lcp[i] и достраиваем его там.

Удивительно, но этого будет достаточно. Это связано с тем, что действия, которые мы совершаем на самом деле идентичны обходу дерева в глубину, который, очевидно, выполняется за O(n).

"Постой-ка, но ведь в заголовке написано о построении за O(nlogn), а у тебя тут сплошные O(n), что за подстава?"

Действительно, на самом деле, имея массив lcp суффиксное дерево УЖЕ можно строить за O(n). Однако всё ещё остаётся одна проблема — массив lcp тоже надо посчитать. И именно здесь нам на помощь приходит суффиксный массив, по которому уже в свою очередь можно получить lcp. Сравнительно простой метод его получения описан на сайте e-maxx.ru. Мы также можем использовать алгоритм Касаи для получения массива lcp за линейное время. Если скомбинировать его с каким-нибудь линейным алгоритмом получения суффиксного массива, можно будет свести время построения суффиксного дерева таким способом к линейной.

Достоинства такого способа построения суффиксного дерева:

Просто для понимания.
Приемлемый расход времени и памяти.

Недостатки:

Алгоритм работает только в режиме оффлайн.
Объём кода. Мне потребовалось почти 300 строк (100 из которых — на получение суфф. массива) и целый вечер на то, чтобы сделать что-то приемлемое по такой схеме. Я впервые работал с суффиксным деревом, поэтому не могу точно сказать, можно ли построить его таким алгоритмом меньшей ценой.

Здесь можно также ознакомиться с примером кода, который совершает все эти злодеяния для создания суффиксного дерева. Всем удачи и до новых встреч, надеюсь, статья окажется интересной :)

Для проверки корректности кода были использованы следующие задачи:
1393 — проверка корректности построения lcp.
1590 — проверка корректности построения непосредственно суффиксного дерева.