Полиномиальные хеши

11 лет назад, скрыть # |

-8

Скажите, а почему нельзя писать хеши как на e-maxx?

→ Ответить

»

Konstantin.Zakharov

11 лет назад, скрыть # ^ |

+16

Их умеет взламывать не только chuck

→ Ответить

»

11 лет назад, скрыть # ^ |

+10

А причём тут chuck?

→ Ответить

»

nic11

11 лет назад, скрыть # ^ |

+10

А при том, что при виде Чака любое решение в страхе ломается.

→ Ответить

»

vogel

11 лет назад, скрыть # |

+1

А где же эталонный вариант, как писать надо, чтоб хэши не падали, в том числе и на строке Туэ-Морса?

→ Ответить

»

11 лет назад, скрыть # ^ |

+10

В ссылке на full они не падают)

→ Ответить

»

11 лет назад, скрыть # |

+13

Сейчас еще модно делать защиту от взломов на CF: 2 модуля выбирать не 10⁹ + 7 и 10⁹ + 9, а два рандомных больших простых числа)

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Скажите, а почему именно 2 модуля?

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Ну нужно >=2 чтобы не случилось просто коллизии случайно. Можно брать и больше, просто тогда программа будет работать дольше)

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Спасибо.

→ Ответить

»

11 лет назад, скрыть # ^ |

+3

А как бы их покороче ещё сгенерить эти два случайных простых числа...

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Ну мы обычно делали так: шли циклом от 10^9 и проверяли чила на простоту за корень. Как только сгенили приличное число простых(~10), выбираем из них 2 рандомных различных.

→ Ответить

»

StarCuriosity

11 лет назад, скрыть # ^ |

+16

Почему бы просто не тыкать в случайные большие числа и проверять на простоту? Кажется, это должно не сильно долго работать. А то может найтись маньяк, который заранее нагенерит 45 котрпримеров для всех пар 10 простых(Интересная идея! Надо будет попробовать поманьячить).

→ Ответить

»

asobolev

11 лет назад, скрыть # ^ |

+19

Как маньяк узнает, какую под какую пару пускать тест в ход, если пара случайно выбирается?

→ Ответить

»

11 лет назад, скрыть # ^ |

+8

Ну если задача специфичная, то он может эти примеры склеить друг с другом

→ Ответить

»

riadwaw

11 лет назад, скрыть # ^ |

+8

Можно просто выбрать случайное число и от него искать следующее простое

→ Ответить

»

asobolev

11 лет назад, скрыть # ^ |

← Rev. 2 →

0

Так может зашить штук 10, а потом случайно 2 из них выбрать?

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Для этого их нужно заранее подготовить)

→ Ответить

»

ZhenyaDudko

6 лет назад, скрыть # ^ |

0

http://compoasso.free.fr/primelistweb/page/prime/liste_online_en.php Вот тут можно взять

→ Ответить

»

Konstantin.Zakharov

11 лет назад, скрыть # ^ |

0

Как будто эти два не рандомные)

→ Ответить

»

LDVSOFT

11 лет назад, скрыть # ^ |

0

Слишком популярные.

→ Ответить

»

PavelKunyavskiy

11 лет назад, скрыть # ^ |

+3

Казалось бы, зачем случайный модуль, если я могу взять случайную точку.

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Хм, да, так вроде проще. Круто)

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Казалось бы зачем два простых модуля, когда можно взять один 10e18 + 3 :)

→ Ответить

»

11 лет назад, скрыть # ^ |

+17

По нему перемножать дольше? Я умею только через long double, который не везде есть.

→ Ответить

»

asobolev

11 лет назад, скрыть # ^ |

0

В gcc есть __int128. Правда, я только слышал о нём, но ни разу не пользовался.

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Он есть ещё в меньшем числе мест.

→ Ответить

»

WasylF

11 лет назад, скрыть # ^ |

0

а где вообще есть? я уже не первый раз вижу, но никогда не удовалась скомпилировать такой код. Нужны какие-то спе библиотеки??

→ Ответить

»

yeputons

11 лет назад, скрыть # ^ |

+29

Нужна 64-битная версия gcc. Например, под Windows это может быть tdm-gcc-64.

→ Ответить

»

Kaban-5

11 лет назад, скрыть # |

+29

А зачем брать точку простой? Нужно лишь брать точку с большим порядком по модулю основания хэша, в идеале первообразный корень (конечно, больший размера алфавита). Эти вещи, как я понимаю, слабо коррелируют.

→ Ответить

»

11 лет назад, скрыть # |

+8

Вы меня простите, но точку надо брать случайной (написать в коде rand()), тогда всё будет нормально работать. Иначе любому хэшу, можно легко подобрать коллизию. Я умею строить например для модулей порядка 1e36 не слишком большой тест из двух букв, за разумное время.

→ Ответить

»

qwerty787788

11 лет назад, скрыть # ^ |

+29

А можешь подробнее рассказать, как его строить?

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Коля скорее всего имеет в виду метод Капуна

→ Ответить

»

qwerty787788

11 лет назад, скрыть # ^ |

0

Хм, но вроде бы, если я буду использовать случайный модуль, то таким методом коллизию найти не получится. Т. е. видимо смысл в том, что хотя бы один из параметров хеша должен быть случайным.

→ Ответить

»

11 лет назад, скрыть # ^ |

← Rev. 3 →

+8

Насколько я понял, Коля говорит так

Если и точка, и модуль детерминированы, то легко ломать (по ссылке алгоритм)
Значит, нужны или случайная точка, или случайный модуль. Случайную точку брать проще, так как она не обязана быть простой.

UPD: (s0 + s1 * P) % M. Здесь M — модуль, а P — точка, которую мы подставляем в многочлен.

→ Ответить

»

qwerty787788

11 лет назад, скрыть # ^ |

0

Понятно. Просто мне, как человеку, который пишет на джаве, можно воспользоваться функцией nextProbablePrime у BigInteger, поэтому я в последнее время делаю модуль случайным простым, а точку константой.

→ Ответить

»

11 лет назад, скрыть # ^ |

+8

В первом приближении да, но когда элементов становится мало (<40) можно в лоб перебирать все подмножества. Это заметно уменьшает размер теста.

→ Ответить

»

11 лет назад, скрыть # ^ |

+11

А можно этот метод чуточку поподробнее описать?

→ Ответить

»

Задача с чемпионата СПБГУ

11 лет назад, скрыть # ^ |

+22

Моё решение

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Спасибо!

→ Ответить

»

winger

11 лет назад, скрыть # ^ |

+11

А есть какое-нибудь объяснение, почему это работает и с какой асимптотикой?

→ Ответить

»

11 лет назад, скрыть # ^ |

+40

Мы хотим сгенерить 2 строки длины n над алфавитом {a, b}, у котороых (P, M) хеш одинаковый. Hash(s₀s₁...s_n - 1) == Hash(t₀t₁...t_n - 1) ⇔ Σ_iPⁱcoef_i = 0 (mod M). Здесь coef_i ∈ {-1, 0, +1}.

Осталось найти такие коэффициенты.

Возьмём a₀ = {P⁰ mod M, P¹ mod M, ... P^n - 1 mod M}.

Мы верим, что a₀ содержит n случайных равномерно распределённых чисел от 0 до M.

Теперь из a_i получим a_i + 1.
Диапазон чисел в a_i обозначим за M_i (M₀ = M).

b = Sorted(a_i).
a_i + 1 = {b[1] — b[0], b[3] — b[2], ...}

Длина a_i + 1 в два раза меньше, чем длина a_i.
Поскольку b[i+1] — b[i] ≈ M_i/n, то диапазон массива a_i + 1 примерно в n раз меньше диапазона массива a_i.

Мы верим, что если числа в a_i распределены равномерно, то и числа в a_i + 1 распределены примерно равномерно.

Алгоритм завершается, как только b[0] = 0.

Оцени n при котором диапазон успеет сойтись от M к единице: n(n/2)(n/4)(n/8)... ≥ M ⇔ n^logn / 2^{1 + 2 + ... + logn} ≥ M ⇔ 2^{log²n - logn(logn + 1) / 2} ≥ M ⇔ 2^{log²n / 2} ≥ M ⇔ logn ≥ $\text{[math]}$ ⇔ n ≥ $\text{[math]}$ .

Подставляем M = 10¹⁸, получаем n ≥ 2048.

→ Ответить

»

winger

11 лет назад, скрыть # ^ |

+8

Круто, спасибо!

→ Ответить

»

11 лет назад, скрыть # ^ |

← Rev. 7 →

+1

Позволь позанудничать. В своей оценке ты дважды делаешь преобразования не тождественные, а приводящие к более сильным неравенствам, поэтому знак должен быть не ⇔, а ⇐ или ∵. Тождественно вот так (по-прежнему предполагая, что n есть степень двойки):

$\text{[math]}$

Правда, после округления до степени двойки для M = 10¹⁸ всё равно получается n ≥ 2048.

А логарифм в ТеХе пишется так: \log.

…А вообще за объяснение спасибо!

→ Ответить

»

11 лет назад, скрыть # ^ |

← Rev. 2 →

+5

Спасибо за строгую версию рассуждений =)

А логарифм в ТеХе пишется так

Мне не нравится вёрстка tex-а на CF, без нужды стараюсь tex-ом здесь не пользоваться.

→ Ответить

»

Sammarize

11 лет назад, скрыть # |

+5

У меня есть конструктивное замечание: зачем вообще упомянут второй способ, если он во всех отношениях хуже?

→ Ответить

»

11 лет назад, скрыть # ^ |

+5

Валер, а ты переходил по ссылкам на хабр и емакс? Только поэтому. Потому что многие так пишут.

→ Ответить

»

Sammarize

11 лет назад, скрыть # ^ |

+8

Да, переходил, конечно. То есть, чтобы показать, чем этот вариант плох? Окей.

→ Ответить

»

Kaban-5

11 лет назад, скрыть # |

← Rev. 6 →

0

Вот так лучше вообще не делать, так как без srand() это бесполезно, иначе работает неправильно с вероятностью $\text{[math]}$ под Windows, где Σ — размер алфавита, то есть почти гарантированно упадёт на каком-нибудь тесте.

Кстати, если уж так хочется избежать взлома, то инициализроваться надо не от time(), а от чего-то, что может принимать очень много разных значений за короткий промежуток времени, так как взломщик-маньяк может склеить контрпримеры для всех значений time() на минуту вперёд.

P. S. Первое замечание уже поправили, но как-то не очень надёжно выглядит...

P. P. S. "почти гарантированно упадёт на каком-нибудь тесте" — неправда, туплю, вероятность значима только есть тестов 2000 или больше.

→ Ответить

»

11 лет назад, скрыть # ^ |

+8

Насколько я понимаю, если модуль простой, P можно брать любым больше Σ. Почему нет? У меня в коде стоит max(239, rand()). В посте сейчас тоже поправлю.

→ Ответить

»

Kaban-5

11 лет назад, скрыть # ^ |

← Rev. 4 →

0

Когда я начинал писать комментарий, было просто rand(). Второй пункт всё равно в силе, да и max(239, rand()) очень часто бывает равным 239.

UPD: Ок, я идиот, нужно тестов 200 конкретно против точки 239, чтобы это упало с хорошей вероятностью.

→ Ответить

»

11 лет назад, скрыть # ^ |

+21

Ну ооочень часто :D

→ Ответить

»

11 лет назад, скрыть # ^ |

← Rev. 2 →

0

В нормальных системах rand() возвращает число из [0, 2³¹ - 1], если писать хэши по двум модулям и брать основания независимо, то вероятность события которое описанно < 10^- 15. Но если быть совсем честным, можно использовать то, что лежит в random, говорят там генераторы случайных чисел написанны хорошо.

→ Ответить

»

KADR

11 лет назад, скрыть # ^ |

+14

Если есть С++11, то можно делать так: srand(chrono::duration_cast<chrono::nanoseconds>(chrono::high_resolution_clock::now() - chrono::high_resolution_clock::time_point()).count()).

→ Ответить

»

yarrr

11 лет назад, скрыть # ^ |

← Rev. 3 →

0

#include <x86intrin.h>
srand(rdtsc());

И под MSVC

→ Ответить

»

KADR

11 лет назад, скрыть # ^ |

0

__rdtsc() — это не часть стандарта, на разных компиляторах она в разных библиотеках лежит и никто не гарантирует ее наличия.

→ Ответить

»

CountZero

11 лет назад, скрыть # ^ |

+13

хотел написать, что в C++11 есть std::random_device, но выяснилось, что в MinGW этот класс всегда возвращает одни и те же числа.

Кстати, high_resolution_clock в MinGW тоже не совсем "high resolution": возвращает время с точностью только до микросекунд, а не до нано.

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Ничего себе! Интересно, в libstdc++ примут патчи, исправляющие это безобразие добавлением специального кода для Windows?

→ Ответить

»

11 лет назад, скрыть # ^ |

0

FWIW, код std::random_device из libc++ подсказывает, что на Windows можно использовать функцию rand_s.

→ Ответить

»

al13n

11 лет назад, скрыть # ^ |

← Rev. 2 →

+9

Чуть короче:

srand(chrono::duration_cast<chrono::nanoseconds>(chrono::high_resolution_clock::now().time_since_epoch()).count())

→ Ответить

»

I_love_natalia

11 лет назад, скрыть # |

← Rev. 2 →

+42

Есть небольшое общее замечание, пока у меня не получается сделать из него что-либо конкретное. Речь идет об оценке вероятности ошибки сравнения строк для реализации, в которой рандомизируется MUL и фиксируется MOD в полиномиальном хеше.

Для начала, несколько общих моментов. Пусть P(x) — многочлен степени n по модулю p (разницу hash(s1) — hash(s2) можно рассматривать как такой многочлен).

Несколько утверждений:
1. Вероятность того, что заданный x является корнем случайного многочлена P равна 1/p (является корнем при ровно одном свободном члене).
2. Среднее количество различных корней многочлена P равно 1 (предыдущее утверждение суммируется по всем x).
3. В худшем случае число корней многочлена P равно n.

Таким образом, для полиномиального хеша при случайном MUL для случайных различных строк s1 и s2 вероятность равенства hash(s1)=hash(s2) равна 1/MOD, а в худшем случае относительно s1 и s2 данная вероятность равна max(|s1|,|s2|)/MOD. В общем, худший случай существенно отличается от среднего.

Если получится построить пример для приложенного кода lcp такой, что все сравнения будут проходить по худшему случаю, вероятность провала каждого запроса lcp будет иметь порядок |s|^2/(p1*p2).

К сожалению, построение многочлена, имеющего много корней в ограничениях на коэффициенты многочлена наталкивается (на моем уровне знаний алгебры) на технические сложности. Если я правильно считаю оценки, вероятность того, что при k << p случайный многочлен имеет k различных корней равна (1/k!), т.е. случайная генерация не приводит к результату. Единственное известное мне достаточно быстрое построение многочлена в ограничениях на коэффициенты, имеющего один заданный корень (тот-самый-алгоритм-с-разностями), дает степень порядка $\text{[math]}$ , что существенно выше степени минимального такого многочлена и, похоже, неприменимо для задачи. В общем, нужны дальнейшие исследования.

→ Ответить

»

11 лет назад, скрыть # |

+5

На всякий случай хочу проверить: правильно ли я понимаю, что при простых модулях точку можно брать любую, большую размера алфавита (или большую или равную?) и меньшую каждого модуля? И что 239 в твоём коде — это просто красивое число, большее любого встречаемого в задачах алфавита, но его спокойно можно заменить на, например, 256 или real_alphabet_size+1?

→ Ответить

»

11 лет назад, скрыть # ^ |

0

Да, всё так.

P.S. С вероятностью правда непонятки. I_love_natalia разбирался, но вопросы остались.

→ Ответить

»

gskhirtladze

11 лет назад, скрыть # |

0

А почему " если писать без unsigned, получится Undefined Behaviour " ?

→ Ответить

»

yeputons

11 лет назад, скрыть # ^ |

+8

Потому что переполнение знаковых типов (например, int или long long) — undefined behavior по стандарту языка.

→ Ответить

»

Diazzz

10 лет назад, скрыть # |

+3

Можете привести небольшой пример на коллизию

→ Ответить

»