Пример branch prediction

№	Пользователь	Рейтинг
1	tourist	4009
2	jiangly	3823
3	Benq	3738
4	Radewoosh	3633
5	jqdai0815	3620
6	orzdevinwang	3529
7	ecnerwala	3446
8	Um_nik	3396
9	ksun48	3390
10	gamegame	3386

№	Пользователь	Вклад
1	cry	167
2	Um_nik	163
3	maomao90	162
3	atcoder_official	162
5	adamant	159
6	-is-this-fft-	158
7	awoo	157
8	TheScrasse	154
9	Dominater069	153
9	nor	153

На Сodeforces часто возникают обсуждения различных оптимизаций и особенностей работы современных процессоров. Думаю, будет интересно почитать про ситуацию, когда выигрыш в производительности достигается довольно неочевидным образом, полагаясь на branch prediction (предсказание переходов). Что это такое, и какая ситуация рассматривается, можно почитать вот тут: http://stackoverflow.com/questions/11227809/why-is-processing-a-sorted-array-faster-than-an-unsorted-array

Вкратце, ситуация следующая: простая линейная обработка массива целых чисел на конкретном примере выполняется почти в 6 раз быстрее, если предварительно этот массив отсортировать. Вопрос — почему?

Комментарии (5)

Показать архивные | Написать комментарий?

HolyInq

12 лет назад, # |

Странно, что именно в 6 раз. Казалось бы, должно быть в ~2 раза меньше обращений к памяти.
Но вот что более странно: почему не оптимизируется цикл по i?

→ Ответить

DAle

12 лет назад, # ^ |

+11

Казалось бы, должно быть в ~2 раза меньше обращений к памяти.

Я не являюсь особым знатоком архитектуры современных процессоров, но сам факт существования конвейера, кэшей разного уровня и предсказателя переходов уже не дает возможности вот так навскидку оценить во сколько на самом деле должно быть быстрее/медленнее в данном случае, даже зная характеристики конкретного процессора.

По поводу второго вопроса, там под ответом есть как раз информация о том, какие оптимизации в каких компиляторах приводят к другим результатам тестирования. ICC, например, переставляет циклы местами.

ilyakor

Нам (MSU Unpredictable) года 4 назад branch prediction помог на контесте (т.е. немного переписали один метод, избавившись от "if" ценой небольшого увеличения числа операций; как ни странно, это действительно помогло справиться с TL). Так что вполне жизненная оптимизация :)

SyFy

Касается ли данное ухищрение с сортированным массивом и Явы?

Там ведь по ссылке в самом вопросе приводится пример кода и на джаве.

Блог пользователя DAle