ПАмАгите с зОдачОй (практическая задача из области оптимального кодирования)

№	Пользователь	Рейтинг
1	tourist	4009
2	jiangly	3823
3	Benq	3738
4	Radewoosh	3633
5	jqdai0815	3620
6	orzdevinwang	3529
7	ecnerwala	3446
8	Um_nik	3396
9	ksun48	3390
10	gamegame	3386

№	Пользователь	Вклад
1	cry	167
2	Um_nik	163
3	maomao90	162
3	atcoder_official	162
5	adamant	159
6	-is-this-fft-	158
7	awoo	157
8	TheScrasse	154
9	Dominater069	153
9	nor	153

Upd. похоже, что придумалось решение.

====== Задача такая:

Пусть задан некоторый алфавит A и алфавит B. Будем считать, что все символы алфавита A появляются равновероятно. Каждый символ алфавита B имеет некоторый вес — вещественное число, характеризующее сложность его передачи. Необходимо построить префиксный код, кодирующий символ алфавита A словом над алфавитом B, минимизирующий средний вес получающегося слова над алфавитом B.

Техническое замечание: алфавит A как можно больше (меньше 2²⁴ — странно), алфавит B порядка 2²⁰, причем в нем примерно ~~5 различных весов~~ 4 различных веса передачи. Радовать будет просто хорошее решение.

Источник: жизнь (необходимо записать бинарные данные в Unicode так, чтобы UTF-16 и UTF-8 представления были не очень длинными).

Примерные данные алфавита B:

Количество символов	w₁	w₂	Описание, кому интересно
2⁷ - 2⁵	1	1	Однобайтовые UTF-8 символы, кроме "плохих" первых 32
2¹¹ - 2⁷	2	1	Двухбайтовые UTF-8 символы
2¹⁶ - 2¹¹ - 2¹¹ - 2	3	1	Трехбайтовые UTF-8 символы, кроме "плохих" последних двух и суррогатов: Неверный BOM U+FFFE и символ U+FFFF запрещены в Unicode. U+D800..U+DFFF — диапазон суррогатных пар для UTF-16, запрещен в Unicode.
2²⁰	4	2	Старшая часть Unicode, которая кодируется суррогатной парой в UTF-16

Итоговый вес — это, например, 0.45w₁ + 0.55w₂

Upd. в итоге получилось построить перекодировку бинарных данных в Unicode со средней избыточностью ~30% для UTF-8 и ~20% для UTF-16 представлений (~40% и ~35% худшие случай, соответственно) кодированием 12-байтовых последовательностей. Для UTF-8 это практически неулучшаемо из-за собственной избыточности UTF-8, для UTF-16 низкая избыточность ведет к высокой избыточности представления в UTF-8. Вероятно, что для более длинных последовательностей можно улучшить результат UTF-16 при том же значении UTF-8, но избежать вычислений в длинной арифметике будет крайне проблематично.

Блог пользователя I_love_natalia