jayrandom | Jun. 12th, 2024

Сижу сегодня на митинге про оптимизацию LLaMA2, и вдруг понимаю, что старинная идея использовать тандем Марковской модели языка и Арифметического кодера в качестве оптимального компрессора текстов наконец имеет все шансы стать полезной!

Поискали с коллегой по ключевым словам - опоздали ровно на год :)
LLMZip: Lossless Text Compression using Large Language Models .

Ребята молодцы, получили 0.7-0.85 бита на букву, это текущий рекорд. Причём я подозреваю (статью по диагонали читал), что они настоящий Арифметический кодер даже не гоняли - возни с ним много.

Для достаточно точной оценки длины получающегося кода можно просто циклически прогнать весь текст через токенизатор, поток токенов - через модель, выбирая на каждом шаге из выхлопного вектора of logits тот, который соответствует кодируемому токену, привести этот logit к отрицательному двоичному логарифму ожидаемой вероятности, и это уже даст длину кода в (нецелых!) битах для этого конкретного токена (свойство Арифметического кодера - вроде бы даже теорема про это доказана). Потом просто просуммировать все эти длины кода вместе, и соотнести с оригинальной длиной текста в буквах (а не токенах).

По крайней мере, я бы так сделал. Собственно, я так и сделал в своём дипломе, просто 30 лет назад ещё никаких LLM не существовало :)

Для практического применения нужно было бы использовать Chat-версию LLM, у которой есть специальный токен "текст закончился", а также какой-нибудь настоящий Арифметический кодер.

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Curiouser and curiouser

Jun. 12th, 2024

Jun. 12th, 2024

использование LLM + арифметического кодирования для компрессии текстов

Profile

January 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags