Сжатие интеллекта: Оценка точности квантования больших языковых моделей

Новое исследование подробно анализирует методы пост-тренировочного квантования, позволяющие уменьшить размер и повысить эффективность больших языковых моделей без существенной потери качества.

Экспериментальные оценки позволили выявить общую картину протекания процессов и закономерности, лежащие в их основе.

В статье проведена всесторонняя оценка методов пост-тренировочного квантования с использованием микромасштабируемых форматов с плавающей точкой (MXFP), показывающая, что MXFP8 обеспечивает стабильность, квантование до 4 бит является сложной задачей, а компенсация ошибок и аффинные преобразования дают наилучшие результаты.

Несмотря на растущий интерес к снижению вычислительной сложности больших языковых моделей (LLM), влияние микромасштабируемых форматов с плавающей точкой (MXFP) на эффективность постобработанной квантизации (PTQ) оставалось недостаточно изученным. В настоящей работе, ‘Benchmarking Post-Training Quantization of Large Language Models under Microscaling Floating Point Formats’, проведено систематическое исследование PTQ с использованием форматов MXFP, охватывающее различные алгоритмы, эталонные тесты и семейства LLM. Ключевым результатом является подтверждение стабильности 8-битной квантизации MXFP, существенных сложностей при 4-битной квантизации и важности компенсации ошибок масштабирования. Какие новые подходы к разработке PTQ позволят в полной мере раскрыть потенциал низкоточных форматов, таких как MXFP, для еще большей оптимизации LLM?

Квантование: Путь к Доступному Искусственному Интеллекту

Современные большие языковые модели демонстрируют впечатляющие возможности в обработке и генерации текста, однако их функционирование требует значительных вычислительных ресурсов. Размер этих моделей, состоящих из миллиардов параметров, приводит к высокой потребности в памяти и вычислительной мощности, что затрудняет их развертывание на устройствах с ограниченными ресурсами, таких как мобильные телефоны или встроенные системы. Для эффективной работы даже при решении относительно простых задач требуется дорогостоящее оборудование и значительное энергопотребление. Это создает серьезные препятствия для широкого распространения и доступности передовых технологий обработки естественного языка, ограничивая их применение в различных областях, где важны мобильность и экономичность.

Огромные размеры современных языковых моделей представляют собой значительное препятствие для их широкого внедрения. Необходимость в большом объеме памяти и вычислительной мощности не только усложняет развертывание этих моделей на периферийных устройствах, таких как смартфоны или встроенные системы, но и существенно увеличивает эксплуатационные расходы, связанные с поддержанием инфраструктуры для их работы. Вычислительные затраты, потребляемые при обработке запросов, напрямую влияют на стоимость обслуживания, что делает использование таких моделей непрактичным для многих потенциальных приложений и пользователей. В результате, оптимизация размеров моделей становится критически важной задачей для обеспечения их доступности и экономичности.

Квантизация представляет собой эффективный подход к уменьшению габаритов больших языковых моделей и ускорению процесса вывода данных, что открывает возможности для их более широкого применения. Уменьшение точности представления параметров модели — например, переход от 32-битных чисел с плавающей точкой к 8-битным целым числам — значительно снижает объём необходимой памяти и вычислительные затраты. Это, в свою очередь, позволяет развертывать модели на устройствах с ограниченными ресурсами, таких как мобильные телефоны или встроенные системы, а также снижает стоимость их эксплуатации. Таким образом, квантизация не только оптимизирует производительность, но и делает передовые технологии обработки естественного языка доступными для более широкого круга пользователей и приложений.

Простая квантизация, направленная на уменьшение размера и ускорение работы больших языковых моделей, часто приводит к неприемлемому снижению точности. Однако, современные методы, такие как 8-битная квантизация весов и активаций (W8A8), демонстрируют значительное улучшение ситуации. Исследования показывают, что применение W8A8 обеспечивает восстановление точности на уровне ≥97% для различных моделей и тестовых наборов данных. Это означает, что, используя W8A8, можно существенно уменьшить вычислительные затраты и требования к памяти, сохраняя при этом высокую производительность языковой модели, что открывает возможности для её развертывания на более широком спектре устройств и в более экономичных условиях.

Анализ распределения активаций <span class="katex-eq" data-katex-display="false">q_\proj</span>-модуля в 8-м слое модели openPangu-Embedded-7B-V1.1 показывает, что различные методы квантования изменяют динамический диапазон и статистику активаций. — Анализ распределения активаций $q_\proj$ -модуля в 8-м слое модели openPangu-Embedded-7B-V1.1 показывает, что различные методы квантования изменяют динамический диапазон и статистику активаций.

Пост-Тренировочная Квантизация: Искусство Сжатия без Жертв

Пост-тренировочная квантизация (PTQ) представляет собой эффективный метод сжатия больших языковых моделей (LLM) без необходимости их повторного обучения. Этот подход позволяет снизить вычислительные затраты и объем памяти, необходимые для развертывания моделей, путем уменьшения разрядности представления весов и активаций. В отличие от квантизации, требующей обучения (Quantization-Aware Training), PTQ позволяет применить сжатие к уже обученной модели, что существенно упрощает процесс и снижает временные и ресурсные затраты. PTQ особенно актуальна для развертывания LLM на устройствах с ограниченными ресурсами, таких как мобильные телефоны или периферийные устройства, где сохранение точности при снижении вычислительной нагрузки является критически важным.

Форматы микромасштабирования чисел с плавающей точкой (MXFP) повышают эффективность квантозации за счет сохранения динамического диапазона, однако они подвержены ошибке, связанной с коэффициентом масштабирования. Данная ошибка возникает из-за ограниченной точности представления коэффициента масштабирования, используемого для преобразования чисел с плавающей точкой в целочисленные представления. При квантизации весов и активаций модели, небольшие ошибки в коэффициенте масштабирования могут накапливаться и приводить к значительным отклонениям в выходных данных, что негативно сказывается на точности модели. Эффект особенно заметен при использовании низкоточных форматов, таких как MXFP4, где разрядность коэффициента масштабирования ограничена.

Операция предварительного масштабирования (Pre-Scale Operation) направлена на устранение ошибки фактора масштабирования (Scaling Factor Error), возникающей при использовании форматов с микромасштабированием чисел с плавающей точкой (MXFP). Данная ошибка может снижать стабильность процесса квантизации. Применение предварительного масштабирования входных данных перед квантизацией позволяет повысить точность и стабильность модели. Экспериментальные данные показывают, что использование данной стратегии приводит к улучшению производительности с 52.39% до 56.76% при квантизации MXFP4.

Методы аффинного и канального преобразования дополнительно уточняют постобработочную квантизацию (PTQ) за счет адаптивной регулировки числовых диапазонов весов и активаций. Аффинное преобразование применяет линейную функцию к данным, оптимизируя масштаб и смещение для минимизации потерь точности. Канальное преобразование идет дальше, применяя отдельные параметры масштабирования и смещения к каждому каналу тензора, что позволяет учитывать различия в распределении данных между каналами. Такой подход позволяет более точно отобразить исходные данные в квантованное пространство, что приводит к повышению производительности и снижению потерь точности по сравнению со стандартными методами PTQ.

Трансформационные Методы: Перестройка Модели для Эффективного Квантования

Методы SmoothQuant и AWQ демонстрируют эффективность преобразования, осуществляемого на уровне каналов, путем переноса сложности квантования с активаций на веса. Традиционно, квантование активаций представляет собой более сложную задачу из-за их широкого динамического диапазона и чувствительности к изменениям. Перенос сложности на веса позволяет использовать более эффективные стратегии квантования для весов, поскольку они обычно имеют более стабильное распределение. Это достигается путем применения аффинных преобразований к весам каждого канала, что позволяет уменьшить разброс значений активаций после квантования и, следовательно, повысить точность модели. Фактически, сложность квантования смещается от операций, требующих больших вычислительных ресурсов (активации), к параметрам, которые могут быть оптимизированы в процессе обучения.

Методы ротационной трансформации, такие как QuaRot и SpinQuant, повышают устойчивость квантования за счет применения ортогональных преобразований к весам модели. В основе этих методов лежит идея переориентации весов в пространстве признаков таким образом, чтобы минимизировать потери точности, возникающие при квантовании. Ортогональные преобразования сохраняют норму векторов, что позволяет снизить величину ошибок квантования и улучшить обобщающую способность модели после квантования. Применение этих преобразований позволяет более эффективно представлять веса с использованием меньшего количества бит, сохраняя при этом высокую точность.

Метод FlatQuant представляет собой эффективную альтернативу в рамках аффинного преобразования для оптимизации квантования. Он использует легковесную блочную стратегию обучения, что позволяет добиться высокой точности восстановления — 97.12% при использовании квантования W4A8 на модели openPangu-Embedded-7B-V1.1. Данный подход позволяет минимизировать вычислительные затраты при обучении, сохраняя при этом высокую производительность квантованной модели.

Методы компенсации ошибок, такие как GPTQ и MR-GPTQ, направлены на снижение погрешностей, возникающих при квантовании, посредством явного моделирования и коррекции этих ошибок. GPTQ использует алгоритм, основанный на втором порядке, для минимизации ошибки квантования, в то время как MR-GPTQ расширяет эту концепцию за счет использования мульти-ранговой декомпозиции для повышения эффективности и точности. Эти методы позволяют более эффективно представлять веса модели в низкоточных форматах, минимизируя потери производительности, связанные с квантованием, и обеспечивая более высокую точность по сравнению со стандартными подходами к квантованию.

Будущее Эффективных Больших Языковых Моделей: Доступность и Демократизация ИИ

Современные языковые модели огромного масштаба, несмотря на свою впечатляющую производительность, требуют значительных вычислительных ресурсов и памяти. Однако, комбинация передовых методов квантования, включающая в себя трансформационные подходы и компенсацию ошибок, позволяет существенно снизить размер этих моделей и связанные с ними вычислительные затраты. Квантование, по сути, представляет собой уменьшение точности представления чисел, используемых в модели, что приводит к уменьшению её размера без значительной потери производительности. В частности, применение сложных трансформаций и алгоритмов компенсации ошибок позволяет минимизировать потери точности, возникающие при снижении разрядности. Это открывает возможности для развертывания мощных языковых моделей на устройствах с ограниченными ресурсами, таких как мобильные телефоны и встроенные системы, значительно расширяя доступ к передовым технологиям обработки естественного языка.

Современные достижения в области квантования больших языковых моделей открывают возможности для их развертывания на устройствах с ограниченными ресурсами, таких как смартфоны и встроенные системы. Ранее сложные вычисления, требующие мощных серверов, становятся доступными локально, что значительно расширяет спектр применения технологий обработки естественного языка. Это позволяет интегрировать передовые NLP-возможности в приложения, работающие непосредственно на пользовательских устройствах, обеспечивая более высокую скорость обработки данных, повышенную конфиденциальность и независимость от сетевого подключения. Таким образом, снижение вычислительных затрат и требований к памяти не только оптимизирует производительность, но и способствует демократизации доступа к интеллектуальным технологиям, делая их более доступными для широкой аудитории.

Дальнейшее исследование новых стратегий квантования представляется критически важным для раскрытия всего потенциала больших языковых моделей в различных областях применения. В то время как 8-битное квантование обеспечивает сохранение исходной производительности, переход к 4-битному квантованию сопряжен с определенными трудностями. Показатели восстановления точности при 4-битном квантовании варьируются в пределах от 86.37% до 96.79%, что указывает на необходимость разработки более совершенных методов компенсации потерь. Успешное решение этих задач позволит значительно снизить вычислительные затраты и размер моделей, открывая возможности для их развертывания на устройствах с ограниченными ресурсами и расширяя доступ к мощным возможностям обработки естественного языка.

Эффективная квантизация больших языковых моделей (LLM) представляет собой не просто технический прорыв, но и ключевой фактор демократизации доступа к искусственному интеллекту. Уменьшение размера и вычислительных затрат, достигаемое благодаря квантизации, позволяет развертывать мощные модели на устройствах с ограниченными ресурсами, открывая возможности для широкого круга пользователей и приложений. Примечательно, что исследования демонстрируют высокую согласованность в производительности различных моделей — средняя корреляция между ними составляет 0.917, что указывает на стабильные тенденции в эффективности, независимо от архитектуры или модальности. Это подтверждает, что оптимизация квантизации может принести значительные выгоды для всего спектра LLM, делая передовые технологии обработки естественного языка доступными для более широкой аудитории и стимулируя инновации в различных областях.

Исследование демонстрирует, что упрощение моделей, в частности, применение методов пост-тренировочной квантизации, сопряжено с неизбежными потерями точности. Однако, как показывает работа, грамотное применение микромасштабируемых форматов (MXFP) позволяет минимизировать эти потери и достичь стабильности даже при экстремальном сжатии. Тим Бернерс-Ли однажды сказал: «Веб — это не просто коллекция веб-страниц, это способ думать». Подобно тому, как веб требует структурированного подхода к информации, так и квантизация больших языковых моделей требует продуманного подхода к представлению данных, чтобы сохранить их функциональность и избежать искажений. Применение аффинных преобразований и компенсации ошибок, как показано в статье, подтверждает эту идею — взлом системы представления данных требует понимания её структуры и умелого манипулирования ею.

Что дальше?

Представленная работа, тщательно препарируя методы пост-тренировочной квантизации, неизбежно наводит на мысль о том, что вся эта гонка за снижением точности — лишь элегантное признание несовершенства исходных моделей. Каждый патч, каждая аффинная трансформация — это философское заявление о том, что истинное знание требует компромисса. Особо стоит отметить стабильность MXFP8 — как будто система сама подсказывает, где находится предел сжатия, не разрушающего функциональность.

Однако, проблема 4-битной квантизации остаётся открытой раной. Попытки выжать максимум из минимума неизбежно сталкиваются с ограничениями, заставляя задуматься: а не является ли погоня за экстремальным сжатием самоцелью, оторванной от реальных потребностей? Истинный прогресс, вероятно, лежит в более глубоком понимании природы ошибок квантизации и разработке форматов, изначально ориентированных на компромисс между точностью и размером.

В перспективе, стоит ожидать смещения акцентов в сторону квантизации, адаптированной к конкретным задачам и архитектурам моделей. Универсальных решений не существует, и каждый новый формат — это лишь ещё один инструмент в арсенале реверс-инжиниринга реальности. Лучший хак — это осознание того, как всё работает, и готовность признать, что даже самые изящные патчи — лишь временные меры.

Оригинал статьи: https://arxiv.org/pdf/2601.09555.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Сжатие интеллекта: Оценка точности квантования больших языковых моделей

Квантование: Путь к Доступному Искусственному Интеллекту

Пост-Тренировочная Квантизация: Искусство Сжатия без Жертв

Трансформационные Методы: Перестройка Модели для Эффективного Квантования

Будущее Эффективных Больших Языковых Моделей: Доступность и Демократизация ИИ

Что дальше?

Квантовые технологии

Другие материалы QuantRise

Квантование: Путь к Доступному Искусственному Интеллекту

Пост-Тренировочная Квантизация: Искусство Сжатия без Жертв

Трансформационные Методы: Перестройка Модели для Эффективного Квантования

Будущее Эффективных Больших Языковых Моделей: Доступность и Демократизация ИИ

Что дальше?

Дальше по теме

Квантовые технологии

Другие материалы QuantRise