Splitwise: Эффективный вывод генеративных больших языковых моделей с использованием фазового разделения

Содержание

1. Введение
2. Предпосылки и мотивация
- 2.1 Фазы вывода LLM
- 2.2 Ограничения аппаратного обеспечения
3. Дизайн Splitwise
- 3.1 Обзор архитектуры
- 3.2 Управление ресурсами для конкретных фаз
4. Техническая реализация
- 4.1 Математические основы
- 4.2 Реализация кода
5. Результаты экспериментов
6. Анализ и обсуждение
7. Будущие приложения
8. Ссылки

1. Введение

Генеративные большие языковые модели (LLM) произвели революцию в обработке естественного языка, но их вычислительные потребности создают значительные проблемы для эффективного вывода. Подход Splitwise решает эти проблемы, распознавая и используя различные вычислительные характеристики двух основных фаз в выводе LLM.

2. Предпосылки и мотивация

2.1 Фазы вывода LLM

Вывод LLM состоит из двух различных фаз:

Фаза вычисления промпта: Вычислительно интенсивная параллельная обработка всех входных токенов
Фаза генерации токенов: Требующая много памяти последовательная генерация выходных токенов

2.2 Ограничения аппаратного обеспечения

Сравнение спецификаций GPU

A100 против H100: увеличение вычислительной мощности в 3.43×, но улучшение пропускной способности памяти всего в 1.64×

Современные GPU демонстрируют непропорциональное масштабирование между вычислительной мощностью и возможностями памяти, создавая неэффективность в выводе LLM.

3. Дизайн Splitwise

3.1 Обзор архитектуры

Splitwise развертывает вычисление промпта и генерацию токенов на отдельных машинах, оптимизированных под требования каждой фазы.

3.2 Управление ресурсами для конкретных фаз

Высокопроизводительные GPU (H100) для фазы промпта, экономичные GPU для фазы генерации токенов.

4. Техническая реализация

4.1 Математические основы

Механизм внимания в трансформерах может быть представлен как:

$Attention(Q, K, V) = softmax(\\frac{QK^T}{\\sqrt{d_k}})V$

Где $Q$, $K$, $V$ представляют запросы, ключи и значения соответственно, а $d_k$ — размерность ключей.

4.2 Реализация кода

class SplitwiseScheduler:
    def schedule_request(self, request):
        if request.phase == "prompt":
            return self.assign_to_prompt_machine(request)
        else:
            return self.assign_to_token_machine(request)
    
    def transfer_state(self, prompt_output, token_machine):
        # Эффективная передача состояния с использованием RDMA
        return token_machine.load_state(prompt_output)

5. Результаты экспериментов

Splitwise достигает:

Пропускная способность выше в 1.4× при стоимости на 20% ниже
Пропускная способность выше в 2.35× при тех же бюджетах мощности и стоимости
Улучшенная стабильность задержки и использование ресурсов

6. Анализ и обсуждение

Splitwise представляет собой значительный прогресс в оптимизации вывода LLM, решая фундаментальное несоответствие между вычислительными требованиями и возможностями аппаратного обеспечения. Этот подход черпает вдохновение из принципов распределенных систем, аналогичных тем, что используются в MapReduce и других фреймворках параллельной обработки. Распознав, что фаза генерации токенов ограничена памятью, а не вычислениями, Splitwise позволяет более эффективно распределять ресурсы, соответствующие фактическим вычислительным потребностям каждой фазы вывода.

Эта работа основывается на установленных принципах компьютерной архитектуры, в частности на проблеме «стены памяти», выявленной Вульфом и Макки в 1995 году, которая подчеркнула растущий разрыв между скоростью процессора и производительностью памяти. Механизм внимания архитектуры трансформера, впервые представленный в статье Вашвани и др. 2017 года «Attention is All You Need», по своей сути создает эти две различные вычислительные фазы, но предыдущие усилия по оптимизации были сосредоточены в основном на сжатии и квантовании моделей, а не на архитектурном разделении.

По сравнению с традиционным монолитным развертыванием, подход фазового разделения Splitwise демонстрирует, как специализированное аппаратное обеспечение может быть использовано более эффективно, подобно тому, как TPU-кластеры Google оптимизированы для конкретных рабочих нагрузок машинного обучения. Улучшение пропускной способности в 1.4× и снижение стоимости на 20% особенно значимы с учетом масштабов современных развертываний LLM, где даже небольшие процентные улучшения превращаются в существенную экономию операционных расходов.

Методология соответствует последним тенденциям в гетерогенных вычислениях, где системы объединяют различные типы процессоров, оптимизированных для конкретных задач. Поскольку LLM продолжают расти в размерах и сложности, такие подходы, как Splitwise, будут становиться все более важными для устойчивого развертывания ИИ, решая как экономические, так и экологические проблемы, связанные с выводом крупномасштабных моделей.

7. Будущие приложения

Будущие направления включают:

Оптимизация вывода мультимодальных моделей
Развертывания в периферийных вычислениях
Адаптивное распределение ресурсов в реальном времени
Интеграция с новыми аппаратными архитектурами

8. Ссылки

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
Wulf, W. A., & McKee, S. A. "Hitting the memory wall: implications of the obvious." ACM SIGARCH Computer Architecture News, 1995.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Dean, J., & Ghemawat, S. "MapReduce: Simplified data processing on large clusters." OSDI 2004.