Splitwise: Inferencia Eficiente de LLM Generativos Mediante División de Fases

Tabla de Contenidos

1. Introducción
2. Antecedentes y Motivación
- 2.1 Fases de Inferencia de LLM
- 2.2 Limitaciones del Hardware
3. Diseño de Splitwise
- 3.1 Descripción General de la Arquitectura
- 3.2 Gestión de Recursos Específica por Fase
4. Implementación Técnica
- 4.1 Fundamentos Matemáticos
- 4.2 Implementación del Código
5. Resultados Experimentales
6. Análisis y Discusión
7. Aplicaciones Futuras
8. Referencias

1. Introducción

Los modelos de lenguaje grandes (LLM) generativos han revolucionado el procesamiento del lenguaje natural, pero sus demandas computacionales plantean desafíos significativos para una inferencia eficiente. El enfoque Splitwise aborda estos desafíos al reconocer y explotar las características computacionales distintivas de las dos fases principales en la inferencia de LLM.

2. Antecedentes y Motivación

2.1 Fases de Inferencia de LLM

La inferencia de LLM consta de dos fases distintas:

Fase de Cálculo del Prompt: Procesamiento paralelo computacionalmente intensivo de todos los tokens de entrada
Fase de Generación de Tokens: Generación secuencial intensiva en memoria de los tokens de salida

2.2 Limitaciones del Hardware

Comparación de Especificaciones de GPU

A100 vs H100: Aumento de 3.43× en computación pero solo 1.64× de mejora en el ancho de banda de memoria

Las GPU modernas muestran un escalado desproporcionado entre la potencia computacional y las capacidades de memoria, creando ineficiencias en la inferencia de LLM.

3. Diseño de Splitwise

3.1 Descripción General de la Arquitectura

Splitwise despliega el cálculo del prompt y la generación de tokens en máquinas separadas optimizadas para los requisitos de cada fase.

3.2 Gestión de Recursos Específica por Fase

GPUs de alta capacidad de cómputo (H100) para la fase de prompt, GPUs rentables para la fase de generación de tokens.

4. Implementación Técnica

4.1 Fundamentos Matemáticos

El mecanismo de atención en los transformadores se puede representar como:

$Attention(Q, K, V) = softmax(\\frac{QK^T}{\\sqrt{d_k}})V$

Donde $Q$, $K$, $V$ representan consultas, claves y valores respectivamente, y $d_k$ es la dimensión de las claves.

4.2 Implementación del Código

class SplitwiseScheduler:
    def schedule_request(self, request):
        if request.phase == "prompt":
            return self.assign_to_prompt_machine(request)
        else:
            return self.assign_to_token_machine(request)
    
    def transfer_state(self, prompt_output, token_machine):
        # Transferencia eficiente de estado usando RDMA
        return token_machine.load_state(prompt_output)

5. Resultados Experimentales

Splitwise logra:

1.4× mayor rendimiento con un 20% menos de costo
2.35× más rendimiento bajo los mismos presupuestos de potencia y costo
Mejor consistencia en la latencia y utilización de recursos

6. Análisis y Discusión

Splitwise representa un avance significativo en la optimización de la inferencia de LLM al abordar la falta de correspondencia fundamental entre los requisitos computacionales y las capacidades del hardware. El enfoque se inspira en los principios de los sistemas distribuidos similares a los utilizados en MapReduce y otros marcos de procesamiento paralelo. Al reconocer que la fase de generación de tokens está limitada por la memoria en lugar de por la computación, Splitwise permite una asignación de recursos más eficiente que se alinea con las demandas computacionales reales de cada fase de inferencia.

Este trabajo se basa en principios establecidos en la arquitectura de computadores, particularmente el problema del "muro de la memoria" identificado por Wulf y McKee en 1995, que destacó la creciente disparidad entre la velocidad del procesador y el rendimiento de la memoria. El mecanismo de atención de la arquitectura transformer, introducido por primera vez en el artículo de Vaswani et al. de 2017 "Attention is All You Need", crea inherentemente estas dos fases computacionales distintas, pero los esfuerzos de optimización anteriores se centraron principalmente en la compresión y cuantificación del modelo en lugar de la separación arquitectónica.

En comparación con el despliegue monolítico tradicional, el enfoque de separación de fases de Splitwise demuestra cómo se puede utilizar el hardware especializado de manera más efectiva, similar a cómo los pods TPU de Google están optimizados para cargas de trabajo específicas de ML. La mejora de 1.4× en el rendimiento y la reducción del 20% en el costo son particularmente significativas dada la escala masiva de los despliegues modernos de LLM, donde incluso pequeñas mejoras porcentuales se traducen en ahorros operativos sustanciales.

La metodología se alinea con las tendencias recientes en computación heterogénea, donde los sistemas combinan diferentes tipos de procesadores optimizados para tareas específicas. A medida que los LLM continúan creciendo en tamaño y complejidad, enfoques como Splitwise serán cada vez más importantes para un despliegue sostenible de IA, abordando tanto las preocupaciones económicas como ambientales asociadas con la inferencia de modelos a gran escala.

7. Aplicaciones Futuras

Las direcciones futuras incluyen:

Optimización de inferencia de modelos multimodales
Despliegues en computación de borde (edge computing)
Asignación de recursos adaptativa en tiempo real
Integración con arquitecturas de hardware emergentes

8. Referencias

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
Wulf, W. A., & McKee, S. A. "Hitting the memory wall: implications of the obvious." ACM SIGARCH Computer Architecture News, 1995.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Dean, J., & Ghemawat, S. "MapReduce: Simplified data processing on large clusters." OSDI 2004.