Splitwise: 페이즈 분할을 통한 효율적인 생성형 LLM 추론

1. 서론

생성형 대규모 언어 모델(LLM)은 자연어 처리 분야를 혁신했지만, 이들의 계산 요구량은 효율적인 추론에 상당한 과제를 제기합니다. Splitwise 접근법은 LLM 추론의 두 주요 단계가 가진 뚜렷한 계산 특성을 인식하고 활용함으로써 이러한 과제들을 해결합니다.

2. 배경 및 동기

2.1 LLM 추론 단계

LLM 추론은 두 가지 뚜렷한 단계로 구성됩니다:

프롬프트 계산 단계: 모든 입력 토큰에 대한 계산 집약적인 병렬 처리
토큰 생성 단계: 출력 토큰의 메모리 집약적인 순차적 생성

2.2 하드웨어 한계

GPU 사양 비교

A100 대비 H100: 3.43배 계산 성능 향상, 그러나 메모리 대역폭은 1.64배 향상에 그침

현대 GPU는 계산 성능과 메모리 성능 간 불균형적인 확장성을 보여주며, 이는 LLM 추론에서 비효율을 초래합니다.

3. Splitwise 설계

3.1 아키텍처 개요

Splitwise는 각 단계의 요구사항에 최적화된 별도의 머신에 프롬프트 계산과 토큰 생성을 배치합니다.

3.2 단계별 리소스 관리

프롬프트 단계에는 고성능 GPU(H100)를, 토큰 생성 단계에는 비용 효율적인 GPU를 사용합니다.

4. 기술 구현

4.1 수학적 기초

트랜스포머의 어텐션 메커니즘은 다음과 같이 표현될 수 있습니다:

$Attention(Q, K, V) = softmax(\\frac{QK^T}{\\sqrt{d_k}})V$

여기서 $Q$, $K$, $V$는 각각 쿼리, 키, 값을 나타내며, $d_k$는 키의 차원입니다.

4.2 코드 구현

class SplitwiseScheduler:
    def schedule_request(self, request):
        if request.phase == "prompt":
            return self.assign_to_prompt_machine(request)
        else:
            return self.assign_to_token_machine(request)
    
    def transfer_state(self, prompt_output, token_machine):
        # RDMA를 사용한 효율적인 상태 전송
        return token_machine.load_state(prompt_output)

5. 실험 결과

Splitwise는 다음과 같은 성과를 달성했습니다:

20% 낮은 비용으로 1.4배 높은 처리량
동일한 전력 및 비용 예산 하에서 2.35배 더 많은 처리량
향상된 지연 시간 일관성 및 리소스 활용률

6. 분석 및 논의

Splitwise는 계산 요구사항과 하드웨어 성능 간의 근본적인 불일치를 해결함으로써 LLM 추론 최적화에서 중요한 진전을 나타냅니다. 이 접근법은 MapReduce 및 기타 병렬 처리 프레임워크에서 사용되는 원리와 유사한 분산 시스템 원칙에서 영감을 얻었습니다. 토큰 생성 단계가 계산 제한이 아닌 메모리 제한적이라는 점을 인식함으로써, Splitwise는 각 추론 단계의 실제 계산 요구에 부합하는 더 효율적인 자원 할당을 가능하게 합니다.

이 연구는 컴퓨터 아키텍처 분야의 확립된 원리, 특히 1995년 Wulf와 McKee가 지적한 메모리 벽 문제에 기반합니다. 이 문제는 프로세서 속도와 메모리 성능 간의 격차가 점점 커지는 현상을 강조했습니다. Vaswani 외의 2017년 논문 "Attention is All You Need"에서 처음 소개된 트랜스포머 아키텍처의 어텐션 메커니즘은 본질적으로 이 두 가지 뚜렷한 계산 단계를 생성하지만, 이전의 최적화 노력은 주로 모델 압축 및 양자화에 초점을 맞추고 아키텍처 분리에는 집중하지 않았습니다.

기존의 단일 배포 방식과 비교하여, Splitwise의 단계 분리 접근법은 Google의 TPU 팟이 특정 ML 워크로드에 최적화된 방식과 유사하게 특수화된 하드웨어가 어떻게 더 효과적으로 활용될 수 있는지를 보여줍니다. 1.4배의 처리량 향상과 20%의 비용 절감은 현대 LLM 배포의 거대한 규모를 고려할 때 특히 의미가 있습니다. 여기서는 작은 비율의 개선도 상당한 운영 비용 절감으로 이어집니다.

이 방법론은 특정 작업에 최적화된 다양한 유형의 프로세서를 결합하는 이기종 컴퓨팅의 최근 트렌드와 일치합니다. LLM의 크기와 복잡성이 계속 증가함에 따라, Splitwise와 같은 접근법은 대규모 모델 추론과 관련된 경제적 및 환경적 문제를 모두 해결하는 지속 가능한 AI 배포에 점점 더 중요해질 것입니다.

7. 향후 적용 분야

향후 방향은 다음과 같습니다:

다중 모달 모델 추론 최적화
엣지 컴퓨팅 배포
실시간 적응형 자원 할당
새로운 하드웨어 아키텍처와의 통합

8. 참고문헌

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
Wulf, W. A., & McKee, S. A. "Hitting the memory wall: implications of the obvious." ACM SIGARCH Computer Architecture News, 1995.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Dean, J., & Ghemawat, S. "MapReduce: Simplified data processing on large clusters." OSDI 2004.

목차