Splitwise: Inferens LLM Generatif Cekap Menggunakan Pemisahan Fasa

Kandungan

1. Pengenalan
2. Latar Belakang dan Motivasi
- 2.1 Fasa Inferens LLM
- 2.2 Batasan Perkakasan
3. Reka Bentuk Splitwise
- 3.1 Gambaran Keseluruhan Seni Bina
- 3.2 Pengurusan Sumber Khusus Fasa
4. Pelaksanaan Teknikal
- 4.1 Asas Matematik
- 4.2 Pelaksanaan Kod
5. Keputusan Eksperimen
6. Analisis dan Perbincangan
7. Aplikasi Masa Depan
8. Rujukan

1. Pengenalan

Model bahasa besar generatif (LLM) telah merevolusikan pemprosesan bahasa semula jadi, tetapi keperluan pengiraannya menimbulkan cabaran besar untuk inferens yang cekap. Pendekatan Splitwise menangani cabaran ini dengan mengenali dan memanfaatkan ciri pengiraan berbeza bagi dua fasa utama dalam inferens LLM.

2. Latar Belakang dan Motivasi

2.1 Fasa Inferens LLM

Inferens LLM terdiri daripada dua fasa berbeza:

Fasa Pengiraan Pemula: Pemprosesan selari intensif pengiraan untuk semua token input
Fasa Penjanaan Token: Penjanaan berurutan intensif memori untuk token output

2.2 Batasan Perkakasan

Perbandingan Spesifikasi GPU

A100 vs H100: Peningkatan pengiraan 3.43× tetapi hanya peningkatan lebar jalur memori 1.64×

GPU moden menunjukkan penskalaan tidak seimbang antara kuasa pengiraan dan keupayaan memori, mencipta ketidakcekapan dalam inferens LLM.

3. Reka Bentuk Splitwise

3.1 Gambaran Keseluruhan Seni Bina

Splitwise melaksanakan pengiraan pemula dan penjanaan token pada mesin berasingan yang dioptimumkan untuk keperluan setiap fasa.

3.2 Pengurusan Sumber Khusus Fasa

GPU pengiraan tinggi (H100) untuk fasa pemula, GPU kos efektif untuk fasa penjanaan token.

4. Pelaksanaan Teknikal

4.1 Asas Matematik

Mekanisme perhatian dalam transformer boleh diwakili sebagai:

$Attention(Q, K, V) = softmax(\\frac{QK^T}{\\sqrt{d_k}})V$

Di mana $Q$, $K$, $V$ masing-masing mewakili kueri, kunci, dan nilai, dan $d_k$ ialah dimensi kunci.

4.2 Pelaksanaan Kod

class SplitwiseScheduler:
    def schedule_request(self, request):
        if request.phase == "prompt":
            return self.assign_to_prompt_machine(request)
        else:
            return self.assign_to_token_machine(request)
    
    def transfer_state(self, prompt_output, token_machine):
        # Pemindahan keadaan cekap menggunakan RDMA
        return token_machine.load_state(prompt_output)

5. Keputusan Eksperimen

Splitwise mencapai:

Throughput 1.4× lebih tinggi pada kos 20% lebih rendah
Throughput 2.35× lebih banyak di bawah belanjawan kuasa dan kos yang sama
Konsistensi kependaman dan penggunaan sumber yang lebih baik

6. Analisis dan Perbincangan

Splitwise mewakili kemajuan signifikan dalam pengoptimuman inferens LLM dengan menangani ketidaksesuaian asas antara keperluan pengiraan dan keupayaan perkakasan. Pendekatan ini mengambil inspirasi daripada prinsip sistem teragih yang serupa dengan yang digunakan dalam MapReduce dan rangka kerja pemprosesan selari lain. Dengan mengenali bahawa fasa penjanaan token adalah terikat memori dan bukannya terikat pengiraan, Splitwise membolehkan peruntukan sumber yang lebih cekap yang selaras dengan permintaan pengiraan sebenar setiap fasa inferens.

Kerja ini dibina berdasarkan prinsip yang mantap dalam seni bina komputer, terutamanya masalah dinding memori yang dikenal pasti oleh Wulf dan McKee pada tahun 1995, yang menekankan perbezaan yang semakin meningkat antara kelajuan pemproses dan prestasi memori. Mekanisme perhatian seni bina transformer, pertama kali diperkenalkan dalam kertas Vaswani et al. 2017 "Attention is All You Need," secara semula jadi mencipta dua fasa pengiraan berbeza ini, tetapi usaha pengoptimuman sebelumnya tertumpu terutamanya pada mampatan model dan kuantisasi dan bukannya pemisahan seni bina.

Berbanding dengan pelaksanaan monolitik tradisional, pendekatan pemisahan fasa Splitwise menunjukkan bagaimana perkakasan khusus boleh digunakan dengan lebih berkesan, serupa dengan bagaimana pod TPU Google dioptimumkan untuk beban kerja ML tertentu. Peningkatan throughput 1.4× dan pengurangan kos 20% amat signifikan memandangkan skala besar pelaksanaan LLM moden, di mana peningkatan peratusan kecil pun diterjemahkan kepada penjimatan operasi yang besar.

Metodologi ini selaras dengan trend terkini dalam pengkomputeran heterogen, di mana sistem menggabungkan pelbagai jenis pemproses yang dioptimumkan untuk tugas tertentu. Memandangkan LLM terus berkembang dalam saiz dan kerumitan, pendekatan seperti Splitwise akan menjadi semakin penting untuk pelaksanaan AI yang mampan, menangani kedua-dua kebimbangan ekonomi dan alam sekitar yang dikaitkan dengan inferens model berskala besar.

7. Aplikasi Masa Depan

Hala tuju masa depan termasuk:

Pengoptimuman inferens model multi-modal
Pelaksanaan pengkomputeran tepi
Peruntukan sumber adaptif masa nyata
Integrasi dengan seni bina perkakasan baru

8. Rujukan

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
Wulf, W. A., & McKee, S. A. "Hitting the memory wall: implications of the obvious." ACM SIGARCH Computer Architecture News, 1995.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Dean, J., & Ghemawat, S. "MapReduce: Simplified data processing on large clusters." OSDI 2004.