Kandungan
- 1. Pengenalan
- 2. Latar Belakang dan Motivasi
- 3. Reka Bentuk Splitwise
- 4. Pelaksanaan Teknikal
- 5. Keputusan Eksperimen
- 6. Analisis dan Perbincangan
- 7. Aplikasi Masa Depan
- 8. Rujukan
1. Pengenalan
Model bahasa besar generatif (LLM) telah merevolusikan pemprosesan bahasa semula jadi, tetapi keperluan pengiraannya menimbulkan cabaran besar untuk inferens yang cekap. Pendekatan Splitwise menangani cabaran ini dengan mengenali dan memanfaatkan ciri pengiraan berbeza bagi dua fasa utama dalam inferens LLM.
2. Latar Belakang dan Motivasi
2.1 Fasa Inferens LLM
Inferens LLM terdiri daripada dua fasa berbeza:
- Fasa Pengiraan Pemula: Pemprosesan selari intensif pengiraan untuk semua token input
- Fasa Penjanaan Token: Penjanaan berurutan intensif memori untuk token output
2.2 Batasan Perkakasan
Perbandingan Spesifikasi GPU
A100 vs H100: Peningkatan pengiraan 3.43× tetapi hanya peningkatan lebar jalur memori 1.64×
GPU moden menunjukkan penskalaan tidak seimbang antara kuasa pengiraan dan keupayaan memori, mencipta ketidakcekapan dalam inferens LLM.
3. Reka Bentuk Splitwise
3.1 Gambaran Keseluruhan Seni Bina
Splitwise melaksanakan pengiraan pemula dan penjanaan token pada mesin berasingan yang dioptimumkan untuk keperluan setiap fasa.
3.2 Pengurusan Sumber Khusus Fasa
GPU pengiraan tinggi (H100) untuk fasa pemula, GPU kos efektif untuk fasa penjanaan token.
4. Pelaksanaan Teknikal
4.1 Asas Matematik
Mekanisme perhatian dalam transformer boleh diwakili sebagai:
$Attention(Q, K, V) = softmax(\\frac{QK^T}{\\sqrt{d_k}})V$
Di mana $Q$, $K$, $V$ masing-masing mewakili kueri, kunci, dan nilai, dan $d_k$ ialah dimensi kunci.
4.2 Pelaksanaan Kod
class SplitwiseScheduler:
def schedule_request(self, request):
if request.phase == "prompt":
return self.assign_to_prompt_machine(request)
else:
return self.assign_to_token_machine(request)
def transfer_state(self, prompt_output, token_machine):
# Pemindahan keadaan cekap menggunakan RDMA
return token_machine.load_state(prompt_output)
5. Keputusan Eksperimen
Splitwise mencapai:
- Throughput 1.4× lebih tinggi pada kos 20% lebih rendah
- Throughput 2.35× lebih banyak di bawah belanjawan kuasa dan kos yang sama
- Konsistensi kependaman dan penggunaan sumber yang lebih baik
6. Analisis dan Perbincangan
Splitwise mewakili kemajuan signifikan dalam pengoptimuman inferens LLM dengan menangani ketidaksesuaian asas antara keperluan pengiraan dan keupayaan perkakasan. Pendekatan ini mengambil inspirasi daripada prinsip sistem teragih yang serupa dengan yang digunakan dalam MapReduce dan rangka kerja pemprosesan selari lain. Dengan mengenali bahawa fasa penjanaan token adalah terikat memori dan bukannya terikat pengiraan, Splitwise membolehkan peruntukan sumber yang lebih cekap yang selaras dengan permintaan pengiraan sebenar setiap fasa inferens.
Kerja ini dibina berdasarkan prinsip yang mantap dalam seni bina komputer, terutamanya masalah dinding memori yang dikenal pasti oleh Wulf dan McKee pada tahun 1995, yang menekankan perbezaan yang semakin meningkat antara kelajuan pemproses dan prestasi memori. Mekanisme perhatian seni bina transformer, pertama kali diperkenalkan dalam kertas Vaswani et al. 2017 "Attention is All You Need," secara semula jadi mencipta dua fasa pengiraan berbeza ini, tetapi usaha pengoptimuman sebelumnya tertumpu terutamanya pada mampatan model dan kuantisasi dan bukannya pemisahan seni bina.
Berbanding dengan pelaksanaan monolitik tradisional, pendekatan pemisahan fasa Splitwise menunjukkan bagaimana perkakasan khusus boleh digunakan dengan lebih berkesan, serupa dengan bagaimana pod TPU Google dioptimumkan untuk beban kerja ML tertentu. Peningkatan throughput 1.4× dan pengurangan kos 20% amat signifikan memandangkan skala besar pelaksanaan LLM moden, di mana peningkatan peratusan kecil pun diterjemahkan kepada penjimatan operasi yang besar.
Metodologi ini selaras dengan trend terkini dalam pengkomputeran heterogen, di mana sistem menggabungkan pelbagai jenis pemproses yang dioptimumkan untuk tugas tertentu. Memandangkan LLM terus berkembang dalam saiz dan kerumitan, pendekatan seperti Splitwise akan menjadi semakin penting untuk pelaksanaan AI yang mampan, menangani kedua-dua kebimbangan ekonomi dan alam sekitar yang dikaitkan dengan inferens model berskala besar.
7. Aplikasi Masa Depan
Hala tuju masa depan termasuk:
- Pengoptimuman inferens model multi-modal
- Pelaksanaan pengkomputeran tepi
- Peruntukan sumber adaptif masa nyata
- Integrasi dengan seni bina perkakasan baru
8. Rujukan
- Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
- Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
- Wulf, W. A., & McKee, S. A. "Hitting the memory wall: implications of the obvious." ACM SIGARCH Computer Architecture News, 1995.
- NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
- Dean, J., & Ghemawat, S. "MapReduce: Simplified data processing on large clusters." OSDI 2004.