स्प्लिटवाइज़: फेज़ स्प्लिटिंग का उपयोग करके कुशल जेनरेटिव एलएलएम इन्फ़रेंस

विषय सूची

1. परिचय
2. पृष्ठभूमि और प्रेरणा
- 2.1 एलएलएम इन्फ़रेंस फेज़
- 2.2 हार्डवेयर सीमाएँ
3. स्प्लिटवाइज़ डिज़ाइन
- 3.1 आर्किटेक्चर अवलोकन
- 3.2 फेज़-विशिष्ट संसाधन प्रबंधन
4. तकनीकी कार्यान्वयन
- 4.1 गणितीय आधार
- 4.2 कोड कार्यान्वयन
5. प्रायोगिक परिणाम
6. विश्लेषण और चर्चा
7. भविष्य के अनुप्रयोग
8. संदर्भ

1. परिचय

जेनरेटिव बड़े भाषा मॉडल (एलएलएम) ने प्राकृतिक भाषा प्रसंस्करण में क्रांति ला दी है, लेकिन उनकी कम्प्यूटेशनल मांगें कुशल इन्फ़रेंस के लिए महत्वपूर्ण चुनौतियाँ पेश करती हैं। स्प्लिटवाइज़ दृष्टिकोण एलएलएम इन्फ़रेंस के दो मुख्य चरणों की विशिष्ट कम्प्यूटेशनल विशेषताओं को पहचानकर और उनका लाभ उठाकर इन चुनौतियों का समाधान करता है।

2. पृष्ठभूमि और प्रेरणा

2.1 एलएलएम इन्फ़रेंस फेज़

एलएलएम इन्फ़रेंस में दो अलग-अलग चरण होते हैं:

प्रॉम्प्ट कम्प्यूटेशन फेज़: सभी इनपुट टोकन का कम्प्यूटेशनल रूप से गहन समानांतर प्रसंस्करण
टोकन जनरेशन फेज़: आउटपुट टोकन की मेमोरी-गहन अनुक्रमिक जनरेशन

2.2 हार्डवेयर सीमाएँ

जीपीयू विशिष्टता तुलना

A100 बनाम H100: 3.43× कम्प्यूट वृद्धि लेकिन केवल 1.64× मेमोरी बैंडविड्थ सुधार

आधुनिक जीपीयू कम्प्यूटेशनल शक्ति और मेमोरी क्षमताओं के बीच असमान स्केलिंग दिखाते हैं, जिससे एलएलएम इन्फ़रेंस में अक्षमताएँ पैदा होती हैं।

3. स्प्लिटवाइज़ डिज़ाइन

3.1 आर्किटेक्चर अवलोकन

स्प्लिटवाइज़ प्रॉम्प्ट कम्प्यूटेशन और टोकन जनरेशन को अलग-अलग मशीनों पर तैनात करता है जो प्रत्येक चरण की आवश्यकताओं के लिए अनुकूलित हैं।

3.2 फेज़-विशिष्ट संसाधन प्रबंधन

प्रॉम्प्ट फेज़ के लिए उच्च-कम्प्यूट जीपीयू (H100), टोकन जनरेशन फेज़ के लिए लागत-प्रभावी जीपीयू।

4. तकनीकी कार्यान्वयन

4.1 गणितीय आधार

ट्रांसफॉर्मर में अटेंशन मैकेनिज्म को इस प्रकार दर्शाया जा सकता है:

$Attention(Q, K, V) = softmax(\\frac{QK^T}{\\sqrt{d_k}})V$

जहाँ $Q$, $K$, $V$ क्रमशः क्वेरीज़, कीज़ और वैल्यूज़ का प्रतिनिधित्व करते हैं, और $d_k$ कीज़ का आयाम है।

4.2 कोड कार्यान्वयन

class SplitwiseScheduler:
    def schedule_request(self, request):
        if request.phase == "prompt":
            return self.assign_to_prompt_machine(request)
        else:
            return self.assign_to_token_machine(request)
    
    def transfer_state(self, prompt_output, token_machine):
        # आरडीएमए का उपयोग करके कुशल स्टेट ट्रांसफर
        return token_machine.load_state(prompt_output)

5. प्रायोगिक परिणाम

स्प्लिटवाइज़ प्राप्त करता है:

20% कम लागत पर 1.4× उच्च थ्रूपुट
समान बिजली और लागत बजट के तहत 2.35× अधिक थ्रूपुट
बेहतर लेटेंसी स्थिरता और संसाधन उपयोग

6. विश्लेषण और चर्चा

स्प्लिटवाइज़ कम्प्यूटेशनल आवश्यकताओं और हार्डवेयर क्षमताओं के बीच मौलिक बेमेल को संबोधित करके एलएलएम इन्फ़रेंस अनुकूलन में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। यह दृष्टिकोण वितरित सिस्टम सिद्धांतों से प्रेरणा लेता है जो मैपरिड्यूस और अन्य समानांतर प्रसंस्करण फ्रेमवर्क में उपयोग किए जाने वाले सिद्धांतों के समान हैं। यह पहचानकर कि टोकन जनरेशन फेज़ कम्प्यूट-बाउंड के बजाय मेमोरी-बाउंड है, स्प्लिटवाइज़ अधिक कुशल संसाधन आवंटन सक्षम करता है जो प्रत्येक इन्फ़रेंस चरण की वास्तविक कम्प्यूटेशनल मांगों के साथ संरेखित होता है।

यह कार्य कंप्यूटर आर्किटेक्चर में स्थापित सिद्धांतों पर आधारित है, विशेष रूप से वुल्फ और मैक्की द्वारा 1995 में पहचानी गई मेमोरी-वॉल समस्या, जिसने प्रोसेसर गति और मेमोरी प्रदर्शन के बीच बढ़ती असमानता पर प्रकाश डाला। वासवानी एट अल के 2017 के पेपर "अटेंशन इज़ ऑल यू नीड" में पहली बार पेश किए गए ट्रांसफॉर्मर आर्किटेक्चर के अटेंशन मैकेनिज्म ने स्वाभाविक रूप से ये दो अलग-अलग कम्प्यूटेशनल चरण बनाए, लेकिन पिछले अनुकूलन प्रयासों ने मुख्य रूप से मॉडल संपीड़न और क्वांटिज़ेशन पर ध्यान केंद्रित किया, न कि आर्किटेक्चरल अलगाव पर।

पारंपरिक एकीकृत तैनाती की तुलना में, स्प्लिटवाइज़ का फेज़ सेपरेशन दृष्टिकोण प्रदर्शित करता है कि विशेष हार्डवेयर का अधिक प्रभावी ढंग से उपयोग कैसे किया जा सकता है, जिस तरह गूगल के टीपीयू पॉड विशिष्ट एमएल वर्कलोड के लिए अनुकूलित हैं। 1.4× थ्रूपुट सुधार और 20% लागत में कमी विशेष रूप से महत्वपूर्ण है, आधुनिक एलएलएम तैनाती के विशाल पैमाने को देखते हुए, जहाँ छोटे प्रतिशत सुधार भी पर्याप्त परिचालन बचत में तब्दील हो जाते हैं।

यह पद्धति हेटेरोजीनियस कम्प्यूटिंग में हाल के रुझानों के साथ संरेखित होती है, जहाँ सिस्टम विशिष्ट कार्यों के लिए अनुकूलित विभिन्न प्रकार के प्रोसेसरों को जोड़ते हैं। जैसे-जैसे एलएलएम आकार और जटिलता में बढ़ते जा रहे हैं, स्प्लिटवाइज़ जैसे दृष्टिकोण सतत एआई तैनाती के लिए तेजी से महत्वपूर्ण होते जाएंगे, जो बड़े पैमाने पर मॉडल इन्फ़रेंस से जुड़ी आर्थिक और पर्यावरणीय चिंताओं दोनों को संबोधित करते हैं।

7. भविष्य के अनुप्रयोग

भविष्य की दिशाओं में शामिल हैं:

मल्टी-मोडल मॉडल इन्फ़रेंस अनुकूलन
एज कम्प्यूटिंग तैनाती
रियल-टाइम अनुकूली संसाधन आवंटन
उभरती हार्डवेयर आर्किटेक्चर के साथ एकीकरण

8. संदर्भ

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
Wulf, W. A., & McKee, S. A. "Hitting the memory wall: implications of the obvious." ACM SIGARCH Computer Architecture News, 1995.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Dean, J., & Ghemawat, S. "MapReduce: Simplified data processing on large clusters." OSDI 2004.