जैसा कि आप उल्लेख करते हैं, कर्नेल मैट्रिक्स को संग्रहीत करने के लिए मेमोरी की आवश्यकता होती है जो डेटा बिंदुओं की संख्या के साथ चतुष्कोणीय होता है। पारंपरिक एसवीएम एल्गोरिदम के लिए प्रशिक्षण का समय डेटा बिंदुओं की संख्या के साथ सुपरलाइनली भी होता है। इसलिए, ये एल्गोरिदम बड़े डेटा सेट के लिए संभव नहीं हैं।
एक संभव चाल एक कर्नेलित SVM को एक रैखिक SVM के रूप में सुधारना है। कर्नेल मैट्रिक्स का प्रत्येक तत्व डेटा बिंदुओं के बीच डॉट उत्पाद का प्रतिनिधित्व करता है और उन्हें मैप करने के बाद (संभवतः nonlinearly) एक फ़ीचर स्पेस में: । फ़ीचर स्पेस मैपिंगKijxixjKij=Φ(xi)⋅Φ(xj)Φकर्नेल फ़ंक्शन द्वारा स्पष्ट रूप से परिभाषित किया गया है, और कर्नेलित SVMs स्पष्ट रूप से फ़ीचर स्पेस अभ्यावेदन की गणना नहीं करते हैं। यह छोटे से मध्यम आकार के डेटासेट के लिए कम्प्यूटेशनल रूप से कुशल है, क्योंकि फीचर स्पेस बहुत अधिक आयामी, या यहां तक कि अनंत आयामी भी हो सकता है। लेकिन, ऊपर के रूप में, यह बड़े डेटासेट के लिए संभव हो जाता है। इसके बजाय, हम स्पष्ट रूप से डेटा को गैर-रेखीय रूप से फ़ीचर स्पेस में मैप कर सकते हैं, फिर फ़ीचर स्पेस प्रतिनिधित्व पर एक रैखिक SVM को कुशलतापूर्वक प्रशिक्षित कर सकते हैं। फीचर स्पेस मैपिंग का निर्माण किसी दिए गए कर्नेल फ़ंक्शन को अनुमानित करने के लिए किया जा सकता है, लेकिन 'पूर्ण' फीचर स्पेस मैपिंग की तुलना में कम आयामों का उपयोग करते हैं। बड़े डेटासेट के लिए, यह अभी भी हमें रिच फीचर स्पेस रिप्रेजेंटेशन दे सकता है, लेकिन डेटा पॉइंट्स की तुलना में कई कम आयामों के साथ।
कर्नेल सन्निकटन के लिए एक दृष्टिकोण Nyström सन्निकटन (विलियम्स और सीजर 2001) का उपयोग करता है। यह छोटे सबमेट्रिक्स का उपयोग करके एक बड़े मैट्रिक्स के eigenvalues / eigenvectors को अनुमानित करने का एक तरीका है। एक अन्य दृष्टिकोण यादृच्छिक विशेषताओं का उपयोग करता है, और सोमटाइम्स को 'यादृच्छिक रसोई सिंक' (रहिमी और रीछ 2007) कहा जाता है।
बड़े डेटासेट पर एसवीएम के प्रशिक्षण के लिए एक और तरकीब है छोटे उपप्रकारों के सेट के साथ अनुकूलन समस्या का अनुमान लगाना। उदाहरण के लिए, मौलिक समस्या पर स्टोकेस्टिक ढाल मूल का उपयोग करना एक दृष्टिकोण है (कई अन्य लोगों के बीच)। अनुकूलन के मोर्चे पर बहुत काम किया गया है। मेनन (2009) एक अच्छा सर्वेक्षण देता है।
संदर्भ
विलियम्स और सीजर (2001)। कर्नेल मशीनों को गति देने के लिए निस्ट्रोम विधि का उपयोग करना।
रहीमी और रेख्त (2007)। बड़े पैमाने पर कर्नेल मशीनों के लिए यादृच्छिक सुविधाएँ।
मेनन (2009) । बड़े पैमाने पर समर्थन वेक्टर मशीनें: एल्गोरिदम और सिद्धांत।