सपोर्ट वेक्टर मशीन और रैखिक डिस्क्रिमिनेटर एनालिसिस में क्या अंतर है?
सपोर्ट वेक्टर मशीन और रैखिक डिस्क्रिमिनेटर एनालिसिस में क्या अंतर है?
जवाबों:
LDA: मान लिया जाता है: डेटा आम तौर पर वितरित किया जाता है। सभी समूहों को समान रूप से वितरित किया जाता है, यदि समूहों में अलग-अलग सहसंयोजक मैट्रिसेस हैं, तो एलडीए क्वाड्रेटिक डिस्क्रिमिनेन्ट एनालिसिस बन जाता है। एलडीए सबसे अच्छा भेदभाव करनेवाला है जो सभी मान्यताओं को पूरा करने के मामले में उपलब्ध है। QDA, वैसे, एक गैर-रैखिक क्लासिफायरियर है।
SVM: ऑप्टिमली सेपरेटिंग हाइपरप्लेन (OSH) को सामान्य करता है। ओएसएच मानता है कि सभी समूह पूरी तरह से अलग हैं, एसवीएम एक 'सुस्त चर' का उपयोग करता है जो समूहों के बीच एक निश्चित मात्रा में ओवरलैप की अनुमति देता है। एसवीएम डेटा के बारे में कोई धारणा नहीं बनाता है, जिसका अर्थ है कि यह एक बहुत ही लचीला तरीका है। दूसरी तरफ लचीलेपन अक्सर एसवीएम क्लासिफायर से परिणामों की व्याख्या करना अधिक कठिन होता है, एलडीए की तुलना में।
एसवीएम वर्गीकरण एक अनुकूलन समस्या है, एलडीए का एक विश्लेषणात्मक समाधान है। एसवीएम के लिए अनुकूलन समस्या में एक दोहरी और एक मौलिक सूत्रीकरण होता है जो उपयोगकर्ता को डेटा बिंदुओं या चर की संख्या पर अनुकूलन करने की अनुमति देता है, जिसके आधार पर विधि सबसे कम्प्यूटेशनल रूप से संभव है। एसवीएम एक रेखीय क्लासिफायर से एसवीएम क्लासिफायर को गैर-रैखिक क्लासिफायरियर में बदलने के लिए कर्नेल का उपयोग भी कर सकता है। 'SVM कर्नेल ट्रिक' की खोज के लिए अपने पसंदीदा खोज इंजन का उपयोग करें कि पैरामीटर स्थान को बदलने के लिए SVM कर्नेल का उपयोग कैसे करता है।
LDA covariance मैट्रिस का अनुमान लगाने के लिए पूरे डेटा सेट का उपयोग करता है और इस प्रकार आउटलेर्स के लिए कुछ हद तक खतरा है। एसवीएम को डेटा के सबसेट पर अनुकूलित किया जाता है, जो कि उन डेटा बिंदुओं पर होता है जो अलग-अलग मार्जिन पर होते हैं। अनुकूलन के लिए उपयोग किए जाने वाले डेटा बिंदुओं को समर्थन वैक्टर कहा जाता है, क्योंकि वे निर्धारित करते हैं कि एसवीएम समूहों के बीच भेदभाव कैसे करता है, और इस प्रकार वर्गीकरण का समर्थन करता है।
जहां तक मुझे पता है, एसवीएम वास्तव में दो से अधिक वर्गों के बीच अच्छा भेदभाव नहीं करता है। लॉजिस्टिक वर्गीकरण का उपयोग करने के लिए एक अधिक मजबूत विकल्प है। एलडीए कई वर्गों को अच्छी तरह से संभालता है, जब तक मान्यताओं को पूरा किया जाता है। मेरा मानना है, हालांकि (चेतावनी: बहुत ही निराधार दावा) कि कई पुराने बेंचमार्क ने पाया कि एलडीए आमतौर पर बहुत सारी परिस्थितियों में बहुत अच्छा प्रदर्शन करता है और एलडीए / क्यूडीए अक्सर प्रारंभिक विश्लेषण में गोटो तरीके होते हैं।
LDA का इस्तेमाल फीचर चयन के लिए किया जा सकता है जब विरल विरल के साथ LDA: https://web.stanford.edu/~hastie/Papers/sda_resubm_daniela-final.pdf । SVM सुविधा चयन नहीं कर सकता है।
संक्षेप में: LDA और SVM में बहुत कम समानता है। सौभाग्य से, वे दोनों काफी उपयोगी हैं।
एसवीएम केवल उन बिंदुओं पर केंद्रित है जिन्हें वर्गीकृत करना मुश्किल है, एलडीए सभी डेटा बिंदुओं पर ध्यान केंद्रित करता है। इस तरह के कठिन बिंदु निर्णय सीमा के करीब हैं और समर्थन क्षेत्र कहा जाता है । निर्णय सीमा रैखिक हो सकती है, लेकिन यह भी एक आरबीएफ कर्नेल, या एक बहुपद कर्नेल। जहां LDA पृथक्करण को अधिकतम करने के लिए एक रैखिक परिवर्तन है।
एलडीए मानता है कि डेटा बिंदुओं में एक ही सहसंयोजक है और संभावना घनत्व को सामान्य रूप से वितरित माना जाता है। एसवीएम की ऐसी कोई धारणा नहीं है।
LDA उदार है, SVM भेदभावपूर्ण है।
सपोर्ट वेक्टर मशीन एक रेखीय विभाजक (लीनियर कॉम्बिनेशन, हाइपरप्लेन) ढूंढती हैं जो कक्षाओं को कम से कम त्रुटि से अलग करता है, और विभाजक को अधिकतम मार्जिन (वह चौड़ाई जिसे डेटा बिंदु से टकराने से पहले सीमा को बढ़ाया जा सकता है) चुनता है।
उदाहरण के लिए, कौन सा रैखिक विभाजक वर्गों को अलग करता है?
अधिकतम मार्जिन वाला एक:
रैखिक विभेदक विश्लेषण प्रत्येक वर्ग के औसत वैक्टर को पाता है, फिर प्रक्षेपण दिशा (रोटेशन) पाता है जो साधनों के पृथक्करण को अधिकतम करता है:
यह एक प्रक्षेपण को खोजने के लिए वर्ग-विचरण के भीतर भी ध्यान में रखता है जो कि साधनों के पृथक्करण को अधिकतम करते हुए वितरण (कोवरियन) के ओवरलैप को कम करता है: