क्या सपोर्ट वेक्टर मशीन को अभी भी उनके आला में "कला की स्थिति" माना जाता है?

यह सवाल एक टिप्पणी के जवाब में है जो मैंने दूसरे प्रश्न पर देखा था।

कौरसेरा पर मशीन लर्निंग कोर्स पाठ्यक्रम के बारे में टिप्पणी थी, और "एसवीएम का उपयोग आजकल इतना नहीं किया जाता है" की तर्ज पर किया गया था।

मैंने केवल प्रासंगिक व्याख्यान खुद ही समाप्त कर दिए हैं, और एसवीएम की मेरी समझ यह है कि वे वर्गीकरण के लिए एक मजबूत और कुशल शिक्षण एल्गोरिथ्म हैं, और जब कर्नेल का उपयोग करते हैं, तो उनके पास "आला" कवर करने की संख्या है जो शायद 10 से 1000 और प्रशिक्षण नमूनों की संख्या शायद 100 से 10,000। प्रशिक्षण के नमूनों की सीमा इसलिए है क्योंकि कोर एल्गोरिथ्म एक वर्ग मैट्रिक्स से उत्पन्न परिणामों के अनुकूलन के लिए घूमता है, जिसमें प्रशिक्षण नमूनों की संख्या के आधार पर आयाम होते हैं, मूल सुविधाओं की संख्या नहीं।

तो क्या टिप्पणी देखी गई कि मैंने पाठ्यक्रम में कुछ वास्तविक बदलाव का उल्लेख किया है, और यदि ऐसा है, तो वह परिवर्तन क्या है: एक नया एल्गोरिथ्म जो SVM के "स्वीट स्पॉट" को कवर करता है, बेहतर CPU का अर्थ है कि SVM के कम्प्यूटेशनल फायदे बहुत अधिक नहीं हैं। ? या यह शायद टिप्पणीकार की राय या व्यक्तिगत अनुभव है?

मैंने उदाहरण के लिए "फैशन से बाहर वेक्टर मशीनों का समर्थन कर रहे हैं" की खोज की कोशिश की और पाया कि उन्हें कुछ और के पक्ष में नहीं छोड़ा जा रहा है।

और विकिपीडिया में यह है: http://en.wikipedia.org/wiki/Support_vector_machine#Issues । । । मुख्य स्टिकिंग बिंदु मॉडल की व्याख्या करने में कठिनाई प्रतीत होता है। जो ब्लैक-बॉक्स प्रेडिक्टिंग इंजन के लिए एसवीएम को ठीक बनाता है, लेकिन अंतर्दृष्टि पैदा करने के लिए इतना अच्छा नहीं है। मैं यह नहीं देखता कि एक प्रमुख मुद्दे के रूप में, नौकरी के लिए सही उपकरण उठाते समय (प्रशिक्षण डेटा और शिक्षण कार्य की प्रकृति के साथ) आदि को ध्यान में रखते हुए सिर्फ एक और मामूली बात है।

data-mining svm state-of-the-art

— नील स्लेटर
स्रोत

आँकड़े

— questions/

मुझे यह नहीं मिलता है - क्या यह एक सवाल नहीं है जिसे क्रॉसविलेक्टेड पर पोस्ट किया जाना चाहिए? मैं इस बात को लेकर असमंजस में रहता हूं कि डेटासाइंस और क्रॉसविलेस्ड के बीच क्या हो जाता है।

— fnl

@fnl: svms में कम से कम गणितीय रूप से "शुद्ध" इंजीनियर समाधानों के रूप में वर्गीकृत किया गया है, इसलिए मुझे लगता है कि डेटासाइंस यहां तुलना करने के लिए बेहतर स्थिति में है। हालाँकि मैं आपका भ्रम साझा करता हूँ!

— नील स्लेटर

जवाबों:

एसवीएम एक शक्तिशाली क्लासिफायरियर है। इसके कुछ अच्छे फायदे हैं (जो मुझे लगता है कि इसकी लोकप्रियता के लिए जिम्मेदार थे) ... ये हैं:

दक्षता: वर्गीकरण सीमा निर्धारित करने में केवल सहायक वैक्टर ही भूमिका निभाते हैं। प्रशिक्षण सेट से अन्य सभी बिंदुओं को स्मृति में संग्रहीत नहीं किया जाना चाहिए।
गुठली की तथाकथित शक्ति: उपयुक्त गुठली के साथ आप सुविधा स्थान को एक उच्च आयाम में बदल सकते हैं ताकि यह रैखिक रूप से अलग हो जाए। गुठली की धारणा मनमानी वस्तुओं के साथ काम करती है जिस पर आप आंतरिक उत्पादों की मदद से समानता की कुछ धारणा को परिभाषित कर सकते हैं ... और इसलिए SVMs मनमानी वस्तुओं जैसे पेड़, ग्राफ आदि को वर्गीकृत कर सकते हैं।

साथ ही कुछ महत्वपूर्ण नुकसान भी हैं।

पैरामीटर संवेदनशीलता: प्रदर्शन नियमितीकरण पैरामीटर सी की पसंद के प्रति अत्यधिक संवेदनशील है, जो मॉडल में कुछ बदलाव की अनुमति देता है।
गाऊसी कर्नेल के लिए अतिरिक्त पैरामीटर: गाऊसी कर्नेल की त्रिज्या का वर्गीकरण सटीकता पर महत्वपूर्ण प्रभाव पड़ सकता है। आमतौर पर इष्टतम मापदंडों को खोजने के लिए एक ग्रिड खोज आयोजित की जाती है। LibSVM को ग्रिड खोज का समर्थन प्राप्त है।

एसवीएम आमतौर पर "स्पार्स कर्नेल मशीन" के वर्ग से संबंधित हैं। एसवीएम के मामले में विरल वैक्टर समर्थन वैक्टर हैं जिन्हें अधिकतम मार्जिन मानदंड से चुना जाता है। अन्य विरल वेक्टर मशीनें जैसे कि रेलेवेंस वेक्टर मशीन (आरवीएम) एसवीएम से बेहतर प्रदर्शन करती हैं। निम्नलिखित आंकड़ा दोनों के तुलनात्मक प्रदर्शन को दर्शाता है। चित्र में, x- अक्ष दो वर्गों y = {0,1} से एक आयामी डेटा दिखाता है। मिश्रण मॉडल को P (x | y = 0) = Unif (0,1) और P (x। Y = 1) = Unif (.5,1.5) के रूप में परिभाषित किया गया है (Unif एक समान वितरण को दर्शाता है)। इस मिश्रण से 1000 बिंदुओं का नमूना लिया गया था और एक एसवीएम और आरवीएम का उपयोग पोस्टीरियर का अनुमान लगाने के लिए किया गया था। एसवीएम की समस्या यह है कि अनुमानित मान सत्य लॉग ऑड्स से बहुत दूर हैं।

आरवीएम बनाम एसवीएम

एक बहुत प्रभावी क्लासिफायर, जो आजकल बहुत लोकप्रिय है, रैंडम फॉरेस्ट है । मुख्य लाभ हैं:

ट्यून करने के लिए केवल एक पैरामीटर (यानी जंगल में पेड़ों की संख्या)
पूरी तरह से संवेदनशील नहीं पैरामीटर
आसानी से कई वर्गों के लिए बढ़ाया जा सकता है
संभाव्य सिद्धांतों पर आधारित है (निर्णय पेड़ों की मदद से पारस्परिक जानकारी हासिल करना)

— देबाशीष
स्रोत

मैं अत्यधिक महत्वपूर्ण होने का मतलब नहीं है, लेकिन SVMs कुशल नहीं हैं। उनके पास ज्यादातर मामलों में एक घन जटिलता है, यही कारण है कि बहुत सारे चरणबद्ध हो रहे हैं।

— संकेत

हां, मानक अभिसरण विधियां O (n ^ 3) लेती हैं ... लेकिन मुझे लगता है कि मैंने कहीं देखा है (टी। जोकिम्स के होम पेज से हो सकता है) कि यह O (n ^ 2) तक कम हो गया है

— देबासीस

सबसे व्यावहारिक समस्याओं के लिए @indico कर्नेल एसवीएम प्रशिक्षण जटिलता द्विघात के करीब है। प्लॉट के क्यूबिक एसएमओ काफी समय से उपयोग से बाहर हैं। यह वास्तव में बड़े डेटा सेट के लिए बहुत अधिक है, लेकिन यह उतना बुरा नहीं है जितना कि आप चित्रित करते हैं। रैखिक एसवीएम अत्यधिक सुस्पष्टता के साथ अत्यधिक कुशल है।

— मार्क क्लेसेन

एसवीएम के अन्य फायदे: 1) उनके आंतरिक कामकाज की अच्छी तरह से कल्पना की जा सकती है, जो डेटा विश्लेषण से कम परिचित हैं। [[कुछ हद तक: २) अगर (गैर डेटा विज्ञान) विशेषज्ञ द्वारा रियलटाइम इंटरएक्टिव प्रतिक्रिया की आवश्यकता होती है, तो रैखिक एसवीएम एक तेज विकल्प हो सकता है - जिसके परिणामस्वरूप विशेषज्ञों द्वारा बेहतर प्रशिक्षण प्राप्त किया जा सकता है।]

— tsttst

रैंडम फ़ॉरेस्ट में आमतौर पर अन्य हाइपरपैरेटर्स होते हैं, जैसे प्रति पेड़ अधिकतम संख्या, और अधिकतम गहराई। यह भी ध्यान देने योग्य है कि एसवीएम को संसाधन विवश वातावरण में उत्पादन में लाना आसान है - मॉडल को स्कोर करने के लिए उन्हें अधिक मेमोरी की आवश्यकता नहीं है।

— डेविड एंडरसन

इस प्रश्न का उत्तर देने में एक महत्वपूर्ण अंतर यह है कि क्या हम रैखिक समर्थन वेक्टर मशीनों या गैर-रैखिक के बारे में बात कर रहे हैं , अर्थात् कर्नेल समर्थन वेक्टर मशीनें।

रैखिक एसवीएम

रैखिक एसवीएम दोनों सिद्धांत में हैं और बहुत अच्छे मॉडल का अभ्यास करते हैं जब आपके डेटा को आपकी सुविधाओं के रैखिक संबंधों द्वारा समझाया जा सकता है। वे लीनियर (उर्फ कम से कम वर्ग) प्रतिगमन जैसे क्लासिक तरीकों से बेहतर हैं क्योंकि वे इस मायने में मजबूत हैं कि इनपुट डेटा में छोटे गड़बड़ी मॉडल में महत्वपूर्ण बदलाव नहीं लाते हैं। यह आपके डेटा बिंदुओं के बीच मार्जिन को अधिकतम करने वाली रेखा (हाइपरप्लेन) को खोजने की कोशिश करके प्राप्त किया जाता है। यह अधिकतम मार्जिन हाइपरप्लेन अनदेखी डेटा बिंदुओं पर मॉडल की सामान्यीकरण क्षमता, एक सैद्धांतिक संपत्ति अन्य मशीन सीखने के तरीकों की कमी की गारंटी देने के लिए दिखाया गया है।

रैखिक एसवीएम किसी भी अन्य रैखिक मॉडल के रूप में व्याख्या करने योग्य हैं, क्योंकि प्रत्येक इनपुट सुविधा में एक वजन होता है जो सीधे मॉडल आउटपुट को प्रभावित करता है।

इसके अलावा रैखिक एसवीएम बहुत तेजी से प्रशिक्षित होते हैं, बहुत बड़े डेटासेट के लिए सबलाइन प्रशिक्षण समय दिखाते हैं। यह स्टोकेस्टिक ग्रेडिएंट डिसेंट तकनीकों का उपयोग करके प्राप्त किया गया है, जो वर्तमान में सीखने की गहरी विधियों के फैशन में है।

गैर-रैखिक एसवीएम

गैर-रैखिक एसवीएम अभी भी रैखिक मॉडल हैं, और समान सैद्धांतिक लाभों को समेटे हुए हैं, लेकिन वे एक बड़े स्थान पर इस रैखिक मॉडल को बनाने के लिए तथाकथित कर्नेल चाल को नियोजित करते हैं। दृश्यमान परिणाम यह है कि परिणामी मॉडल आपके डेटा पर गैर-रैखिक निर्णय ले सकता है। चूंकि आप डेटा बिंदुओं के बीच एक कस्टम कर्नेल एन्कोडिंग समानताएं प्रदान कर सकते हैं , इसलिए आप अपनी समस्या के प्रासंगिक भागों में ऐसे कर्नेल फ़ोकस बनाने के लिए समस्या ज्ञान का उपयोग कर सकते हैं। हालांकि, इसे प्रभावी ढंग से करना मुश्किल हो सकता है, इसलिए सामान्य तौर पर लगभग सभी लोग प्लग-एंड-प्ले गॉसियन कर्नेल का उपयोग करते हैं।

गैर-रैखिक एसवीएम आंशिक रूप से व्याख्या करने योग्य हैं, क्योंकि वे आपको बताते हैं कि भविष्यवाणी के लिए कौन से प्रशिक्षण डेटा प्रासंगिक हैं, और जो नहीं हैं। रैंडम फ़ॉरेस्ट या डीप नेटवर्क्स जैसे अन्य तरीकों के लिए यह संभव नहीं है।

दुर्भाग्य से गैर-रैखिक एसवीएम धीमी हैं। अत्याधुनिक एल्गोरिथ्म सीक्वेंशियल मिनिमल ऑप्टिमाइज़ेशन है , जो द्विघात प्रदर्शन को दर्शाता है, और इसे LIBSVM लाइब्रेरी के माध्यम से कई मशीन लर्निंग लाइब्रेरी, स्किटिट-लर्न में शामिल किया गया है।

इन तरीकों की लोकप्रियता

यह सच है कि एसवीएम इतने लोकप्रिय नहीं हैं जितने कि वे हुआ करते थे: एसवीएम बनाम रैंडम फॉरेस्ट या डीप लर्निंग के तरीकों के लिए शोध पत्र या कार्यान्वयन के लिए गोलगप्पे द्वारा इसकी जाँच की जा सकती है। फिर भी, वे कुछ व्यावहारिक सेटिंग्स में उपयोगी हैं, विशेष रूप से रैखिक मामले में।

इसके अलावा, इस बात को ध्यान में रखें कि नो-फ्री लंच प्रमेय के कारण कोई भी मशीन सीखने की विधि को अन्य सभी समस्याओं से बेहतर नहीं दिखाया जा सकता है। जबकि कुछ विधियां सामान्य रूप से बेहतर काम करती हैं, आप हमेशा डेटासेट पाएंगे जहां एक सामान्य तरीका बेहतर परिणाम प्राप्त नहीं करेगा।

— albarji
स्रोत