SVM प्रतिगमन को समझना: उद्देश्य समारोह और "सपाटता"


12

वर्गीकरण के लिए SVMs मेरे लिए सहज ज्ञान युक्त समझ बनाने: मैं समझता हूँ कि कैसे कम से कम पैदावार अधिकतम मार्जिन। हालाँकि, मैं उस उद्देश्य को प्रतिगमन के संदर्भ में नहीं समझता। विभिन्न ग्रंथों ( यहाँ और यहाँ ) का वर्णन "सपाटता" को अधिकतम करने के लिए किया गया है। हम ऐसा क्यों करना चाहेंगे? प्रतिगमन में क्या "मार्जिन" की अवधारणा के बराबर है?||θ||2

यहाँ कुछ उत्तर दिए गए हैं, लेकिन किसी ने भी मेरी समझ में मदद नहीं की।


मैं वास्तव में एसवीएम सिद्धांत पर नहीं हूं, लेकिन कर्नेल-मशीनों की चर्चा में 'सपाटता' आपको इस बात से जुड़ती है कि राशि: '' दूसरी छोटी व्युत्पत्ति है '' (स्पाइन स्मूथिंग मॉडल के लिए विशिष्ट प्रेरणा के बारे में सोचें)।
conjugateprior

जवाबों:


11

एक तरीका जो मुझे लगता है कि सपाटता के बारे में है कि यह मेरी भविष्यवाणियों को सुविधाओं में गड़बड़ी के प्रति कम संवेदनशील बनाता है। यही है, अगर मैं फॉर्म का मॉडल तैयार कर रहा हूं जहां मेरा फीचर वेक्टर पहले से ही सामान्य हो गया है, तो में छोटे मान का मतलब है कि मेरा मॉडल माप में त्रुटियों के प्रति कम संवेदनशील है। / यादृच्छिक झटके / सुविधाओं की गैर-स्थिरता, । यह देखते हुए दो मॉडल ( यानी दो की संभावित मान ), जो समान रूप से अच्छी तरह से डेटा की व्याख्या, मैं 'चापलूसी' एक पसंद करते हैं।

y=xθ+ϵ,
xθxθ

आप रिज रिग्रेशन को कर्नेल ट्रिक या SVM 'ट्यूब' रिग्रेशन फॉर्मूलेशन के बिना एक ही चीज़ के रूप में देख सकते हैं।

संपादित करें : @ यांग की टिप्पणियों के जवाब में, कुछ और स्पष्टीकरण:

  1. रैखिक मामले पर विचार करें: । मान लीजिए कि को कुछ वितरण से iid निकाला गया है, जो कि स्वतंत्र है । डॉट उत्पाद पहचान से, हमारे पास , जहां और बीच का कोण है , जो संभवतः कुछ गोलाकार समान वितरण के तहत वितरित किया जाता है। अब ध्यान दें: की हमारी भविष्यवाणियों का 'प्रसार' ( उदाहरण नमूना मानक विचलन) समानुपाती है। । हमारी टिप्पणियों के अव्यक्त, नीरव संस्करणों के साथ अच्छा MSE पाने के लिए, हम उस को सिकोड़ना चाहते हैं ।y=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxy||θ||||θ||cf जेम्स स्टीन अनुमानक
  2. सुविधाओं के बहुत से रैखिक मामले पर विचार करें। मॉडल पर विचार करें , और । यदि में की तुलना में इसमें अधिक शून्य तत्व हैं , लेकिन उसी व्याख्यात्मक शक्ति के बारे में, हम इसे पसंद करेंगे, के रेजर के आधार पर, क्योंकि इसमें कम चर पर निर्भरता है ( अर्थात हमने कुछ तत्वों को सेट करके सुविधा चयन किया है) of को शून्य)। सपाटता इस तर्क का एक निरंतर संस्करण है। अगर में से प्रत्येक के सीमांत इकाई मानक विचलन है, और है जैसे 2 तत्व है जो 10 कर रहे हैं, और शेषy=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1n2आपके शोर के सहिष्णुता के आधार पर 0.0001 से छोटे हैं, यह दो विशेषताओं को प्रभावी ढंग से 'चयन' कर रहा है, और शेष लोगों को शून्य कर रहा है।
  3. जब कर्नेल चाल को नियोजित किया जाता है, तो आप एक उच्च (कभी-कभी अनंत) आयामी वेक्टर अंतरिक्ष में एक रेखीय प्रतिगमन का प्रदर्शन कर रहे हैं। प्रत्येक का एक तत्व अब आपके किसी नमूने से मेल खाता है , आपकी विशेषताओं से नहीं । अगर के तत्वों गैर शून्य हैं, और शेष शून्य कर रहे हैं, से संबंधित सुविधाओं को गैर शून्य के तत्वों अपने 'समर्थन वैक्टर' कहा जाता है। अपने एसवीएम मॉडल को स्टोर करने के लिए, डिस्क पर कहें, आपको केवल उन फीचर वैक्टर को रखने की आवश्यकता है , और आप उनमें से बाकी को फेंक सकते हैं। अब सपाटपन वास्तव में मायने रखता है, क्योंकि होने सेθkθmkkθkkछोटे भंडारण और संचरण, आदि , आवश्यकताओं को कम करता है। फिर, शोर के लिए अपने सहिष्णुता के आधार पर, आप शायद बाहर के सभी तत्वों को शून्य कर सकते हैं लेकिन सबसे बड़ा, कुछ के लिए , एक SVM प्रतिगमन प्रदर्शन के बाद। यहाँ समतलता समर्थन वैक्टर की संख्या के संबंध में पारसीमोनी के बराबर है।θll

1
इसलिए यह मूल रूप से 'ट्यूब' लॉस फंक्शन (ओएलएस से अंक +/- प्रीडिक्शन के लिए पेनल्टी) के बजाय ओएलएस से द्विघात हानि फ़ंक्शन के साथ प्रतिगमन है?
संयुक्ताक्षरी

@Conjugate प्रायर: हाँ, आमतौर पर कर्नेल रिग्रेशन एक 'एप्सिलॉन-इनसेन्स्टिव लॉस' फंक्शन को कम करता है, जिसे आप के रूप में सोच सकते हैं जैसे kernelsvm.tripod.com या कोई भी Smola एट अल द्वारा कागजात । f(x)=(|x|ϵ)+
19b में shabbychef

@shabbychef धन्यवाद मैं हमेशा सोचता था कि वहां क्या चल रहा है।
कंजुगेटपायर 20

@Conjugate पिछला: मुझे नहीं लगता कि यह वास्तव में वांछित नुकसान है, लेकिन गणित अच्छी तरह से काम कर रहा है, इसलिए वे इसके साथ भाग गए। कम से कम मेरा संदेह है।
shabbychef

@ शब्बीशेफ: मैं अभी भी हार गया हूं। एक आयामी मामले पर विचार करें: । सभी न्यूनतम आपको एक अधिक क्षैतिज रेखा देता है। ऐसा लगता है कि दूसरी व्युत्पत्ति से कोई लेना-देना नहीं है, जो मुझे लगता है कि आप ("सहजता") का जिक्र कर रहे हैं। और अगर मेरे नमूना बिंदु (0,0) और (1,1e9) हैं, तो मैं एक चापलूसी लाइन क्यों पसंद करूंगा? Ie, मान लीजिए कि मेरा सहिष्णुता 1 है - मैं क्यों (0,0) से (1,1e9-1) ( ) के बजाय (1,1e9) के माध्यम से चापलूसी लाइन को प्राथमिकता दूंगा ) या (1,1e9 + 1) ( ) के माध्यम से रेखा ? y=θxθϵθ=1e91θ=1e9θ=1e9+1
यांग

3

shabbychef ने मॉडल जटिलता के दृष्टिकोण से बहुत स्पष्ट स्पष्टीकरण दिया। मैं इस समस्या को किसी अन्य दृष्टिकोण से समझने की कोशिश करूंगा कि यह किसी की मदद कर सकता है।

मूल रूप से हम एसवीसी में मार्जिन को अधिकतम करना चाहते हैं। एसवीआर में यह समान है जबकि हम बेहतर सामान्यीकरण के लिए परिभाषित सटीक में भविष्यवाणी त्रुटि को अधिकतम करना चाहते हैं । यहां अगर हम अधिकतम के बजाय भविष्यवाणी की त्रुटि को कम करते हैं, तो अज्ञात डेटा पर भविष्यवाणी परिणाम अधिक होने की संभावना है। आइए एक आयामी मामले में "भविष्यवाणी की अधिकतम त्रुटि" के बारे में सोचें।e

एक आयामी मामले में, हमारा लक्ष्य भीतर सभी बिंदुओं से ट्रेंड लाइन तक की दूरी को अधिकतम करना है । ध्यान दें कि हम सटीकता की कमी को रूप में निर्धारित करते हैं ताकि हम दूरी को अधिकतम कर सकें , कम से कम नहीं । फिर हम एक बिंदु से एक रेखा तक की दूरी के बहुत सरल समीकरण पर एक नज़र डालते हैं।(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

अभी अंकांक तक सीमित है । दूरी को अधिकतम करने के लिए, हम जो करने की कोशिश करते हैं, वह है को कम से कम करना eω

कोई भी एक आयामी मामले को एन-आयामी मामले में आसानी से बढ़ा सकता है क्योंकि दूरी समीकरण हमेशा यूक्लिडियन दूरी होगी

इसके अतिरिक्त, हम तुलना [1] के लिए एसवीआर में अनुकूलन समस्या पर समीक्षा कर सकते हैं।

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

धन्यवाद।

[१] स्मोला, ए।, और बी। स्कोल्कोफ़। समर्थन वेक्टर प्रतिगमन पर एक ट्यूटोरियल। सांख्यिकी और कम्प्यूटिंग, वॉल्यूम। 14, नंबर 3, अगस्त 2004, पीपी। 199–222।


0

कम से कम, मुझे नहीं लगता है कि एसवीएम वर्गीकरण सेटिंग में कॉन्सेप्ट मार्जिन के साथ को कम से कम करना है। यह एक पूरी तरह से अलग लक्ष्य के लिए कार्य करता है जो उपरोक्त दो पदों द्वारा अच्छी तरह से समझाया गया है, अर्थात, मॉडल की जटिलता को कम करने और ओवरफिटिंग से बचने के लिए।θ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.