एसवीएम एल्गोरिथ्म के पीछे सांख्यिकीय मॉडल क्या है?


28

मैंने सीखा है कि, जब मॉडल-आधारित दृष्टिकोण का उपयोग करके डेटा के साथ व्यवहार किया जाता है, तो पहला कदम एक सांख्यिकीय मॉडल के रूप में डेटा प्रक्रिया को मॉडलिंग करता है। फिर अगला कदम इस सांख्यिकीय मॉडल के आधार पर कुशल / तेज इंट्रेंस / लर्निंग एल्गोरिदम विकसित कर रहा है। इसलिए मैं पूछना चाहता हूं कि समर्थन वेक्टर मशीन (एसवीएम) एल्गोरिदम के पीछे कौन सा सांख्यिकीय मॉडल है?

जवाबों:


27

आप अक्सर एक मॉडल लिख सकते हैं जो एक हानि फ़ंक्शन से मेल खाती है (यहां मैं एसवीएम-वर्गीकरण के बजाय एसवीएम प्रतिगमन के बारे में बात करने जा रहा हूं; यह विशेष रूप से सरल है);

उदाहरण के लिए, एक रैखिक मॉडल में, यदि आपका नुकसान फ़ंक्शन तो न्यूनतम करना लिए अधिकतम संभावना के अनुरूप होगा । (यहां मेरे पास एक रैखिक कर्नेल है)ig(εi)=ig(yixiβ)fexp(ag(ε)) =exp(ag(yxβ))

अगर मुझे सही ढंग से याद है कि SVM- रिग्रेशन का नुकसान इस तरह होता है:

एप्सिलॉन-असंवेदनशील नुकसान की साजिश

यह एक घनत्व से मेल खाती है जो बीच की पूंछ के साथ समान है (जैसा कि हम इसके नकारात्मक, या इसके कुछ नकारात्मक के कई घातांक को देखते हैं)।

इसी घनत्व की साजिश

इन का 3 पैरामीटर परिवार है: कोने-स्थान (सापेक्ष असंवेदनशीलता) प्लस स्थान और स्केल।

यह एक दिलचस्प घनत्व है; अगर मुझे कुछ दशकों पहले उस विशेष वितरण को देखने से ठीक से याद है, तो इसके लिए स्थान का एक अच्छा अनुमानक दो सममित-रूप से रखे गए क्वांटाइल्स का औसत है जहां कोने हैं (जैसे midhinge एक विशेष रूप से MLE को एक अच्छा सन्निकटन देगा। एसवीएम नुकसान में निरंतर की पसंद); स्केल पैरामीटर के लिए एक समान अनुमानक उनके अंतर के आधार पर होगा, जबकि तीसरा पैरामीटर मूल रूप से काम करने के लिए मेल खाता है जो कोनों के कितने प्रतिशत पर हैं (यह अनुमान के बजाय चुना जा सकता है क्योंकि यह अक्सर एसवीएम के लिए होता है)।

कम से कम एसवीएम प्रतिगमन के लिए यह बहुत सीधा लगता है, कम से कम यदि हम अपने अनुमानों को अधिकतम संभावना से प्राप्त करने के लिए चुन रहे हैं।

(यदि आप पूछने जा रहे हैं ... मेरे पास एसवीएम के इस विशेष कनेक्शन के लिए कोई संदर्भ नहीं है: मैंने अभी-अभी काम किया है। यह इतना सरल है, हालांकि, दर्जनों लोगों ने मेरे सामने काम किया होगा, इसलिए इसमें कोई संदेह नहीं है इसके लिए संदर्भ हैं - मैंने अभी तक कोई भी नहीं देखा है।)


2
(मैंने इसका उत्तर अन्य जगहों पर दिया, लेकिन मैंने इसे हटा दिया और इसे यहाँ स्थानांतरित कर दिया जब मैंने देखा कि आपने भी यहाँ पूछा था, गणित लिखने और चित्रों को शामिल करने की क्षमता यहाँ बहुत बेहतर है - और खोज फ़ंक्शन भी बेहतर है, इसलिए इसे खोजना आसान है कुछ महीने)
Glen_b -Reinstate Monica

2
+1, प्लस वेनिला एसवीएम में -norm के माध्यम से अपने मापदंडों से पहले एक गाऊसी भी है । 2
फायरबग

2
यदि ओपी एसवीएम के बारे में पूछ रहा है, तो संभवतः उसे वर्गीकरण में रुचि है (जो एसवीएम का सबसे आम अनुप्रयोग है)। उस मामले में नुकसान काज नुकसान है जो थोड़ा अलग है (आपके पास बढ़ते भाग नहीं है)। मॉडल के बारे में, मैंने सम्मेलन में शिक्षाविदों को यह कहते हुए सुना कि एसवीएम को एक संभाव्य ढांचे का उपयोग किए बिना वर्गीकरण करने के लिए पेश किया गया था । संभवतः इसीलिए आपको संदर्भ नहीं मिल रहे हैं। दूसरी ओर, आप अनुभव कर सकते हैं और अनुभवजन्य जोखिम कम करने के रूप में काज हानि कम करना - जिसका अर्थ है ...
डेल्फी

4
सिर्फ इसलिए कि आपके पास एक संभाव्य ढांचा नहीं है ... इसका मतलब यह नहीं है कि आप जो कर रहे हैं वह किसी के अनुरूप नहीं है। कोई भी सामान्यता को ग्रहण किए बिना कम से कम वर्ग कर सकता है, लेकिन यह समझना उपयोगी है कि यह क्या अच्छा कर रहा है ... और जब आप इसके पास नहीं होते हैं तो यह बहुत कम हो सकता है।
Glen_b -Reinstate मोनिका

3
शायद icml-2011.org/papers/386_icmlpaper.pdf इसके लिए एक संदर्भ है! ((मैंने केवल इसे स्किम्ड किया है)
Lyndon White

8

मुझे लगता है कि किसी ने पहले ही आपके शाब्दिक प्रश्न का उत्तर दे दिया है, लेकिन मुझे एक संभावित भ्रम को स्पष्ट करने दें।

आपका प्रश्न निम्नलिखित के समान है:

मेरे पास यह फ़ंक्शन और मैं सोच रहा हूं कि यह किस विभेदक समीकरण का हल है?f(x)=

दूसरे शब्दों में, इसका निश्चित रूप से एक वैध उत्तर है (शायद एक अद्वितीय भी यदि आप नियमितता की बाधाएं लागू करते हैं), लेकिन यह पूछने के लिए एक अजीब सवाल है, क्योंकि यह एक अंतर समीकरण नहीं था जिसने पहली बार में उस फ़ंक्शन को जन्म दिया।
(दूसरी ओर, अंतर समीकरण को देखते हुए, यह है प्राकृतिक इसके समाधान के लिए पूछने के लिए, कि आम तौर पर है, क्योंकि तुम क्यों समीकरण लिखना!)

यहाँ क्यों है: मुझे लगता है कि आप डेटा से संयुक्त और सशर्त संभावनाओं का आकलन करने के आधार पर, विशेष रूप से जनरेटिव और विवेकशील मॉडल के बारे में सोच रहे हैं ।

एसवीएम न तो है। यह एक पूरी तरह से अलग तरह का मॉडल है - एक जो उन लोगों को दरकिनार करता है और अंतिम निर्णय सीमा को सीधे मॉडल करने का प्रयास करता है, संभावनाओं को नुकसान पहुंचाया जाना चाहिए।

चूंकि यह निर्णय सीमा के आकार को खोजने के बारे में है, इसके पीछे अंतर्ज्ञान ज्यामिति (या शायद हमें अनुकूलन-आधारित कहना चाहिए) के बजाय संभाव्य या सांख्यिकीय है।

यह देखते हुए कि संभावनाओं को वास्तव में कहीं भी साथ नहीं माना जाता है, फिर, यह पूछना असामान्य है कि एक संबंधित संभावित मॉडल क्या हो सकता है, और विशेष रूप से चूंकि संपूर्ण लक्ष्य संभावनाओं के बारे में चिंता करने से बचने के लिए था । इसलिए आप लोगों को उनके बारे में बात करते हुए नहीं देखते हैं।


6
मुझे लगता है कि आप अपनी प्रक्रिया को अंतर्निहित सांख्यिकीय मॉडल के मूल्य में छूट दे रहे हैं। यह उपयोगी होने का कारण यह है कि यह आपको बताता है कि एक विधि के पीछे क्या धारणाएं हैं। यदि आप ये जानते हैं, तो आप यह समझने में सक्षम हैं कि यह किन परिस्थितियों में संघर्ष करेगा और कब पनपेगा। यदि आप अंतर्निहित मॉडल रखते हैं, तो आप एक सामान्य तरीके से svm को सामान्य बनाने और विस्तारित करने में सक्षम हैं।
probabilityislogic

3
@probabilityislogic: "मुझे लगता है कि आप अपनी प्रक्रिया को अंतर्निहित सांख्यिकीय मॉडल के मूल्य में छूट दे रहे हैं।" ... मुझे लगता है कि हम एक-दूसरे से बात कर रहे हैं। मैं जो कहना चाह रहा हूं वह यह है कि प्रक्रिया के पीछे कोई सांख्यिकीय मॉडल नहीं है। मैं यह नहीं कह रहा हूं कि यह एक के साथ आने के लिए संभव नहीं है जो इसे पोस्टीरियर फिट करता है, लेकिन मैं यह समझाने की कोशिश कर रहा हूं कि यह किसी भी तरह से "पीछे" नहीं था, बल्कि इस तथ्य के बाद "फिट" था । मैं यह भी नहीं कह रहा हूं कि ऐसा करना बेकार है; मैं आपसे सहमत हूं कि यह जबरदस्त मूल्य के साथ समाप्त हो सकता है। कृपया इन भेदों को ध्यान में रखें।
मेहरदाद

1
@ मेहरदाद: मैं यह नहीं कह रहा हूं कि एक के साथ आना संभव नहीं है, जो इसे एक पोस्टीरियर के रूप में फिट करता है, जिस क्रम में हम जिसे svm 'मशीन' कहते हैं, उसे इकट्ठा किया गया था (इसे बनाने वाले मनुष्यों को कौन सी समस्या थी जो मूल रूप से कोशिश कर रहे थे हल करना) विज्ञान की दृष्टि से इतिहास से दिलचस्प है। लेकिन हम सभी जानते हैं कि 200 साल पहले के svm इंजन का वर्णन रखने वाली कुछ लाइब्रेरी में एक अज्ञात अज्ञात पांडुलिपि हो सकती है, जो कि कोण से समस्या पर हमला करती है Glen_b की खोज की। हो सकता है कि एक पश्चगामी की धारणा और तथ्य के बाद विज्ञान में कम भरोसेमंद हो।
user603

1
@ user603: यह सिर्फ इतिहास नहीं है कि यहाँ समस्या है। ऐतिहासिक पहलू इसका केवल आधा हिस्सा है। अन्य आधा यह है कि यह वास्तव में वास्तव में कैसे प्राप्त होता है। यह एक ज्यामिति समस्या के रूप में शुरू होता है और एक अनुकूलन समस्या के साथ समाप्त होता है। कोई भी व्युत्पत्ति में संभाव्य मॉडल के साथ शुरू नहीं करता है, जिसका अर्थ है कि संभाव्य मॉडल किसी भी मायने में "पीछे" परिणाम में नहीं था। यह दावा करने जैसा है कि लैरेंजियन मैकेनिक्स "एफ" मा के पीछे है। हो सकता है कि यह इसके लिए नेतृत्व कर सकता है, और हाँ यह उपयोगी है, लेकिन नहीं, यह नहीं है और कभी भी इसका आधार नहीं था। वास्तव में संपूर्ण लक्ष्य संभावना से बचने का था ।
मेहरदाद
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.