एसवीएम, चर बातचीत और प्रशिक्षण डेटा फिट


12

मेरे पास 2 सामान्य / अधिक सैद्धांतिक प्रश्न हैं।

1) मैं उत्सुक हूँ कि भविष्यवाणियाँ मॉडल बनाते समय SVM चर बातचीत को कैसे संभालते हैं। उदाहरण के लिए, यदि मेरे पास दो सुविधाएँ f1 और f2 हैं और लक्ष्य f1, f2, और f1 * f2 (या कुछ फ़ंक्शन h (f1, f2)) पर निर्भर करता है, तो SVM फिट होता है (न केवल OOS पर बल्कि प्रशिक्षण डेटा पर भी) f1 और f2 सहित सुविधाओं पर f1, f2 और h (f1, f2) को शामिल करते हुए सुधार करें? क्या एसवीएम एल्गोरिथ्म फीचर इंटरैक्शन से निपटता है? ऐसा लगता है जैसे यह होगा कि एसवीएम कैसे उच्च आयामी अंतरिक्ष में हाइपरप्लेन बनाने की कोशिश करता है, लेकिन यह सुनिश्चित नहीं है कि पूछना चाहता था।

2) जब प्रशिक्षण डेटा पर एक SVM फिटिंग, पर्याप्त सुविधाएँ दी और इष्टतम मापदंडों (जानवर बल खोज के माध्यम से या जो कुछ भी), एक SVM हमेशा प्रशिक्षण डेटा फिट होगा? निश्चित नहीं है कि मैंने उस सही शब्द को कहा है, लेकिन मूल रूप से, अगर सुविधाओं में पर्याप्त विचरण / शोर है, तो क्या एक एसवीएम हमेशा प्रशिक्षण डेटा 100% फिट होगा? इसके विपरीत, यदि SVM प्रशिक्षण डेटा को 100% फिट नहीं करता है, तो क्या इसका मतलब है कि कुछ जानकारी (या अन्य विशेषताएं) हैं जो लक्ष्य चर को प्रभावित करती हैं जो डेटा में कैप्चर नहीं होती हैं?

धन्यवाद

छोटा सा स्पष्टीकरण। मैं कर्नेल SVMs का विशेष रूप से उल्लेख कर रहा हूँ

जवाबों:


8

जैसा कि HighBandwidth सुझाव देता है, यह निर्भर करता है कि आप एक रैखिक एसवीएम या एक गैर-रैखिक एक का उपयोग कर रहे हैं (यदि एक कर्नेल का उपयोग नहीं किया जाता है तो यह एसवीएम के बजाय एक अधिकतम मार्जिन रैखिक क्लासिफायरियर है)।

एक अधिकतम मार्जिन लीनियर क्लासिफायरिफायर किसी भी अन्य लीनियर क्लासिफायरियर से अलग नहीं होता है, यदि डेटा जनरेट करने की प्रक्रिया का मतलब है कि विशेषताओं के बीच बातचीत होती है, तो उन इंटरैक्शन शर्तों को प्रदान करने से प्रदर्शन में सुधार होने की संभावना है। अधिकतम मार्जिन लीनियर क्लासिफायरिफ़ायर रिज रिग्रेशन की तरह है, पेनल्टी टर्म में मामूली अंतर के साथ जिसे ओवरफिटिंग (नियमितीकरण पैरामीटर के लिए उपयुक्त मान) से बचने के लिए डिज़ाइन किया गया है, और ज्यादातर मामलों में रिज रिग्रेशन और मैक्सिमम मार्जिन क्लासिफायर समान प्रदर्शन देगा।

आपको लगता है कि बातचीत के मामले की संभावना है महत्वपूर्ण होने के लिए है, तो आप उन्हें एक SVM की सुविधा अंतरिक्ष में बहुपद गिरी का उपयोग करके लागू कर सकते हैं , जो दे देंगे एक सुविधा स्थान जिसमें प्रत्येक अक्ष d या उससे कम के एक मोनोमियल का प्रतिनिधित्व करता है , पैरामीटर c विभिन्न आदेशों के मोनोमियल के सापेक्ष भार को प्रभावित करता है। तो एक बहुपद कर्नेल के साथ एक एसवीएम विशेषता अंतरिक्ष में एक बहुपद मॉडल को फिट करने के बराबर है, जो उन इंटरैक्शन को स्पष्ट रूप से शामिल करता है।K(x,x)=(xx+c)ddc

पर्याप्त सुविधाओं को देखते हुए, कोई भी रैखिक क्लासिफायरवर डेटा को तुच्छ रूप से फिट कर सकता है । IIRC एक एक में "सामान्य स्थिति 'में अंक n - 1nn1हाइपर-प्लेन (cf VC आयाम) द्वारा डायनामिक स्पेस को किसी भी तरह से अलग किया जा सकता है। ऐसा करने से आम तौर पर गंभीर अति-फिटिंग होती है, और इसलिए इससे बचा जाना चाहिए। अधिकतम मार्जिन क्लासिफिकेशन का बिंदु इस ओवर-फिटिंग को एक दंड शब्द जोड़कर सीमित करना है, जिसका अर्थ है कि सबसे बड़ा पृथक्करण संभव है (जिसे मिसकैरेज का उत्पादन करने के लिए किसी भी प्रशिक्षण उदाहरण से सबसे बड़े विचलन की आवश्यकता होगी)। इसका मतलब है कि आप डेटा को बहुत अधिक ओवर-फिटिंग के बिना बहुत उच्च आयामी स्थान (जहां एक रैखिक मॉडल बहुत शक्तिशाली है) में बदल सकते हैं।

K(x,x)=expγxx2

हालाँकि यह केवल कहानी का हिस्सा है। व्यवहार में, हम आम तौर पर एक नरम-मार्जिन एसवीएम का उपयोग करते हैं, जहां मार्जिन की कमी का उल्लंघन करने की अनुमति दी जाती है, और एक नियमितीकरण पैरामीटर होता है जो मार्जिन को अधिकतम करने के बीच व्यापार-बंद को नियंत्रित करता है (जो कि एक दंड शब्द है, जिसका उपयोग उसी के समान है रिज रिग्रेशन) और स्लैक वैरिएबल का परिमाण (जो प्रशिक्षण नमूने पर नुकसान के समान है)। फिर हम रेगुलरेशन पैरामीटर को ट्यून करके ओवर-फिटिंग से बचते हैं, उदाहरण के लिए क्रॉस-वैरिडेशन एरर (या लीव-वन-आउट एरर पर कुछ बाध्य) को कम करके, जैसा कि हम रिज रिग्रेशन के मामले में करते हैं।

इसलिए जबकि SVM प्रशिक्षण सेट को तुच्छ रूप से वर्गीकृत कर सकता है , यह आमतौर पर केवल तभी होता है जब नियमितीकरण और कर्नेल पैरामीटर को बुरी तरह से चुना जाता है। किसी भी कर्नेल मॉडल के साथ अच्छे परिणाम प्राप्त करने की कुंजी एक उपयुक्त कर्नेल चुनने में है, और फिर डेटा से बचने के लिए कर्नेल और नियमितीकरण मापदंडों को पूरा करने या डेटा को कम करने के लिए।


धन्यवाद डिकरन। यह अत्यंत विस्तृत और सहायक था। मुझे लगता है कि मैं सवालों के जवाब समझता हूं। एक त्वरित अनुवर्ती। एसवीएम के लिए उपयुक्त कर्नेल चुनने के बारे में कैसे जाना जाता है? क्या यह नियमितीकरण / कर्नेल मापदंडों (जैसे क्रॉस सत्यापन के माध्यम से) के समान होगा? या विकल्प के लिए कुछ सैद्धांतिक आधार है? यदि आरबीएफ कर्नेल एसवीएम को एक सार्वभौमिक सन्निकट बनाता है, तो मुझे लगता है कि कर्नेल चयन धुन के लिए एक और पैरामीटर है, लेकिन निश्चित नहीं है। जैसा कि आप शायद बता सकते हैं, मैं इसके लिए काफी नया हूं।
टॉमस

कर्नेल का चयन अक्सर क्लासिफायर में समस्या के विशेषज्ञ ज्ञान में निर्माण का एक अच्छा तरीका है, उदाहरण के लिए एक हस्तलिखित चरित्र मान्यता प्रणाली के लिए, आप संभवतः एक कर्नेल का उपयोग करना चाहेंगे जो छवि के छोटे घुमाव और अनुवादों के लिए अपरिवर्तित था। कर्नेल को स्वचालित रूप से चुनना क्रॉस-वेलिडेशन (जो कि मैं क्या करूँगा) या लीव-वन-आउट त्रुटि (जो SVMs के लिए कुशलतापूर्वक प्रदर्शन किया जा सकता है) पर एक बाउंड द्वारा प्राप्त किया जा सकता है। हालाँकि यदि डेटासेट छोटा है, तो क्रॉस-वेलिडेशन के माध्यम से कर्नेल चुनना क्रॉस-वैलिडेशन त्रुटि को ओवरफिट करने के कारण मुश्किल हो सकता है।
डिक्रान मार्सुपियल

कई अनुप्रयोगों के लिए, रैखिक या आरबीएफ गुठली अच्छे डिफ़ॉल्ट विकल्प हैं, और गुठली की एक विस्तृत श्रृंखला (समस्या के विशेषज्ञ ज्ञान की अनुपस्थिति में) की खोज करने से अक्सर अपेक्षाकृत कम लाभ होता है।
डिक्रान मार्सुपियल

1

उत्तर इस बात पर निर्भर करते हैं कि आप रैखिक एसवीएम या कर्नेल एसवीएम का उपयोग कर रहे हैं या नहीं। रैखिक एसवीएम के साथ, आप केवल उन विशेषताओं का उपयोग कर रहे हैं जो आप इसे देते हैं, और यह खाता इंटरैक्शन में नहीं लेता है। कर्नेल एसवीएम के साथ, मूल रूप से आप कई अलग-अलग विशेषताओं का उपयोग कर रहे हैं, जो आपके द्वारा चुने गए कर्नेल पर निर्भर करता है। यदि कोई अलग हाइपरप्लेन है, अर्थात, यदि उस कक्षा को निर्धारित करता है जहाँ विशेषताएं हैं, तो आपके पास प्रशिक्षण डेटा की पूरी फिटिंग हो सकती है। आमतौर पर, आप सुविधाओं को निर्दिष्ट नहीं करते हैं, लेकिन एक कर्नेल देते हैं जो । कर्नेल हिल्बर्ट रिक्त स्थान को पुन: प्रस्तुत करना देखें।β मैं , मैं { 1 , 2 , कश्मीर } कश्मीर कश्मीर ( एक्स 1 , x 2 ) = Σ कश्मीर मैं = 1 β मैं ( एक्स 1 ) β मैं ( एक्स 2 )sign(i=1Kβi(x)β0)βi,i{1,2,...K}KK(x1,x2)=i=1Kβi(x1)βi(x2)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.