प्रश्नोत्तरी: अपनी निर्णय सीमा द्वारा वर्गीकरण को बताएं


17

नीचे 6 निर्णय सीमाएँ दी गई हैं। निर्णय सीमा वायलेट लाइनों है। डॉट्स और क्रॉस दो अलग-अलग डेटा सेट हैं। हमें तय करना है कि कौन सा एक है:

  • रैखिक एसवीएम
  • कर्नेलयुक्त SVM (बहुपद कर्नेल ऑफ़ ऑर्डर 2)
  • perceptron
  • रसद प्रतिगमन
  • तंत्रिका नेटवर्क (10 सुधारा हुआ रैखिक इकाइयों के साथ 1 छिपी परत)
  • तंत्रिका नेटवर्क (10 तन इकाइयों के साथ 1 छिपी परत)

मैं उपाय करना चाहूंगा। लेकिन इससे भी महत्वपूर्ण बात, मतभेदों को समझें। उदाहरण के लिए मैं कहूँगा c) एक रैखिक SVM है। निर्णय सीमा रैखिक है। लेकिन साथ ही हम रैखिक एसवीएम निर्णय सीमा के निर्देशांक को समरूप बना सकते हैं। d) कर्नेलयुक्त SVM, चूंकि यह बहुपद क्रम है 2. f) "रफ" किनारों के कारण न्यूरल नेटवर्क को सुधारा जाता है। शायद ए) लॉजिस्टिक रिग्रेशन: यह लीनियर क्लासिफायरिफायर भी है, लेकिन संभावनाओं पर आधारित है।

निर्णय सीमाएँ


1
कृपया [self-study]टैग जोड़ें और इसकी विकी पढ़ें । हम आपको बिना रुके मदद करने के लिए संकेत प्रदान करेंगे।
गंग -

लेकिन व्यायाम नहीं है मुझे प्रस्तुत करना होगा। मैं स्व-अध्ययन पोस्ट पढ़ता हूं, लेकिन मुझे लगता है कि मेरी पोस्ट ठीक है? मैंने अपने खुद के विचार को शामिल किया और मैंने इसके बारे में भी सोचा। मुझे लगता है कि शायद यह उदाहरण दूसरों के लिए भी दिलचस्प है।
मियाउ पियाउ

1
टैग जोड़ने के लिए धन्यवाद। यह हमारी नीति को लागू करने के लिए एक अभ्यास नहीं है। यह अच्छा प्रश्न है; मैंने इसे अपडाउन किया और बंद करने के लिए वोट नहीं दिया।
गंग -

1
यह समझाने में मदद कर सकता है कि भूखंड क्या दिखाते हैं। मुझे लगता है कि अंक डेटा के दो सेट हैं जो प्रशिक्षण के लिए उपयोग किए जाते हैं, और लाइन उन क्षेत्रों के बीच की सीमा है जहां एक नए बिंदु को एक या दूसरे समूह में वर्गीकृत किया जाएगा। क्या वह सही है?
एंडी क्लिफ्टन

1
यह शायद पिछले 5 वर्षों में किसी भी Stackoverflow / Stackexchange बोर्ड पर देखा गया सबसे अच्छा प्रश्न है। आश्चर्यजनक रूप से, Stackoverflow पर जावास्क्रिप्ट कोड जॉकी होंगे जो "बहुत व्यापक" होने के लिए इस प्रश्न को बंद कर देंगे।
stackoverflowuser2010

जवाबों:


9

वास्तव में इस सवाल की तरह!

पहली बात जो दिमाग में आती है वह है रैखिक और गैर-रेखीय श्रेणीबद्धताओं के बीच का विभाजन। तीन क्लासीफायर रैखिक (लीनियर एसवीएम, परसेप्ट्रान और लॉजिस्टिक रिग्रेशन) हैं और तीन प्लॉट एक रैखिक निर्णय सीमा ( , बी , सी ) दिखाते हैं । तो उन लोगों के साथ शुरू करते हैं।

रैखिक

सबसे सलीकेदार रैखिक भूखंड B है क्योंकि इसमें ढलान के साथ एक रेखा है। यह लॉजिस्टिक रिग्रेशन और एसवीएम के लिए अजीब है क्योंकि वे एक फ्लैट लाइन (यानी बिंदुओं से और अधिक दूर) होने के कारण अपने नुकसान-कार्यों को और अधिक सुधार सकते हैं। इस प्रकार, प्लॉट बी परसेप्ट्रॉन है। चूंकि परसेप्ट्रॉन ओउप्ट या तो 0 या 1 है, सभी समाधान जो एक वर्ग को दूसरे से अलग करते हैं वे समान रूप से अच्छे हैं। इसीलिए इसमें और सुधार नहीं होता है।

भूखंड _A) और C के बीच का अंतर अधिक सूक्ष्म है। प्लॉट A में निर्णय की सीमा थोड़ी कम है । सहायक एसवीएम की एक निश्चित संख्या के रूप में एक एसवीएम जबकि लॉजिस्टिक रिग्रेशन का नुकसान फ़ंक्शन सभी बिंदुओं को निर्धारित करता है। चूंकि नीले बिंदुओं की तुलना में अधिक लाल क्रॉस हैं, लॉजिस्टिक प्रतिगमन नीले डॉट्स से अधिक लाल क्रॉस से बचा जाता है। रैखिक एसवीएम सिर्फ लाल समर्थन वाले वैक्टर से दूर होने की कोशिश करता है जैसा कि नीले समर्थन वाले वैक्टर से। इसलिए प्लॉट लॉजिस्टिक रिग्रेशन की निर्णय सीमा है और प्लॉट सी एक रैखिक एसवीएम का उपयोग करके बनाया गया है।

गैर रेखीय

नॉन-लीनियर प्लॉट और क्लासिफायर के साथ चलें। मैं आपके अवलोकन से सहमत हूं कि प्लॉट एफ शायद रेलु एनएन है क्योंकि इसकी सबसे तेज सीमा है। एक ReLu इकाई क्योंकि सक्रियण 0 से अधिक होने पर एक बार सक्रिय हो जाता है और इसके कारण आउटपुट यूनिट एक भिन्न रैखिक रेखा का अनुसरण करती है। यदि आप वास्तव में अच्छे दिखते हैं, तो आप लाइन में दिशा के 8 बदलावों के बारे में जान सकते हैं, इसलिए शायद 2 इकाइयों पर अंतिम परिणाम पर बहुत कम प्रभाव पड़ता है। तो प्लॉट F , ReLu NN है।

पिछले दो के बारे में मुझे इतना यकीन नहीं है। एक तन एनएन और बहुपद कर्नेलित एसवीएम दोनों की कई सीमाएं हो सकती हैं। भूखंड डी स्पष्ट रूप से बदतर है। एक तन एनएन इस स्थिति में सुधार कर सकता है घटता को अलग-अलग झुकाकर और बाहरी क्षेत्र में अधिक नीले या लाल बिंदु लगा सकता है। हालांकि, यह साजिश हालांकि अजीब है। मुझे लगता है कि बाएं ऊपरी भाग को लाल और दाएं निचले हिस्से को नीले रंग में वर्गीकृत किया गया है। लेकिन मध्य भाग को कैसे वर्गीकृत किया जाता है? यह लाल या नीला होना चाहिए, लेकिन फिर निर्णय सीमा का एक हिस्सा नहीं निकाला जाना चाहिए। एकमात्र संभव विकल्प इस प्रकार है कि बाहरी भागों को एक रंग के रूप में और दूसरे भाग को अन्य रंग के रूप में वर्गीकृत किया गया है। यह अजीब है और वास्तव में बुरा है। इसलिए मैं इस बारे में निश्चित नहीं हूं।

आइए प्लॉट E पर नजर डालते हैं । इसमें घुमावदार और सीधी दोनों रेखाएँ हैं। एक डिग्री -2 कर्नेलयुक्त SVM के लिए यह कठिन (असंभव के करीब) एक सीधी रेखा निर्णय सीमा होती है क्योंकि चुकता दूरी धीरे-धीरे 2 वर्गों में से 1 का पक्ष लेती है। तान सक्रियता फ़ंक्शंस हॉवर संतृप्त हो सकते हैं जैसे कि छिपी हुई स्थिति 0 और 1 के से बना है। मामले में तब केवल 1 इकाई फिर अपनी स्थिति को बदलने के लिए कहती है। 5 आप एक रैखिक निर्णय सीमा प्राप्त कर सकते हैं। तो मैं कहूंगा कि प्लॉट E एक टैन एनएन है और इस तरह प्लॉट डी एक कर्नेलाइज़्ड एसवीएम है। हालांकि गरीब पुराने एसवीएम के लिए बुरा है।

निष्कर्ष

- लॉजिस्टिक रिग्रेशन
बी - पर्सेप्ट्रॉन
सी - रैखिक एसवीएम
डी - कर्नेलित एसवीएम (ऑर्डर 2 का बहुपद कर्नेल)
- तंत्रिका नेटवर्क (10 टैन यूनिट के साथ 1 छिपी हुई परत)
एफ - तंत्रिका नेटवर्क (10 सुधारा हुआ रैखिक इकाइयों के साथ 1 छिपी परत)


बहुत अच्छे उत्तर के लिए धन्यवाद। मुझे भी सवाल पसंद है। यह क्लासीफायर पर नया दृष्टिकोण देता है। एसवीएम में अधिकतम मार्जिन है और इसलिए यह समझ में आता है कि लाइन डेटा के बीच में है। लेकिन लॉजिस्टिक रिग्रेशन के लिए भी यह क्यों सच है?
मियाउ पियाउ

आपका मतलब है कि यह सीधा क्यों है? या यह बीच में क्यों है?
पीटर

आप कहते हैं "वे एक फ्लैट लाइन होने से अपने नुकसान-कार्यों को और अधिक सुधार सकते हैं" - यह लॉजिस्टिक प्रतिगमन के लिए क्यों है?
मियाउ पियाउ

1
सिद्धांत रूप में यह सबसे अच्छा समाधान है क्योंकि एक ढलान वाली रेखा निकट वर्ग की सही संभावना को तेजी से कम कर देती है क्योंकि यह अधिक दूर वर्ग की संभावना को बढ़ाता है।
पीटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.