एकल परत NeuralNetwork ReLU सक्रियण SVM के बराबर है?


10

मान लीजिए कि मेरे पास एक सरल सिंगल लेयर न्यूरल नेटवर्क है, जिसमें एन इनपुट और एक एकल आउटपुट (बाइनरी वर्गीकरण कार्य) है। यदि मैंने आउटपुट नोड में सक्रियण फ़ंक्शन को सिग्मॉइड फ़ंक्शन के रूप में सेट किया है - तो परिणाम एक लॉजिस्टिक प्रतिगमन क्लासिफायरियर है।

इसी परिदृश्य में, यदि मैं आउटपुट सक्रियण को ReLU (रेक्टिफ़ाइड लीनियर यूनिट) में बदलता हूं, तो परिणामी संरचना एसवीएम के समान या समान है?

यदि नहीं तो क्यों?


क्या आपके पास कोई परिकल्पना है कि ऐसा क्यों हो सकता है? सक्रियता की वजह से एक एकल परसेप्ट्रोन = लॉजिस्टिक बिल्कुल कारण है - वे अनिवार्य रूप से एक ही मॉडल हैं, गणितीय रूप से (हालांकि शायद अलग-अलग प्रशिक्षित) - रैखिक भार + मैट्रिक्स गुणन पर लागू एक सिग्मॉइड है। एसवीएम काफी अलग तरीके से काम करते हैं - वे डेटा को अलग करने के लिए सबसे अच्छी लाइन की तलाश करते हैं - वे "वेटी" / "मैट्रिक्स" की तुलना में अधिक ज्यामितीय हैं। मेरे लिए, ReLUs के बारे में कुछ भी नहीं है जो मुझे सोचने के लिए = आह करना चाहिए, वे एक एसवीएम के समान हैं। (लॉजिस्टिक और लीनियर एसवीएम हालांकि इसी तरह का प्रदर्शन करते हैं)
मैजुश

एक svm और relu सक्रियण फ़ंक्शन का अधिकतम-मार्जिन उद्देश्य समान दिखता है। इसलिए सवाल।
ई।

"एसवीएम काफी अलग तरीके से काम करते हैं - वे डेटा को अलग करने के लिए सबसे अच्छी लाइन की तलाश करते हैं - वे" वेटी "/" मैट्रिक्स "की तुलना में अधिक ज्यामितीय होते हैं। थोड़ा सा हाथ लहराते हैं - सभी रैखिक क्लासिफायरफायर्स लॉजिस्टिक रिग्रेशन के लिए डेटा को अलग करने के लिए सबसे अच्छी लाइन की तलाश करते हैं। और परसेप्ट्रॉन।
ईस्वी सन्

जवाबों:


11

E=max(1ty,0)

नेटवर्क हानि के लिए SVMs के रूप में एक ही रूप में होने के लिए, हम आउटपुट परत से किसी भी गैर-रेखीय सक्रियण फ़ंक्शन को हटा सकते हैं, और बैकप्रोपेगेशन के लिए काज हानि का उपयोग कर सकते हैं।

E=ln(1+exp(ty))

इसलिए नुकसान कार्यों के मामले में, SVM और लॉजिस्टिक रिग्रेशन बहुत करीब हैं, हालांकि SVMs प्रशिक्षण और समर्थन वैक्टर के आधार पर अनुमान के लिए एक बहुत अलग एल्गोरिथ्म का उपयोग करते हैं।

पुस्तक पैटर्न रिकॉग्निशन एंड मशीन लर्निंग की धारा 7.1.2 में SVM और लॉजिस्टिक रिग्रेशन के संबंध पर एक अच्छी चर्चा है ।

यहां छवि विवरण दर्ज करें


पुस्तक की ओर इशारा करने के लिए धन्यवाद। इसलिए मुझे समझ में आ रहा है कि सक्रियण कार्यों के अलावा, वास्तविक अंतर उपयोग किए जाने वाले अनुकूलन एल्गोरिदम में है। एलआर के लिए हम सरल असंबंधित ग्रेडिएंट वंश का उपयोग कर सकते हैं, जबकि एसवीएम में हम आम तौर पर एक विवश अनुकूलन का समाधान करते हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.