तंत्रिका नेटवर्क बनाम सपोर्ट वेक्टर मशीनें: क्या दूसरी निश्चित रूप से बेहतर हैं?


52

कागजात के कई लेखक मैं पढ़ता हूं एसवीएम उनके प्रतिगमन / वर्गीकरण समस्या का सामना करने के लिए बेहतर तकनीक है, इस बात से अवगत कि वे एनएन के माध्यम से समान परिणाम प्राप्त नहीं कर सकते थे। अक्सर तुलना में कहा गया है कि

एनवी के बजाय एसवीएम,

  • एक मजबूत संस्थापक सिद्धांत है
  • द्विघात प्रोग्रामिंग के कारण वैश्विक इष्टतम तक पहुंचें
  • उचित मानदंड चुनने के लिए कोई समस्या नहीं है
  • ओवरफिटिंग का खतरा कम होता है
  • भविष्य कहनेवाला मॉडल को स्टोर करने के लिए कम मेमोरी की आवश्यकता होती है
  • अधिक पठनीय परिणाम और एक ज्यामितीय व्याख्या की उपज

क्या यह गंभीरता से एक व्यापक रूप से स्वीकृत विचार है? नो-फ्री लंच प्रमेय या इसी तरह के बयानों को उद्धृत न करें, मेरा सवाल उन तकनीकों के व्यावहारिक उपयोग के बारे में है।

दूसरी तरफ, आप निश्चित रूप से एनएन के साथ किस तरह की अमूर्त समस्या का सामना करेंगे?


4
मुझे लगता है कि सवाल थोड़ा व्यापक हो सकता है। लेकिन व्यवहार में NN, NN संरचना की पसंद के साथ बहुत अधिक ट्यून करने योग्य लगते हैं, जबकि SVM में कम पैरामीटर होते हैं। दो सवाल हैं, अगर कोई एनएन एक समस्या को हल करने के लिए बेहतर तरीके से स्थापित किया गया था तो यह एसवीएम बनाम किराया कैसे होगा? और औसत प्रैक्टिशनर के हाथों में, एसवीएम एनएन के साथ तुलना कैसे करता है?
पैट्रिक कैलडन

2
@PatrickCaldon मैं आपकी बात समझता हूं, लेकिन इससे निपटने के लिए और अधिक पैरामीटर हमेशा बेहतर उपकरण का मतलब नहीं है, अगर आपको नहीं पता कि उन्हें कैसे उपयुक्त तरीके से कॉन्फ़िगर करना है। यदि कब्ज़ेदार है, तो भी लंबे अध्ययन की आवश्यकता हो सकती है; या, आपको अपनी प्रशंसा के उद्देश्य के लिए इतनी व्यापक सामर्थ्य की आवश्यकता नहीं हो सकती है
stackovergio

1
यही मेरा सवाल है। कौन सा प्रश्न विशेष परिस्थितियों में आदर्श परिस्थितियों में कैसे काम करता है? या टूल ज्यादातर लोगों के लिए कैसे काम करता है? मुझे लगता है कि यहां सबसे बड़ा घटक व्यक्ति btw है। इस वजह से मुझे लगता है कि प्रासंगिक कारक अक्सर होते हैं: प्रत्येक उपकरण सीखना कितना कठिन है? क्या ऐसे विशेषज्ञ हैं जो इसका उपयोग करना जानते हैं? आदि "एक्स से बाहर मुझे अच्छा प्रदर्शन मिला"
पैट्रिक कैलडन

1
मुझे जो पता है, उससे बहुपरत फीडफोर्वर्ड एएनएन सक्रियण फ़ंक्शन के कम या ज्यादा सार्वभौमिक सन्निकटन हैं। मैं एसवीएम के लिए एक समान परिणाम से अवगत नहीं हूं जो मेरे ज्ञान का उपयोग किए गए कर्नेल फ़ंक्शन पर बहुत अधिक निर्भर करता है।
मोमो

2
व्यावहारिक उपयोग में, मुझे प्रशिक्षण समय के कारण एनएनएस थोड़ा अधिक व्यावहारिक लगता है। गैर-रैखिक एसवीएम सिर्फ बड़े एन को बहुत अच्छी तरह से संभाल नहीं सकते हैं। दोनों एल्गोरिदम ओवरफिट कर सकते हैं और दोनों को मजबूत नियमितीकरण की आवश्यकता है।
शिया पार्क्स

जवाबों:


43

ट्रेड-ऑफ की बात है। SVMs हैं में अभी, NNS हुआ करता था में । आप कागजात कि रैंडम वन, संभाव्य ग्राफिक मॉडल या nonparametric बायेसियन तरीके हैं का दावा है की बढ़ती संख्या मिल जाएगा में। किसी में एक भविष्यवाणी मॉडल को प्रकाशित करना चाहिए असंभव अनुसंधान के इतिहास क्या पर मॉडल हिप विचार किया जाएगा।

कहा जा रहा है कि कई प्रसिद्ध कठिन पर्यवेक्षित समस्याओं के लिए सबसे अच्छा प्रदर्शन करने वाले एकल मॉडल एनएन के कुछ प्रकार हैं, कुछ प्रकार के एसवीएम या सिग्नल प्रोसेसिंग विधियों का उपयोग करके एक विशिष्ट विशिष्ट स्टोचैस्टिक ग्रेडिएंट डिसेंट विधि को लागू किया जाता है।


एनएन के पेशेवरों:

  • वे उन डेटा के प्रकारों में बेहद लचीले हैं जिनका वे समर्थन कर सकते हैं। मैन्युअल रूप से निकाले जाने वाली सुविधाओं के बिना, एनएन मूल रूप से किसी भी डेटा संरचना से महत्वपूर्ण विशेषताओं को सीखने में एक अच्छा काम करते हैं।
  • NN अभी भी सुविधा इंजीनियरिंग से लाभान्वित है, जैसे यदि आपके पास लंबाई और चौड़ाई है, तो आपके पास एक क्षेत्र सुविधा होनी चाहिए। समान कम्प्यूटेशनल प्रयास के लिए मॉडल बेहतर प्रदर्शन करेगा।

  • अधिकांश पर्यवेक्षित मशीन लर्निंग को लंबाई मैट्रिक्स के वेक्टर के रूप में लेबल के साथ, मैट्रिक्स द्वारा विशेषताओं में आपके डेटा को संरचित करने की आवश्यकता होती है। एनएन के साथ यह प्रतिबंध आवश्यक नहीं है। संरचित एसवीएम के साथ शानदार काम है, लेकिन यह संभावना नहीं है कि यह कभी भी एनएनएस की तरह लचीला होगा।


एसवीएम के पेशेवरों:

  • कम हाइपरपरमेटर्स। आम तौर पर एसवीएम को यथोचित सटीक मॉडल प्राप्त करने के लिए कम ग्रिड-खोज की आवश्यकता होती है। RBF कर्नेल के साथ SVM आमतौर पर काफी अच्छा प्रदर्शन करता है।

  • वैश्विक इष्टतम गारंटी।


एनएन और एसवीएम की विपक्ष:

  • अधिकांश उद्देश्यों के लिए वे दोनों ब्लैक बॉक्स हैं। एसवीएम की व्याख्या करने पर कुछ शोध है, लेकिन मुझे संदेह है कि यह कभी-कभी GLM के समान सहज होगा। यह कुछ समस्या डोमेन में एक गंभीर समस्या है।
  • यदि आप एक ब्लैक बॉक्स स्वीकार करने जा रहे हैं, तो आप आमतौर पर अलग-अलग ट्रेड-ऑफ के साथ कई मॉडल को बैगिंग / स्टैकिंग / बूस्ट करके बहुत अधिक सटीकता से निचोड़ सकते हैं।

    • यादृच्छिक वन आकर्षक हैं क्योंकि वे बिना किसी अतिरिक्त प्रयास के आउट-ऑफ-बैग भविष्यवाणियों (लीव-वन-आउट भविष्यवाणियों) का उत्पादन कर सकते हैं, वे बहुत व्याख्यात्मक हैं, उनके पास एक अच्छा पूर्वाग्रह-विचरण व्यापार-बंद (बैगिंग मॉडल के लिए महान) हैं और वे चयन पूर्वाग्रह के लिए अपेक्षाकृत मजबूत हैं। Stupidly सरल एक समानांतर कार्यान्वयन लिखने के लिए।

    • संभाव्य चित्रमय मॉडल आकर्षक हैं क्योंकि वे डोमेन-विशिष्ट-ज्ञान को सीधे मॉडल में शामिल कर सकते हैं और इस संबंध में व्याख्या करने योग्य हैं।

    • Nonparametric (या वास्तव में बेहद पैरामीट्रिक) बायेसियन तरीके आकर्षक हैं क्योंकि वे सीधे आत्मविश्वास अंतराल पैदा करते हैं। वे छोटे नमूना आकारों पर बहुत अच्छा प्रदर्शन करते हैं और बड़े नमूना आकारों पर बहुत अच्छा करते हैं। Stupidly सरल एक रेखीय बीजगणित कार्यान्वयन लिखने के लिए।


41
गहरी सीखने की हालिया वृद्धि के साथ, एनएनवी को एसवीएम की तुलना में "अधिक" माना जा सकता है, मैं कहूंगा।
18

30

आपके प्रश्न का उत्तर मेरे अनुभव "नहीं" में है, एसवीएम निश्चित रूप से बेहतर नहीं हैं, और जो सबसे अच्छा काम करता है वह हाथ में डेटासेट की प्रकृति और ऑपरेटर के प्रत्येक कौशल के साथ उपकरण के प्रत्येक सेट पर निर्भर करता है। सामान्य तौर पर SVM अच्छे होते हैं क्योंकि प्रशिक्षण एल्गोरिथ्म कुशल होता है, और इसमें एक नियमितीकरण पैरामीटर होता है, जो आपको नियमितीकरण और ओवर-फिटिंग के बारे में सोचने के लिए मजबूर करता है। हालांकि, ऐसे डेटासेट हैं जहां एमएलपी एसवीएम की तुलना में बहुत बेहतर प्रदर्शन देते हैं (जैसा कि उन्हें कर्नेल फ़ंक्शन द्वारा पूर्व-निर्दिष्ट किए जाने के बजाय अपने स्वयं के आंतरिक प्रतिनिधित्व को तय करने की अनुमति है)। MLPs का एक अच्छा कार्यान्वयन (जैसे NETLAB) और नियमितीकरण या शुरुआती रोक या वास्तुकला चयन (या बेहतर अभी भी तीनों) अक्सर बहुत अच्छे परिणाम दे सकते हैं और प्रदर्शन के मामले में कम से कम प्रतिलिपि प्रस्तुत करने योग्य हो सकते हैं।

मॉडल चयन एसवीएम के साथ प्रमुख समस्या है, कर्नेल का चयन करना और कर्नेल और नियमितीकरण मापदंडों का अनुकूलन करना यदि आप मॉडल चयन मानदंड को ओवर-ऑप्टिमाइज़ करते हैं तो अक्सर गंभीर ओवर-फिटिंग हो सकती है। जबकि SVM सिद्धांत को कम करके समझा जाता है, यह अधिकतर केवल एक निश्चित कर्नेल के लिए ही लागू होता है, इसलिए जैसे ही आप कर्नेल पैरामीटर को अनुकूलित करने का प्रयास करते हैं, यह अब लागू नहीं होता है (उदाहरण के लिए कर्नेल को ट्यूनिंग में हल की जाने वाली अनुकूलन समस्या। आम तौर पर गैर-उत्तल है और अच्छी तरह से स्थानीय मिनीमा हो सकता है)।


7
मैं इससे पूरी तरह सहमत हूं। मैं वर्तमान में मस्तिष्क-कंप्यूटर इंटरफ़ेस डेटा पर एसवीएम और एएनएन को प्रशिक्षित कर रहा हूं और कुछ डेटा सेट हैं जहां एसवीएम बेहतर हैं और कुछ डेटा सेट जहां एएनएन बेहतर हैं। दिलचस्प बात यह है: जब मैं उन सभी डेटा सेटों पर प्रदर्शन को औसत करता हूं जो मैं उपयोग कर रहा हूं, एसवीएम और एएनएन बिल्कुल समान प्रदर्शन तक पहुंचते हैं। बेशक, यह कोई प्रमाण नहीं है। यह सिर्फ एक किस्सा है। :)
अल्फा

27

मैं बस अपनी राय समझाने की कोशिश करूंगा जो मेरे ज्यादातर दोस्तों ने साझा की है। मुझे एनएन के बारे में निम्नलिखित चिंताएं हैं जो एसवीएम के बारे में बिल्कुल नहीं हैं:

  1. एक क्लासिक एनएन में, मापदंडों की मात्रा काफी अधिक है। मान लीजिए कि आपके पास लंबाई के वैक्टर हैं जिन्हें आप दो वर्गों में वर्गीकृत करना चाहते हैं। इनपुट लेयर के समान आकार की एक छिपी हुई परत आपको 100000 मुक्त मापदंडों पर ले जाएगी। जरा कल्पना करें कि आप कितनी बुरी तरह से ओवरफिट कर सकते हैं (ऐसी जगह पर स्थानीय न्यूनतम पर गिरना कितना आसान है), और आपको इसे रोकने के लिए कितने प्रशिक्षण बिंदुओं की आवश्यकता होगी (और तब आपको कितना समय प्रशिक्षित करने की आवश्यकता होगी)।
  2. आमतौर पर आपको एक नज़र में टोपोलॉजी को चुनने के लिए एक वास्तविक विशेषज्ञ होना चाहिए। इसका मतलब है कि यदि आप अच्छे परिणाम प्राप्त करना चाहते हैं तो आपको बहुत सारे प्रयोग करने चाहिए। इसलिए एसवीएम का उपयोग करना आसान है और बताएं, कि आप एनएन के साथ समान परिणाम प्राप्त नहीं कर सकते।
  3. आमतौर पर एनएन परिणाम प्रजनन योग्य नहीं होते हैं। यहां तक ​​कि अगर आप दो बार अपना एनएन प्रशिक्षण चलाते हैं, तो आपको लर्निंग एल्गोरिदम की यादृच्छिकता के कारण अलग-अलग परिणाम मिलेंगे।
  4. आमतौर पर आपके पास परिणामों की कोई व्याख्या नहीं होती है। यह एक छोटी सी चिंता है, लेकिन वैसे भी।

इसका मतलब यह नहीं है कि आपको एनएन का उपयोग नहीं करना चाहिए, आपको इसे सावधानी से उपयोग करना चाहिए। उदाहरण के लिए, छवि प्रसंस्करण के लिए कन्वेंशनल एनएन बहुत अच्छा हो सकता है, अन्य डीप एनएन अन्य समस्याओं के लिए भी अच्छा साबित हुआ।

आशा है कि यह मदद करेगा।


2
ANN परिणाम प्रजनन योग्य बनाने के लिए, यादृच्छिक फ़ंक्शन को बीज दें।
फ्रेंक डर्नोनकोर्ट

@ फ्रेंक यह वास्तविक प्रजनन क्षमता नहीं है।
पवित्रता

17

मैं ज्यादातर समस्या के लिए तंत्रिका नेटवर्क का उपयोग कर रहा हूं। मुद्दा यह है कि यह ज्यादातर मामलों में मॉडल के मुकाबले उपयोगकर्ता के अनुभव के बारे में अधिक है। यहां कुछ कारण बताए गए हैं कि मुझे एनएन क्यों पसंद है।

  1. वे लचीले होते हैं। मैं जो कुछ भी नुकसान चाहता हूं, उन्हें फेंक सकता हूं: काज नुकसान, चुकता, क्रॉस एन्ट्रॉपी, आप इसे नाम देते हैं। जब तक यह विभेदी है, तब तक मैं एक नुकसान भी डिजाइन कर सकता हूं जो मेरी आवश्यकताओं के अनुरूप है।
  2. उन्हें संभावित रूप से व्यवहार किया जा सकता है: बायेसियन न्यूरल नेटवर्क, वैरिएबल बेस, एमएलई / एमएपी, सब कुछ है। (लेकिन कुछ मामलों में अधिक कठिन है।)
  3. वे तीव्र हैं। अधिकांश MLP दो मैट्रिक्स गुणा और एक nonlinearity लागू घटक के बीच में बुद्धिमान होंगे। एक एसवीएम के साथ मारो।

मैं आपके अन्य बिंदुओं के साथ कदम से कदम मिलाकर चलूंगा।

एक मजबूत संस्थापक सिद्धांत है

मैं कहता हूँ, NN उस मामले में भी उतने ही मज़बूत हैं: क्योंकि आप उन्हें एक संभाव्य ढांचे में प्रशिक्षित करते हैं। यह पुजारियों और एक बायेसियन उपचार (जैसे कि वैचारिक तकनीकों या अनुमानों) का उपयोग संभव बनाता है।

द्विघात प्रोग्रामिंग के कारण वैश्विक इष्टतम तक पहुंचें

हाइपरपरमेटर्स के एक सेट के लिए। हालाँकि, अच्छे hps की खोज गैर-उत्तल है, और आपको पता नहीं चलेगा कि आपने वैश्विक रूप से भी इष्टतम पाया है या नहीं।

उचित मानदंड चुनने के लिए कोई समस्या नहीं है

एसवीएम के साथ, आपको हाइपर पैरामीटर भी चुनना होगा।

भविष्य कहनेवाला मॉडल को स्टोर करने के लिए कम मेमोरी की आवश्यकता होती है

आपको सपोर्ट वैक्टर को स्टोर करने की आवश्यकता है। एसवीएम सामान्य रूप से एमएलपी को स्टोर करने के लिए सस्ता नहीं होगा, यह मामले पर निर्भर करता है।

अधिक पठनीय परिणाम और एक ज्यामितीय व्याख्या की उपज

एक एमएलपी की शीर्ष परत वर्गीकरण के मामले में एक लॉजिस्टिक रिग्रेशन है। इस प्रकार, एक ज्यामितीय व्याख्या (हाइपर प्लेन को अलग करना) और एक संभाव्य व्याख्या भी है।


मुझे सपोर्ट वैक्टर को स्टोर करने की आवश्यकता क्यों है? क्या यह एसवीएम के हाइपरप्लेन / मैरिंग को स्टोर करने के लिए पर्याप्त नहीं है?
जूलियन

ऐसा इसलिए है क्योंकि हाइपर प्लेन को सपोर्ट वैक्टर के जरिए दर्शाया जाता है। इससे एक नए बिंदु की दूरी की गणना करने के लिए, आप उन पर पुनरावृत्ति करेंगे।
बायरज

0

कुछ मायनों में मशीन लर्निंग तकनीकों की ये दो व्यापक श्रेणियां संबंधित हैं। हालांकि सही नहीं है, इन तकनीकों में समानताएं दिखाने में दो पेपर मुझे मददगार लगे हैं

रोनन कोलोबर्ट और सैमी बेंगियो। 2004. परसेप्ट्रोन, एमएलपी और एसवीएम के बीच लिंक। मशीन लर्निंग (ICML '04) पर इक्कीसवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में। एसीएम, न्यूयॉर्क, एनवाई, यूएसए, 23-। DOI: https://doi.org/10.1145/1015330.1015415

तथा

एंड्रस, पीटर। (2002)। सपोर्ट वेक्टर मशीन और नियमितीकरण तंत्रिका नेटवर्क की समानता। तंत्रिका प्रसंस्करण पत्र। 15. 97-104। 10.1023 / A: 1015292818897।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.