आरबीएफ एसवीएम मामलों का उपयोग करें (बनाम लॉजिस्टिक रिग्रेशन और यादृच्छिक वन)

10

रेडियल-बेस फंक्शन कर्नेल के साथ सपोर्ट वेक्टर मशीनें एक सामान्य-प्रयोजन पर्यवेक्षित क्लासिफायरियर है।

जबकि मैं इन एसवीएम के लिए सैद्धांतिक नींव, और उनके मजबूत बिंदुओं को जानता हूं, मुझे उन मामलों की जानकारी नहीं है जिनमें वे पसंदीदा विधि हैं। तो, वहाँ समस्याओं का एक वर्ग है जिसके लिए आरबीएफ एसवीएम अन्य एमएल तकनीकों से बेहतर हैं? (या तो स्कोर के संदर्भ में, या अन्य - जैसे मजबूती, शुरू करने के लिए सहजता, व्याख्यात्मकता आदि)

मैं पूछ रहा हूं, क्योंकि मेरा डिफ़ॉल्ट दृष्टिकोण लॉजिस्टिक रिग्रेशन (शायद कुछ इंटरैक्शन के साथ), यादृच्छिक वन और तंत्रिका नेटवर्क के आसपास केंद्रित है। मेरे कोई भी मित्र एमएल नहीं कर रहे हैं (कुछ कागले विजेता हैं) एक एसवीएम-उपयोगकर्ता है (लेकिन यह मेरे समुदाय की एक कलाकृति हो सकती है, या वे जो समस्याएं हैं, उनके साथ)।

— पायोत्र मिगदल
स्रोत

8

मैं प्रकाशित साक्ष्यों, व्यक्तिगत अनुभव और अटकलों के संयोजन के साथ इस प्रश्न का उत्तर देने का प्रयास करूंगा।

ए) प्रकाशित साक्ष्य।

एकमात्र पेपर जो मुझे पता है कि सवाल का जवाब देने में मदद डेलगाडो एट अल 2014 है - क्या हमें वास्तविक विश्व वर्गीकरण समस्याओं को हल करने के लिए सैकड़ों क्लासिफायर की आवश्यकता है? - जेएमएलआर जो 121 डेटासेट डेल यूसीआई पर सैकड़ों विभिन्न एल्गोरिदम और कार्यान्वयन चलाती है। वे पाते हैं कि यद्यपि आरबीएफ एसवीएम "सर्वश्रेष्ठ" एल्गोरिथ्म नहीं है (यह यादृच्छिक वन है अगर मुझे सही याद है), यह शीर्ष 3 (या 5) में से है।

यदि आप मानते हैं कि उनके डेटासेट्स का चयन वास्तविक दुनिया की समस्याओं का एक "अच्छा नमूना" है, तो एसवीएम निश्चित रूप से एक एल्गोरिथ्म है जिसे नई समस्याओं पर आज़माया जाना चाहिए, लेकिन पहले यादृच्छिक वन की कोशिश करनी चाहिए!

उस परिणाम को सामान्य करने की सीमा यह है कि डेटासेट लगभग सभी लम्बे और पतले (n >> p) हैं, बहुत विरल नहीं - जो कि मैं अनुमान लगाता हूं कि RF के लिए समस्या अधिक होनी चाहिए, और बहुत बड़ी (n और p दोनों) नहीं।

अंत में, अभी भी प्रकाशित सबूतों पर, मैं दो साइटों की सिफारिश करता हूं जो यादृच्छिक जंगलों के विभिन्न कार्यान्वयनों की तुलना करती हैं:

बी) व्यक्तिगत अनुभव।

मेरा मानना है कि मशीन सीखने वाले समुदाय के लिए डेलगाडो जैसे सभी पेपर बहुत महत्वपूर्ण हैं, इसलिए मैंने कुछ अलग परिस्थितियों में उनके परिणामों को दोहराने की कोशिश की। मैंने 100+ बाइनरी डेटासेट (डेलगाडो के सेटसेट से) पर कुछ 15 अलग-अलग एल्गोरिदम चलाए। मुझे यह भी लगता है कि मैं हाइपरपरमेटर्स के चयन पर अधिक सावधान था तब वे थे।

मेरा परिणाम है कि एसवीएम "सर्वश्रेष्ठ एल्गोरिथ्म" (मतलब रैंक 4.9) था। मेरा लेना यह है कि एसवीएम ने आरएफ को पारित कर दिया क्योंकि मूल डेटासेट में कई बहुस्तरीय समस्याएं थीं - जिनकी मैं अटकलें भाग में चर्चा करूंगा - एसवीएम के लिए एक समस्या होनी चाहिए।

EDIT (जून / 16):

लेकिन आरएफ तेजी से रास्ता है , और यह दूसरा सबसे अच्छा एल्गोरिथ्म था (मतलब रैंक 5.6) इसके बाद gbm (5.8), nnets (7.2), और इसी तरह)। मैंने इन समस्याओं में मानक लॉजिस्टिक प्रतिगमन की कोशिश नहीं की, लेकिन मैंने एक लोचदार नेट (L1 और L2 नियमित एलआर) की कोशिश की, लेकिन यह अच्छा प्रदर्शन नहीं किया (मतलब रैंक 8.3) ~

मैंने अभी तक परिणामों का विश्लेषण नहीं किया है या पेपर लिख रहा हूं इसलिए मैं परिणामों के साथ एक तकनीकी रिपोर्ट को इंगित नहीं कर सकता। उम्मीद है, कुछ हफ्तों में मैं इस जवाब को फिर से संपादित कर सकता हूं और परिणामों के साथ एक तकनीकी रिपोर्ट को इंगित कर सकता हूं।

कागज http://arxiv.org/abs/1606.00930 पर उपलब्ध है। यह पता चलता है कि पूर्ण विश्लेषण के बाद आरएफ और एसवीएम अपेक्षित त्रुटि दर के मामले में लगभग बराबर हैं और एसवीएम सबसे तेज (मेरे आश्चर्य के लिए !!) है। मैं अब आरएफ (गति के आधार पर) की सिफारिश करने में सशक्त नहीं हूं।

तो मेरा व्यक्तिगत अनुभव यह है कि यद्यपि SVM आपको कुछ अतिरिक्त सटीकता प्राप्त कर सकता है, लेकिन RF का उपयोग करना लगभग हमेशा बेहतर विकल्प होता है।

इसके अलावा बड़ी समस्याओं के लिए, एक बैच एसवीएम सॉल्वर का उपयोग करना असंभव हो सकता है (मैंने कभी भी ऑनलाइन एसवीएम सॉल्वर जैसे एलएएसवीएम या अन्य का उपयोग नहीं किया है )।

अंत में मैंने केवल एक स्थिति में लॉजिस्टिक रिग्रेशन का उपयोग किया। मैं एक छवि वर्गीकरण समस्या पर कुछ "तीव्र" फीचर इंजीनियरिंग कर रहा था (जैसे - संयोजन या छवि के दो अलग-अलग विवरण, और विवरण की गतिशीलता)। और मैंने कई विकल्पों में से चयन करने के लिए लॉजिस्टिक रिग्रेशन का उपयोग किया (क्योंकि LR में कोई हाइपरपैरेट खोज नहीं है)। एक बार जब हम सबसे अच्छी सुविधाओं (एलआर के अनुसार) में व्यवस्थित हो जाते हैं तो हमने अंतिम क्लासिफायर प्राप्त करने के लिए एक आरएफ (सर्वश्रेष्ठ हाइपरपामेटर्स के लिए चयन) का उपयोग किया।

ग) अटकल

मैंने कभी भी मल्टीक्लास समस्याओं पर गंभीरता से काम नहीं किया है, लेकिन मेरी भावना यह है कि एसवीएम उन पर उतना अच्छा नहीं है। समस्या एक-बनाम-एक या एक-बनाम-सभी समाधानों के बीच का मुद्दा नहीं है, लेकिन यह कि सभी कार्यान्वयन जो मुझे पता हैं, सभी (ओवीओ या ओवीए) क्लासिफायरफायर के लिए एक ही हाइपरपैरमीटर का उपयोग करेंगे। एसवीएम के लिए सही हाइपरपैरामीटर का चयन करना इतना महंगा है कि मुझे जो भी पता चला है उनमें से कोई भी एक शेल्फ कार्यान्वयन नहीं है, जो प्रत्येक कक्षा के लिए खोज करेगा। मैं अनुमान लगाता हूं कि यह एसवीएम के लिए एक समस्या है (लेकिन आरएफ के लिए समस्या नहीं है!)।

तब फिर से, मल्टीस्कल्स समस्याओं के लिए मैं सीधे आरएफ पर जाऊंगा।

— जैक्स वेनर
स्रोत

एक महान जवाब! किसी भी संयोग से आपके पास डेलगाडो एट अल प्रयोग की प्रतिकृति पर एक ब्लॉग पोस्ट, नोटबुक या स्क्रिप्ट है? (Tweaking पैरामीटर, स्केलिंग चर आमतौर पर एल्गोरिथम की पसंद के रूप में महत्वपूर्ण होते हैं, इसलिए इसके बिना एल्गोरिथ्म श्रेष्ठता के बारे में मजबूत दावे करना कठिन है।)

— प्योत्र मिग्डल

@PiotrMigdal - कोई ब्लॉग / नोटबुक पोस्ट नहीं - अभी भी कागज लिख रहा है। हाइपरपरमीटर खोज थी: RBF C =

2^{- 5}, 2^{0}, 2^{5}, 2^{10}, 2^{15}

${2^{-5}, 2^0, 2^5, 2^{10}, 2^{15}}$

2^{- 15}, 2^{- 10.5}, 2^{- 6}, 2^{- 1.5}, 2^{3}

${2^{-15}, 2^{-10.5}, 2^{-6},2^{-1.5}, 2^{3}}$

0.5, 1, 2 * \sqrt{p}

${0.5,1,2} * \sqrt{p}$

0

मेरे पास टिप्पणी लिखने में सक्षम होने के लिए पर्याप्त विशेषाधिकार नहीं हैं, इसलिए मैं सिर्फ उत्तर के रूप में यहां अपना इनपुट / अवलोकन प्रदान करूंगा।

मेरे अनुभव में, सपोर्ट वेक्टर क्लासीफायर (एसवीसी) बाइनरी कक्षाओं के संतुलित होने पर या तो बराबर होते हैं या अन्य तरीकों को बेहतर बनाते हैं। असंतुलित वर्गों के लिए, SVC खराब प्रदर्शन करता है।

मैं अक्सर मल्टीकलस समस्याओं से निपटता नहीं हूं, लेकिन मैंने एसवीसी के साथ कुछ अच्छे परिणामों को भी मल्टीकलस समस्याओं के लिए देखा है।

एक और बात जो मैंने देखी है वह यह है कि विभिन्नता का अभिशाप SVC को उतना प्रभावित नहीं करता जितना कि अन्य मॉडलिंग तकनीकों को। दूसरे शब्दों में, जैसा कि मैं मॉडल में अधिक शब्द जोड़ता हूं, अन्य तकनीकें प्रशिक्षण सेट की तुलना में परीक्षण (या, होल्डआउट) सेट पर खराब प्रदर्शन करना शुरू कर देती हैं। लेकिन इतना नहीं जब मैं एसवीसी का उपयोग करता हूं। इस कारण से, यदि मॉडल पार्सिमनी आपकी प्राथमिकता नहीं है, तो एसवीसी एक बेहतर विकल्प हो सकता है क्योंकि आप अन्य तरीकों की तरह ज्यादा ओवर-फिटिंग के बिना बहुत सारे शब्दों में फेंक सकते हैं।

SVC के साथ मेरे पास एक समस्या यह है कि यह टिप्पणियों को क्रमबद्ध करने में सक्षम होने के लिए एक उपाय (जैसे कि अनुमानित संभावना) प्रदान नहीं करता है। आप प्लॉट स्केलिंग का उपयोग कर सकते हैं (पायथन में sklearn.svm पैकेज में लागू), लेकिन मैंने कुछ विसंगतियां देखी हैं। (यदि किसी की दिलचस्पी है तो मैं विवरण साझा कर सकता हूं।)

यकीन नहीं अगर यह वास्तव में आपके सवाल का जवाब देता है, लेकिन ये मेरी टिप्पणियों हैं। उम्मीद है की वो मदद करदे।

— विशाल
स्रोत

0

आरएफ और (आरबीएफ) एसवीएम के पीछे अलग-अलग सिद्धांत हैं, लेकिन यह मानते हुए कि आपके पास पर्याप्त डेटा है, वे समान रूप से अच्छा प्रदर्शन करते हैं। वे दोनों जटिल कार्यों को सीख सकते हैं और शोर और बिना किसी सूचना के चर और आउटलेयर के साथ अच्छी तरह से निपट सकते हैं।

यदि आप किसी चीज़ के लिए सर्वोत्तम परिणाम प्राप्त करने का प्रयास कर रहे हैं, तो आप वैसे भी RF और SVM सहित कई मॉडलों को इकट्ठा करेंगे।

गैर कग्गल सेटिंग्स में, आप विचार कर सकते हैं कि मॉडल को लागू करना कितना कठिन है, इसे उत्पादन में डाल दें, एक भविष्यवाणी करें, व्याख्या करें, इसे एक प्रबंधक को समझाएं आदि।

एसवीएम (रैखिक या अत्यधिक नियमित आरबीएफ) निश्चित रूप से पसंद किया जाएगा यदि आपके पास कम मात्रा में डेटा है या आप आयामीता के पाठ्यक्रम के साथ काम कर रहे हैं। इसके कुछ कारण हैं, एक यह है कि अपनी विशेषताओं पर सर्वोत्तम विभाजन की श्रृंखला के बजाय अधिकतम मार्जिन हाइपरप्लेन की तलाश करना बेहतर है, साथ ही आमतौर पर एक जटिल सीमा की आवश्यकता नहीं है क्योंकि उच्च आयामी अंतरिक्ष में कुछ हाइपरप्लेन होंगे वैसे भी डेटा को अलग कर सकते हैं। एक और मुद्दा यह है कि आरएफ को ट्यून करना कठिन है (धुन करने के लिए अधिक पैरामीटर हैं), इसलिए आपको अधिक डेटा की आवश्यकता है।

एक और विचार, क्रॉस सत्यापन एसवीएम के लिए बहुत सस्ता और तेज हो सकता है, विशेषकर एलओओसीवी। चूँकि केवल कुछ नमूने ही सपोर्टिव वैक्टर हैं (हमेशा नहीं), इसलिए आपको अपने क्लासिफायर को हर फोल्ड पर वापस करना होगा, लेकिन केवल तब जब परीक्षण सेट में मौजूद डेटा पहले सपोर्ट वैक्टर थे। इससे ऑनलाइन पढ़ाई भी आसान हो सकती है।

इसके अलावा, पूर्ण वृक्षों की तुलना में समर्थन वैक्टर को स्टोर करना सस्ता हो सकता है।

अक्सर क्लासिफायर की तुलना में संभाव्य मॉडल बनाने के लिए बेहतर है। इसलिए, पहले मॉडल बनाएं और बाद में निर्णय लें। उस स्थिति में लॉजिस्टिक रिग्रेशन को प्राथमिकता दी जाएगी। और आप अभी भी गुठली और नियमितीकरण का उपयोग कर सकते हैं ताकि आप चाहते हैं कि यह व्यवहार करे। इसके अलावा, आप सवालों के जवाब देने के लिए आरएफ का उपयोग नहीं करेंगे: उम्र, जीवन शैली, लिंग और शिक्षा के लिए सही, क्या शराब पीने से दिल का दौरा पड़ने की संभावना बढ़ जाती है?

कुछ अतिरिक्त संसाधन मुझे दिलचस्प लगे: https://www.quora.com/What-are-the- नुकसान-of-different-classification-al एल्गोरिदम http://videolectures.net/solomon_caruana_wslmw/

— rep_ho
स्रोत