मैं प्रकाशित साक्ष्यों, व्यक्तिगत अनुभव और अटकलों के संयोजन के साथ इस प्रश्न का उत्तर देने का प्रयास करूंगा।
ए) प्रकाशित साक्ष्य।
एकमात्र पेपर जो मुझे पता है कि सवाल का जवाब देने में मदद डेलगाडो एट अल 2014 है - क्या हमें वास्तविक विश्व वर्गीकरण समस्याओं को हल करने के लिए सैकड़ों क्लासिफायर की आवश्यकता है? - जेएमएलआर जो 121 डेटासेट डेल यूसीआई पर सैकड़ों विभिन्न एल्गोरिदम और कार्यान्वयन चलाती है। वे पाते हैं कि यद्यपि आरबीएफ एसवीएम "सर्वश्रेष्ठ" एल्गोरिथ्म नहीं है (यह यादृच्छिक वन है अगर मुझे सही याद है), यह शीर्ष 3 (या 5) में से है।
यदि आप मानते हैं कि उनके डेटासेट्स का चयन वास्तविक दुनिया की समस्याओं का एक "अच्छा नमूना" है, तो एसवीएम निश्चित रूप से एक एल्गोरिथ्म है जिसे नई समस्याओं पर आज़माया जाना चाहिए, लेकिन पहले यादृच्छिक वन की कोशिश करनी चाहिए!
उस परिणाम को सामान्य करने की सीमा यह है कि डेटासेट लगभग सभी लम्बे और पतले (n >> p) हैं, बहुत विरल नहीं - जो कि मैं अनुमान लगाता हूं कि RF के लिए समस्या अधिक होनी चाहिए, और बहुत बड़ी (n और p दोनों) नहीं।
अंत में, अभी भी प्रकाशित सबूतों पर, मैं दो साइटों की सिफारिश करता हूं जो यादृच्छिक जंगलों के विभिन्न कार्यान्वयनों की तुलना करती हैं:
बी) व्यक्तिगत अनुभव।
मेरा मानना है कि मशीन सीखने वाले समुदाय के लिए डेलगाडो जैसे सभी पेपर बहुत महत्वपूर्ण हैं, इसलिए मैंने कुछ अलग परिस्थितियों में उनके परिणामों को दोहराने की कोशिश की। मैंने 100+ बाइनरी डेटासेट (डेलगाडो के सेटसेट से) पर कुछ 15 अलग-अलग एल्गोरिदम चलाए। मुझे यह भी लगता है कि मैं हाइपरपरमेटर्स के चयन पर अधिक सावधान था तब वे थे।
मेरा परिणाम है कि एसवीएम "सर्वश्रेष्ठ एल्गोरिथ्म" (मतलब रैंक 4.9) था। मेरा लेना यह है कि एसवीएम ने आरएफ को पारित कर दिया क्योंकि मूल डेटासेट में कई बहुस्तरीय समस्याएं थीं - जिनकी मैं अटकलें भाग में चर्चा करूंगा - एसवीएम के लिए एक समस्या होनी चाहिए।
EDIT (जून / 16):
लेकिन आरएफ तेजी से रास्ता है , और यह दूसरा सबसे अच्छा एल्गोरिथ्म था (मतलब रैंक 5.6) इसके बाद gbm (5.8), nnets (7.2), और इसी तरह)। मैंने इन समस्याओं में मानक लॉजिस्टिक प्रतिगमन की कोशिश नहीं की, लेकिन मैंने एक लोचदार नेट (L1 और L2 नियमित एलआर) की कोशिश की, लेकिन यह अच्छा प्रदर्शन नहीं किया (मतलब रैंक 8.3) ~
मैंने अभी तक परिणामों का विश्लेषण नहीं किया है या पेपर लिख रहा हूं इसलिए मैं परिणामों के साथ एक तकनीकी रिपोर्ट को इंगित नहीं कर सकता। उम्मीद है, कुछ हफ्तों में मैं इस जवाब को फिर से संपादित कर सकता हूं और परिणामों के साथ एक तकनीकी रिपोर्ट को इंगित कर सकता हूं।
कागज http://arxiv.org/abs/1606.00930 पर उपलब्ध है। यह पता चलता है कि पूर्ण विश्लेषण के बाद आरएफ और एसवीएम अपेक्षित त्रुटि दर के मामले में लगभग बराबर हैं और एसवीएम सबसे तेज (मेरे आश्चर्य के लिए !!) है। मैं अब आरएफ (गति के आधार पर) की सिफारिश करने में सशक्त नहीं हूं।
तो मेरा व्यक्तिगत अनुभव यह है कि यद्यपि SVM आपको कुछ अतिरिक्त सटीकता प्राप्त कर सकता है, लेकिन RF का उपयोग करना लगभग हमेशा बेहतर विकल्प होता है।
इसके अलावा बड़ी समस्याओं के लिए, एक बैच एसवीएम सॉल्वर का उपयोग करना असंभव हो सकता है (मैंने कभी भी ऑनलाइन एसवीएम सॉल्वर जैसे एलएएसवीएम या अन्य का उपयोग नहीं किया है )।
अंत में मैंने केवल एक स्थिति में लॉजिस्टिक रिग्रेशन का उपयोग किया। मैं एक छवि वर्गीकरण समस्या पर कुछ "तीव्र" फीचर इंजीनियरिंग कर रहा था (जैसे - संयोजन या छवि के दो अलग-अलग विवरण, और विवरण की गतिशीलता)। और मैंने कई विकल्पों में से चयन करने के लिए लॉजिस्टिक रिग्रेशन का उपयोग किया (क्योंकि LR में कोई हाइपरपैरेट खोज नहीं है)। एक बार जब हम सबसे अच्छी सुविधाओं (एलआर के अनुसार) में व्यवस्थित हो जाते हैं तो हमने अंतिम क्लासिफायर प्राप्त करने के लिए एक आरएफ (सर्वश्रेष्ठ हाइपरपामेटर्स के लिए चयन) का उपयोग किया।
ग) अटकल
मैंने कभी भी मल्टीक्लास समस्याओं पर गंभीरता से काम नहीं किया है, लेकिन मेरी भावना यह है कि एसवीएम उन पर उतना अच्छा नहीं है। समस्या एक-बनाम-एक या एक-बनाम-सभी समाधानों के बीच का मुद्दा नहीं है, लेकिन यह कि सभी कार्यान्वयन जो मुझे पता हैं, सभी (ओवीओ या ओवीए) क्लासिफायरफायर के लिए एक ही हाइपरपैरमीटर का उपयोग करेंगे। एसवीएम के लिए सही हाइपरपैरामीटर का चयन करना इतना महंगा है कि मुझे जो भी पता चला है उनमें से कोई भी एक शेल्फ कार्यान्वयन नहीं है, जो प्रत्येक कक्षा के लिए खोज करेगा। मैं अनुमान लगाता हूं कि यह एसवीएम के लिए एक समस्या है (लेकिन आरएफ के लिए समस्या नहीं है!)।
तब फिर से, मल्टीस्कल्स समस्याओं के लिए मैं सीधे आरएफ पर जाऊंगा।