SVM पर और इसके विपरीत रैंडम फ़ॉरेस्ट का उपयोग कब करें?


28

जब कोई Random Forestओवर SVMऔर इसके विपरीत इस्तेमाल करेगा ?

मैं समझता हूं कि cross-validationऔर मॉडल तुलना एक मॉडल को चुनने का एक महत्वपूर्ण पहलू है, लेकिन यहां मैं दो तरीकों के अंगूठे और यकृत के नियमों के बारे में अधिक जानना चाहूंगा।

क्या कोई सहपाठियों की सूक्ष्मताओं, शक्तियों और कमजोरियों के साथ-साथ समस्याओं की भी व्याख्या कर सकता है, जो उनमें से प्रत्येक के लिए सबसे उपयुक्त हैं?


1
सटीकता स्कोर उनके सापेक्ष प्रदर्शन का एकमात्र सही माप है, हालांकि पूर्व कला हो सकती है जो इंगित करती है कि कई उपलब्ध में से किस प्रकार का क्लासिफायर आपके भाग्यशाली डेटा पर बेहतर हो सकता है यदि आप भाग्यशाली हैं। आप अपने मापदंडों को ट्यून करने में कितना समय लगाते हैं, इस बात से आप अधिक विवश हो सकते हैं, इस स्थिति में रैंडम फ़ॉरेस्ट शायद दो का एक आसान प्रस्ताव साबित होगा।
image_doctor

जवाबों:


29

मैं कहूंगा, चुनाव आपके पास कितना डेटा है और आपका उद्देश्य क्या है, इस पर बहुत निर्भर करता है। कुछ "अंगूठे के नियम"।

रैंडम फ़ॉरेस्ट आंतरिक रूप से मल्टीक्लास समस्याओं के लिए अनुकूल है, जबकि एसवीएम आंतरिक रूप से दो-स्तरीय है। बहुरंगी समस्या के लिए आपको इसे कई बाइनरी वर्गीकरण समस्याओं में कम करना होगा।

रैंडम फॉरेस्ट संख्यात्मक और श्रेणीबद्ध विशेषताओं के मिश्रण के साथ अच्छी तरह से काम करता है। जब सुविधाएँ विभिन्न पैमानों पर होती हैं, तो यह भी ठीक है। मोटे तौर पर, रैंडम फ़ॉरेस्ट के साथ आप डेटा का उपयोग कर सकते हैं जैसे वे हैं। एसवीएम "मार्जिन" को अधिकतम करता है और इस प्रकार विभिन्न बिंदुओं के बीच "दूरी" की अवधारणा पर निर्भर करता है। यह तय करना है कि "दूरी" सार्थक है या नहीं। नतीजतन, श्रेणीबद्ध विशेषताओं के लिए एक-गर्म एन्कोडिंग एक अवश्य है। आगे, न्यूनतम-अधिकतम या अन्य स्केलिंग प्रीप्रोसेसिंग कदम पर अत्यधिक अनुशंसित है।

nmn×nn2

एक वर्गीकरण समस्या के लिए यादृच्छिक वन आपको कक्षा से संबंधित होने की संभावना देता है। एसवीएम आपको सीमा से दूरी देता है, आपको अभी भी इसे किसी तरह संभावना में बदलने की आवश्यकता है यदि आपको संभावना की आवश्यकता है।

उन समस्याओं के लिए, जहां एसवीएम लागू होता है, यह आमतौर पर रैंडम फॉरेस्ट से बेहतर प्रदर्शन करता है।

एसवीएम आपको "सपोर्ट वैक्टर" प्रदान करता है, जो कि कक्षाओं के बीच की सीमा के निकटतम प्रत्येक कक्षा के अंक हैं। वे व्याख्या के लिए खुद से दिलचस्पी ले सकते हैं।


बस जोड़ने के लिए: यह आपको संभावनाएं देने के लिए यादृच्छिक जंगलों के लिए सीधा नहीं है। यदि आप 'सही' संभावना चाहते हैं तो आपको या तो किसी निर्णय वृक्ष के संभाव्य कार्यान्वयन की आवश्यकता होगी या बाद में अपने रैंडम फ़ॉरेस्ट फ़ॉरेस्ट मॉडल को कैलिब्रेट करना होगा।
आर्ची

5

एसवीएम मॉडल सामान्य रूप से पेड़ों की तुलना में विरल डेटा पर बेहतर प्रदर्शन करते हैं। उदाहरण के लिए दस्तावेज़ वर्गीकरण में आपके पास हज़ारों, यहाँ तक कि हज़ारों सुविधाएँ हो सकती हैं और किसी भी दस्तावेज़ सदिश में इन विशेषताओं का केवल एक छोटा सा अंश शून्य से अधिक हो सकता है। उनके बीच संभवतः अन्य मतभेद हैं, लेकिन यह वही है जो मैंने अपनी समस्याओं के लिए पाया है।


3

यह वास्तव में निर्भर करता है कि आप क्या हासिल करना चाहते हैं, आपका डेटा कैसा दिखता है और आदि। SVM आमतौर पर रैखिक निर्भरता पर बेहतर प्रदर्शन करते हैं, अन्यथा आपको नॉनलाइन कर्नेल की आवश्यकता होती है और कर्नेल की पसंद परिणाम बदल सकती है। इसके अलावा, एसवीएम कम व्याख्यात्मक हैं - उदाहरण के लिए यदि आप यह समझाना चाहते हैं कि वर्गीकरण ऐसा क्यों था - यह गैर-तुच्छ होगा। निर्णय लेने वाले पेड़ों की बेहतर व्याख्या होती है, वे तेजी से काम करते हैं और यदि आपके पास इसके ठीक प्रकार के श्रेणीबद्ध / संख्यात्मक चर हैं, तो: गैर-रैखिक निर्भरता को अच्छी तरह से संभाला जाता है (एन काफी बड़ी दी जाती है)। इसके अलावा, वे सामान्य रूप से एसवीएम की तुलना में तेजी से प्रशिक्षित करते हैं, लेकिन वे ओवरफिट करने की प्रवृत्ति रखते हैं ...

मैं लॉजिस्टिक रिग्रेशन का भी प्रयास करूंगा - महान व्याख्यात्मक वर्गीकरण)

इसे योग करने के लिए - अंगूठे का नियम कुछ भी करने की कोशिश करता है और तुलना करता है जो आपको सबसे अच्छा परिणाम / व्याख्या देता है।


1

पहले से बताए गए अच्छे अंकों के पूरक के लिए:

से क्या हम असली दुनिया वर्गीकरण समस्याओं का समाधान करने के लिए classifiers के सैकड़ों की आवश्यकता है? यादृच्छिक जंगलों में यादृच्छिक जंगलों की तुलना में बेहतर प्रदर्शन प्राप्त करने की अधिक संभावना है।

इसके अलावा, जिस तरह से एल्गोरिदम लागू किया जाता है (और सैद्धांतिक कारणों से) यादृच्छिक वन आमतौर पर (गैर रेखीय) एसवीएम की तुलना में बहुत तेज होते हैं। दरअसल @ इयानोक के रूप में, एसवीएम 10 000 डेटा बिंदुओं से परे अनुपयोगी हैं।

हालांकि, SVM को कुछ विशिष्ट डेटासेट्स (चित्र, माइक्रोएरे डेटा ...) पर बेहतर प्रदर्शन करने के लिए जाना जाता है।

तो, एक बार फिर, क्रॉस सत्यापन वास्तव में यह जानने का सबसे अच्छा तरीका है कि कौन सी विधि सबसे अच्छा प्रदर्शन करती है।

स्रोत: रैंडम वन बनाम एसवीएम


उम? "यादृच्छिक जंगलों में यादृच्छिक जंगलों की तुलना में बेहतर प्रदर्शन प्राप्त करने की अधिक संभावना है।"
संजय मनोहर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.