क्या रैंडम फ़ॉरेस्ट के साथ मॉडलिंग को क्रॉस-मान्यता की आवश्यकता है?


23

जहाँ तक मैंने देखा है, इस बारे में राय अलग-अलग है। सबसे अच्छा अभ्यास निश्चित रूप से क्रॉस-वैलिडेशन का उपयोग करके निर्देशित करेगा (विशेषकर यदि एक ही डेटासेट पर अन्य एल्गोरिदम के साथ आरएफ की तुलना करें)। दूसरी ओर, मूल स्रोत बताता है कि मॉडल प्रशिक्षण के दौरान ओओबी त्रुटि की गणना की जाती है, यह परीक्षण सेट प्रदर्शन के एक संकेतक के लिए पर्याप्त है। यहां तक ​​कि ट्रेवर हस्ती, अपेक्षाकृत हाल की वार्ता में कहते हैं कि "रैंडम फ़ॉरेस्ट मुफ्त क्रॉस-मान्यता प्रदान करते हैं"। सहज रूप से, यह मेरे लिए समझ में आता है, अगर प्रशिक्षण और एक डेटासेट पर आरएफ-आधारित मॉडल को बेहतर बनाने की कोशिश कर रहा है।

क्या कोई यादृच्छिक जंगलों के साथ क्रॉस-वैलिडेशन की आवश्यकता के खिलाफ तर्क दे सकता है?


स्पष्ट रूप से राय मांगने वाले प्रश्न आमतौर पर स्टैक एक्सचेंज साइटों, डेटासाइंस.स्टैकएक्सचेंज.com / help / dont-ask पर हतोत्साहित किए जाते हैं , शायद आप उपयोगकर्ताओं के अनुभव के समर्थन में उदाहरणों की आवश्यकता के लिए प्रश्न को फिर से लिख सकते हैं? या एक स्थिति या दूसरे के लिए एक सैद्धांतिक आधार चाहते हैं।
image_doctor

2
रैंडम फ़ॉरेस्ट की अन्य एमएल एल्गोरिदम से अधिक होने की संभावना कम है, लेकिन क्रॉस-वैलिडेशन (या मूल्यांकन के कुछ वैकल्पिक रूप से होल्ड-आउट) की अभी भी सिफारिश की जानी चाहिए।
डेविड

मुझे लगता है कि आप सांख्यिकीविद् एसओ: सांख्यिकी.स्टैकएक्सचेंज डॉट कॉम
मार्सिन

मैं दूसरा @David ... एक रास्ता या कोई अन्य, आप क्रॉस सत्यापन करने जा रहे हैं।

क्या आप ट्रेवर हस्ती द्वारा दावा किए गए बयान के लिए एक संदर्भ प्रदान कर सकते हैं?
टिपनेवेरेला

जवाबों:


7

डिफ़ॉल्ट रैंडम फ़ॉरेस्ट द्वारा प्रशिक्षण के लिए 2/3 डेटा चुना जाता है और प्रतिगमन के लिए परीक्षण के लिए आराम और लगभग 70% प्रशिक्षण के लिए डेटा और वर्गीकरण के दौरान आराम करने के लिए। लेकिन यह सिद्धांत है क्योंकि यह प्रत्येक पेड़ के विभाजन के दौरान चर चयन को यादृच्छिक करता है, इसके विपरीत ओवरफिट होने का खतरा नहीं है अन्य मॉडल। जब भी आप sklearn में nfolds का उपयोग करके CV का उपयोग करना चाहते हैं, तब भी आप oob_score (बैग से बाहर) जैसे सेट आउट की अवधारणा का उपयोग कर सकते हैं = सही जो CV के उपयोग के साथ या उसके बिना मॉडल प्रदर्शन दिखाता है। तो संक्षेप में oob_score का उपयोग करना = सही या बिना nfolds के स्वयं यह बता सकता है कि क्या CV का उपयोग करना आपके डेटा के लिए अच्छा है। आमतौर पर यदि आपका लक्ष्य एक निश्चित वितरण का अनुसरण कर रहा है और आपके पास बहुत अवलोकन डेटा नहीं है, तो CV का उपयोग करना नहीं देगा। बहुत सुधार।


5

एक महत्वपूर्ण अंतर यह है कि क्रॉस सत्यापन यह सुनिश्चित करता है कि सभी नमूने प्रशिक्षण और परीक्षण सेट में दिखाई देंगे, इसलिए आपके 100% डेटा का उपयोग प्रशिक्षण और परीक्षण के लिए कुछ बिंदुओं पर किया जाता है।

आपके डेटासेट के आकार के आधार पर, बूटस्ट्रैपिंग, प्रतिस्थापन के साथ नमूना करना, यादृच्छिक वन में होने से उन पेड़ों को विभाजित करने की गारंटी नहीं होगी जो देखते हैं कि सभी उदाहरण होंगे। यदि आपके पास अपने जंगल में पर्याप्त पेड़ हैं तो OOB अनुमान को सबसे अच्छा OOB अनुमान मूल्य की ओर अभिसरण करना चाहिए।

दोनों तरीकों के लिए सटीकता कुछ हद तक डेटा पर निर्भर होगी, इसलिए आपके सामने मौजूद किसी विशेष डेटा पर दोनों तरीकों की तुलना करना विवेकपूर्ण हो सकता है और देखें कि क्या CV और RF OOB अनुमान समान मान देते हैं।

यदि वे नहीं करते हैं, तो यह सही त्रुटि दर के आगे के अनुमानों को तलाशने के लायक होगा, शायद सीवी में कश्मीर के बहुत अधिक घाटियों द्वारा।


3

मैंने 50k पंक्तियों के डेटा सेट पर कुछ परीक्षण किए, उपयोग किए sklearn.RandomForestRegressor

मुझे महत्वपूर्ण रूप से अलग-अलग स्कोर मिलते हैं - मैं मीट्रिक के लिए एक सामान्यीकृत rf.oob_prediction_गिन्नी का उपयोग कर रहा हूं - इस पर निर्भर करता है कि मैं (0.2927) या केफोल्ड सीवी (7 सिलवटों के लिए 0.3258 और 3 सिलवटों के लिए 0.3236) का उपयोग करता हूं ।

इसके साथ, यह "विशेष रूप से अगर एक ही डाटासेट पर अन्य एल्गोरिदम के साथ आरएफ की तुलना" के बारे में आपकी बात प्रकट होती है, तो ओओबी भविष्यवाणी पर भरोसा करने के बजाय मैनुअल सीवी का उपयोग करने के लिए एक मजबूत विचार है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.