क्या यादृच्छिक वन बहुत छोटे डेटा सेट के लिए उपयुक्त है?


13

मेरे पास मासिक डेटा की 24 पंक्तियों को मिलाकर डेटा सेट है। जीडीपी, एयरपोर्ट आगमन, महीना और कुछ अन्य सुविधाएं हैं। आश्रित चर एक लोकप्रिय पर्यटन स्थल पर आगंतुकों की संख्या है। क्या रैंडम फॉरेस्ट ऐसी समस्या के लिए उपयुक्त होगा?

डेटा गैर सार्वजनिक हैं इसलिए मैं एक नमूना पोस्ट करने में असमर्थ हूं।


आमतौर पर यादृच्छिक वन पर एक प्रतिबंध यह है कि आपकी सुविधाओं की संख्या काफी बड़ी होनी चाहिए - आरएफ का पहला चरण एक पेड़ बनाने के लिए 1 / 3n या sqrt (n) सुविधाओं का चयन करना है (कार्य, प्रतिगमन / वर्गीकरण के आधार पर)। इसलिए यदि आपके पास बहुत सारी विशेषताएं हैं, तो छोटे डेटासेट पर भी आरएफ का उपयोग करें - कोई एल्गोरिथ्म नहीं है जो छोटे डेटासेट पर वास्तव में अच्छा काम करता है, ताकि कुछ भी न हो।
जर्मन डेमिडोव

आप कम रेंज में हैं। आरएफ काम करेगा, लेकिन शायद अधिक जटिल चीजें नहीं सीखेंगे, कच्चे डेटा पर अभिनीत होने से आप क्या महसूस कर सकते हैं। यह मदद करता है, अगर आपका डेटा बहुत कम शोर है। 40-50 नमूनों से यह बेहतर होने लगता है। 500 अच्छा है। 5000 का कमाल।
सोरेन हवेलुंड वेलिंग

प्रतिगमन के लिए संभव पेड़ की गहराई मिननोड = 5 द्वारा सीमित है, इस प्रकार आपके नमूने औसतन 2 से अधिक बार विभाजित नहीं होंगे [[24 -> (1) 12 -> (2) 6.]] एमट्री सीमा सहित, मॉडल में किसी भी इंटरैक्शन प्रभाव या साधारण गैर-रैखिक प्रभाव को कैप्चर करने में कठिन समय होगा। आप मिननोड और एमट्री के साथ फील कर सकते हैं, लेकिन आपको केवल यही करना चाहिए कि यदि आपका डेटा व्यावहारिक रूप से शोर कम है। फिट किए गए निष्कर्ष पर संभावित फ्लिपसाइड होगा। आप प्राप्त कर रहे हैं मॉडल संरचना एक मोटे तौर पर smoothed कदम समारोह की तरह दिखेगा।
सोरेन हवेलुंड वेलिंग


छोटे डेटासेट के लिए, क्रॉस सत्यापन तकनीक का उपयोग करें। अधिक जानकारी के लिए, आंकड़े
आसिफ खान

जवाबों:


4

बेतरतीब जंगल मूल रूप से नमूने पर बूटस्ट्रैप रिस्पॉन्सिंग और प्रशिक्षण निर्णय पेड़ हैं, इसलिए आपके प्रश्न का उत्तर उन दो को संबोधित करने की आवश्यकता है।

बूटस्ट्रैप resampling है छोटे नमूनों के लिए एक इलाज नहीं । यदि आपके डेटासेट में केवल चौबीस अवलोकन हैं, तो इस डेटा से प्रतिस्थापन के साथ लिए गए प्रत्येक नमूने में चौबीस अलग-अलग मान नहीं होंगे। मामलों में फेरबदल करना और उनमें से कुछ को न खींचना अंतर्निहित वितरण के बारे में कुछ भी नया सीखने की आपकी क्षमता के बारे में बहुत कुछ नहीं बदलेगा। तो एक छोटा सा नमूना है बूटस्ट्रैप के लिए एक समस्या।

निर्णय वृक्षों को एक समय में एक चर, पूर्ववर्ती चर पर सशर्त रूप से डेटा को विभाजित करके प्रशिक्षित किया जाता है, ताकि ऐसे उपसमूहों का पता लगाया जा सके जिनमें सबसे बड़ी भेदभावकारी शक्ति होती है। यदि आपके पास केवल चौबीस मामले हैं, तो कहें कि यदि आप भाग्यशाली थे और सभी विभाजन भी आकार में थे, तो दो विभाजन के साथ, आप छह मामलों के चार समूहों के साथ, पेड़ के विभाजन के साथ, तीन के आठ समूहों के साथ समाप्त होंगे। यदि आपने नमूनों पर सशर्त साधनों की गणना की है (प्रतिगमन पेड़ों में निरंतर मूल्यों की भविष्यवाणी करने के लिए, या निर्णय पेड़ों में सशर्त संभावनाएं), तो आप केवल उन कुछ मामलों पर अपने निष्कर्ष को आधार बनाएंगे! इसलिए जिन उप-नमूनों का उपयोग आप निर्णय लेने के लिए करेंगे, वे आपके मूल डेटा से भी छोटे होंगे।

छोटे नमूनों के साथ आमतौर पर सरल तरीकों का उपयोग करना बुद्धिमान होता है । इसके अलावा, आप बायेसियन सेटिंग में जानकारीपूर्ण पुजारियों का उपयोग करके छोटे नमूने को पकड़ सकते हैं (यदि आपके पास समस्या के बारे में कोई उचित डेटा है), तो आप कुछ दर्जी बायेसियन मॉडल का उपयोग करने पर विचार कर सकते हैं।


1

एक तरफ, यह एक छोटा डेटा सेट है, और यादृच्छिक वन डेटा-भूख है।

दूसरी ओर, शायद कुछ भी नहीं से बेहतर है। "इसे आज़माएं और देखें" के अलावा और कुछ नहीं है। आपको यह तय करना है कि कोई विशेष मॉडल "अच्छा" है या नहीं? इसके अलावा, हम आपको यह नहीं बता सकते हैं कि क्या कोई मॉडल किसी विशेष उद्देश्य के लिए फिट है (और न ही आप हमें चाहते हैं - यदि हम गलत हैं तो हमारे लिए कोई कीमत नहीं है!)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.