निर्णय पेड़ और प्रतिगमन - क्या अनुमानित मूल्यों को प्रशिक्षण डेटा के बाहर सीमा हो सकती है?


12

जब पेड़ों पर निर्णय लेने की बात आती है, तो क्या अनुमानित मूल्य प्रशिक्षण डेटा की सीमा के बाहर हो सकता है?

उदाहरण के लिए, यदि प्रशिक्षण डेटा लक्ष्य श्रेणी की रेंज 0-100 है, जब मैं अपना मॉडल तैयार करता हूं और इसे किसी और चीज पर लागू करता हूं, तो क्या मेरा मान -5 हो सकता है? या 150?

यह देखते हुए कि निर्णय वृक्ष प्रतिगमन के बारे में मेरी समझ यह है कि यह अभी भी एक नियम है - बाएँ / दाएँ प्रगति और प्रशिक्षण सेट में पेड़ के नीचे स्थित यह एक निश्चित सीमा के बाहर कभी भी मूल्य नहीं देख सकता है, यह कभी भी सक्षम नहीं होगा इसकी भविष्यवाणी करें?


1
ग्रेडिएंट- बूस्टेड
एड्रियन

जवाबों:


11

आप पूरी तरह से सही हैं: शास्त्रीय निर्णय के पेड़ ऐतिहासिक रूप से देखे गए सीमा के बाहर मूल्यों की भविष्यवाणी नहीं कर सकते हैं । वे अतिरिक्त नहीं करेंगे।

वही यादृच्छिक जंगलों पर लागू होता है।

सैद्धांतिक रूप से, आप कभी-कभी कुछ अधिक विस्तृत आर्किटेक्चर (बोटोक्स?) की चर्चा करते हैं, जहां पेड़ के पत्ते एक भी मूल्य नहीं देते हैं , लेकिन एक साधारण प्रतिगमन होते हैं , उदाहरण के लिए, एक विशेष संख्यात्मक स्वतंत्र चर पर निर्भर चर को पुन: प्राप्त करना। पेड़ के माध्यम से नेविगेट करने से आपको एक नियम निर्धारित होगा कि किस संख्यात्मक IV पर किस मामले में DV को फिर से प्राप्त करना है। ऐसे मामले में, यह "निचला स्तर" प्रतिगमन को अभी तक देखे गए मूल्यों को प्राप्त करने के लिए अतिरिक्त नहीं किया जा सकता है।

हालाँकि, मुझे नहीं लगता है कि मानक मशीन लर्निंग लाइब्रेरी इसे कुछ अधिक जटिल संरचना प्रदान करते हैं (मैंने हाल ही में इसके लिए क्रैन टास्क व्यूज़ फॉर आर के माध्यम से देखा था), हालांकि वास्तव में इसके बारे में कुछ भी जटिल नहीं होना चाहिए। आप अपने स्वयं के पेड़ को पत्तियों में प्रतिगमन युक्त लागू करने में सक्षम हो सकते हैं।


1
मैं कम mobForest जो आर में समर्थन पत्ती प्रतिगमन कर के बारे में पढ़ा है, stats.stackexchange.com/questions/48475/mobforest-r-package
सोरेन Havelund Welling

1
@SorenHavelundWelling: जो दिलचस्प लगता है। सूचक के लिए धन्यवाद!
Stephan Kolassa

1
एक पेड़ की पत्तियों में रैखिक प्रतिगमन मॉडल प्रदान करने वाले पहले एल्गोरिदम में से एक क्विनलान का M5 था, जिसका एक अनुमान We5 में M5P () में उपलब्ध है (RWeka के माध्यम से आर में दखल)। समस्या के लिए एक निष्पक्ष एल्गोरिथ्म, जिसे GUIDE कहा जाता है, पहले लोह द्वारा सुझाया गया था। उनके स्टैंडअलोन पैकेज के लिए बायनेरिज़ उनकी वेबसाइट पर हैं। अंत में, हमारा मॉडल-आधारित (एमओबी) पुनरावर्ती विभाजन एल्गोरिथ्म ऐसे विभिन्न मॉडलों को शामिल करता है। यह आर पैकेज पार्टीकिट में उपलब्ध है: भीड़ () सामान्य उपकरण है और lmtree () और glmtree () पत्तियों में (सामान्यीकृत) रैखिक मॉडल के साथ पेड़ों के लिए इसका अनुकूलन है।
अचिम जीलीस


1
बस एक सिर है कि mobForest CRAN पर वापस आ गया है: cran.r-project.org/web/packages/mobForest/index.html
मोनिका

7

इसके अलावा बाहर की जाँच क्यूबिस्ट कैरट पैकेज में। यह टर्मिनल नोड्स में रैखिक प्रतिगमन बनाता है और प्रशिक्षण डेटा में प्रतिक्रिया मूल्यों की सीमा से ऊपर और नीचे भविष्यवाणियों को एक्सट्रपलेशन कर सकता है। टर्मिनल नोड्स को निकटतम पड़ोसियों के आधार पर भी औसतन किया जा सकता है जो हाइपरपरमीटर के रूप में प्रदान किया जाता है, इसलिए इसमें अत्यंत सटीक क्रॉस मान्य पूर्वानुमान प्रदान करने की क्षमता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.