एक वन वृक्ष / यादृच्छिक वन वृक्ष में एकल निर्णय वृक्ष की तुलना में अधिक पूर्वाग्रह क्यों होता है?


11

यदि हम पूर्ण विकसित निर्णय वृक्ष (यानी एक अप्रत्याशित निर्णय वृक्ष) पर विचार करते हैं तो इसमें उच्च विचरण और निम्न पूर्वाग्रह होते हैं।

बैगिंग और रैंडम फ़ॉरेस्ट इन उच्च विचरण मॉडल का उपयोग करते हैं और विचरण को कम करने के लिए उन्हें एकत्र करते हैं और इस प्रकार भविष्यवाणी सटीकता को बढ़ाते हैं। बैगिंग और रैंडम फ़ॉरेस्ट दोनों बूटस्ट्रैप नमूने का उपयोग करते हैं, और जैसा कि "सांख्यिकीय शिक्षा के तत्वों" में वर्णित है, यह एकल पेड़ में पूर्वाग्रह बढ़ाता है।

इसके अलावा, चूंकि रैंडम फ़ॉरेस्ट विधि प्रत्येक नोड पर विभाजित होने के लिए अनुमत चर को सीमित करती है, इसलिए एकल रैंडम फ़ॉरेस्ट ट्री के लिए पूर्वाग्रह और भी अधिक बढ़ जाता है।

इस प्रकार, भविष्यवाणी की सटीकता केवल तभी बढ़ जाती है, जब बैगिंग और रैंडम फ़ॉरेस्ट में एकल पेड़ों के पूर्वाग्रह में वृद्धि विचरण में कमी को "ओवरशाइन" नहीं करती है।

यह मुझे निम्नलिखित दो प्रश्नों की ओर ले जाता है: 1) मुझे पता है कि बूटस्ट्रैप नमूने के साथ, हम (लगभग हमेशा) बूटस्ट्रैप नमूने में कुछ समान अवलोकन करेंगे। लेकिन ऐसा क्यों होता है कि बगिंग / रैंडम फ़ॉरेस्ट में व्यक्तिगत पेड़ों के पूर्वाग्रह में वृद्धि हुई है? 2) इसके अलावा, प्रत्येक वनों में विभाजित करने के लिए उपलब्ध चर पर सीमा यादृच्छिक जंगलों में व्यक्तिगत पेड़ों में उच्च पूर्वाग्रह की ओर क्यों ले जाती है?

जवाबों:


5

मैं कुनलुन से 1) पर उत्तर स्वीकार करूंगा, लेकिन इस मामले को बंद करने के लिए, मैं यहां उन दो प्रश्नों के निष्कर्ष दूंगा, जो मैं अपनी थीसिस तक पहुंच गया था (जो दोनों मेरे पर्यवेक्षक द्वारा स्वीकार किए गए थे):

1) अधिक डेटा बेहतर मॉडल का उत्पादन करता है, और चूंकि हम मॉडल (बूटस्ट्रैप) को प्रशिक्षित करने के लिए केवल संपूर्ण प्रशिक्षण डेटा का हिस्सा उपयोग करते हैं, प्रत्येक पेड़ में उच्च पूर्वाग्रह होता है (कुनलुन द्वारा उत्तर से कॉपी)

2) रैंडम फ़ॉरेस्ट एल्गोरिथ्म में, हम प्रत्येक विभाजन को विभाजित करने के लिए चर की संख्या को सीमित करते हैं - यानी हम अपने डेटा की व्याख्या करने के लिए चर की संख्या को सीमित करते हैं। फिर, प्रत्येक पेड़ में उच्च पक्षपात होता है।

निष्कर्ष: दोनों स्थितियां जनसंख्या को समझाने की हमारी क्षमता को सीमित करने का मामला हैं: पहले हम टिप्पणियों की संख्या को सीमित करते हैं, फिर हम प्रत्येक विभाजन में विभाजित होने के लिए चर की संख्या को सीमित करते हैं। दोनों सीमाएं प्रत्येक पेड़ में उच्च पूर्वाग्रह की ओर ले जाती हैं, लेकिन अक्सर मॉडल में विचरण में कमी प्रत्येक पेड़ में पूर्वाग्रह में वृद्धि करती है, और इस प्रकार बगिंग और रैंडम वन केवल एक निर्णय वृक्ष की तुलना में बेहतर मॉडल का उत्पादन करते हैं।


-1

आपके प्रश्न बहुत सीधे हैं। 1) अधिक डेटा बेहतर मॉडल का उत्पादन करता है, क्योंकि आप केवल अपने मॉडल (बूटस्ट्रैप) को प्रशिक्षित करने के लिए पूरे प्रशिक्षण डेटा का हिस्सा उपयोग करते हैं, उच्च पूर्वाग्रह उचित है। 2) अधिक बंटवारे का अर्थ है गहरे पेड़, या शुद्ध नोड्स। यह आमतौर पर उच्च विचरण और निम्न पूर्वाग्रह की ओर जाता है। यदि आप विभाजन, कम विचरण और उच्च पूर्वाग्रह को सीमित करते हैं।


4
मैं 1 के लिए तर्क को नहीं खरीदता हूं), क्योंकि प्रत्येक बूटस्ट्रैप नमूना समान रूप से संभावना है, और पूर्वाग्रह औसत मॉडल के व्यवहार के बारे में है। ऐसा लगता है कि यह उससे अधिक सूक्ष्म होना चाहिए। मैं यह भी नहीं सोचता कि 2) पूछे गए सवाल को संबोधित करता है। पोस्टर का अर्थ "सीमा के विभाजन" नहीं है जैसा कि "बढ़ने वाले पेड़ों में" होता है।
मैथ्यू ड्र्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.