क्या रैंडम फ़ॉरेस्ट मेथडोलॉजी को रैखिक प्रतिगमन पर लागू किया जा सकता है?


14

रैंडम फ़ॉरेस्ट निर्णय पेड़ों की एक टुकड़ी बनाकर काम करते हैं जहां प्रत्येक पेड़ मूल प्रशिक्षण डेटा (इनपुट चर और टिप्पणियों दोनों का नमूना) के बूटस्ट्रैप नमूने का उपयोग करके बनाया जाता है।

क्या रेखीय प्रतिगमन के लिए एक समान प्रक्रिया लागू की जा सकती है? प्रत्येक k regressions के लिए एक यादृच्छिक बूटस्ट्रैप नमूने का उपयोग कर k रैखिक प्रतिगमन मॉडल बनाएँ

मॉडल की तरह "यादृच्छिक प्रतिगमन" बनाने के लिए क्या कारण नहीं हैं?

धन्यवाद। अगर कुछ ऐसा है जो मैं सिर्फ बुनियादी तौर पर गलत समझ रहा हूं तो कृपया मुझे बताएं।


जब बूटस्ट्रैप एग्रीगेटिंग ट्री होता है, तो समग्र रिग्रेशन फ़ंक्शन अधिक से अधिक जटिल हो जाता है, जिसमें हर एक पेड़ जुड़ता है। दूसरी ओर, जब बूटस्ट्रैप फॉर्म के रैखिक कार्यों को एकत्र करता है a_0 + a_1 * x_1 + ... + a_d * x_d, तो परिणामी औसतन रैखिक फ़ंक्शन (बूटस्ट्रैप एग्रीगेटिंग के बाद) में अभी भी वही रैखिक कार्यात्मक रूप होता है, जिसे आप शुरू करते हैं (यानी 'बेस लर्नर')।
आंद्रे होल्जनर

1
@Andre Holzner - जिसे आप इसे सच कहते हैं, लेकिन, लेकिन, लेकिन ... इस यादृच्छिक फॉरेस्ट को करना वास्तव में रेगुलराइजेशन का एक रूप है, जो एक समान कक्षा में है। मैं आपको एक रहस्य बताऊंगा, एक प्रतिगमन वृक्ष वास्तव में एक रैखिक मॉडल है - स्पाइन के समान वर्ग। मेरी बेयसियन टोपी को डालते हुए, यादृच्छिक फॉरेस्ट रेग्युलर संभवतः बेयसियन संदर्भ में उपयोग किए जाने वाले "स्पाइक और स्लैब" के पुजारियों के लगभग अनुरूप होंगे।
प्रोबेबिलिसोलॉजिक

@probabilityislogic, क्या आप समझा सकते हैं?
साइमन कुआंग

आप रेखीय मॉडल के रूप में पेड़ों की सोच सकते हैं जेड टी यह दर्शाता है एक डिजाइन मैट्रिक्स जो टर्मिनल नोड प्रत्येक अवलोकन पेड़ के लिए के अंतर्गत आता है है टी , और θ टी टर्मिनल नोड भविष्यवाणियों की इसी वेक्टर है। किसी भी पेड़ को इस तरह से वर्णित किया जा सकता है - एक पेड़ चुनना मानक रैखिक मॉडल चयन के बराबर है जेड टी का स्थान - जिसमें से 2 n संभव है "टर्मिनल नोड" cconfigurations मुझे लगता है (जहां n प्रशिक्षण नमूना आकार है)। y=Ztθt+eZttθtZt2nn
प्रोबेबिलिसोलॉजिक

जवाबों:


5

मैं वर्तमान उत्तरों से आंशिक रूप से असहमत हूं क्योंकि कार्यप्रणाली यादृच्छिक वन को स्वतंत्र बनाने के लिए विचरण (बूटस्ट्रैप किए गए नमूनों + यादृच्छिक उप-विधि विधि पर निर्मित कार्ट) का परिचय देता है। एक बार जब आपके पास ऑर्थोगोनल पेड़ होते हैं तो उनकी भविष्यवाणियों का औसत (कई मामलों में) औसत पेड़ की भविष्यवाणी से बेहतर होता है (जेन्सेन की असमानता के कारण)। हालांकि CART के ध्यान देने योग्य भत्ते हैं जब इस उपचार के अधीन यह पद्धति निश्चित रूप से किसी भी मॉडल पर लागू होती है और रैखिक मॉडल कोई अपवाद नहीं हैं। यहां एक आर पैकेज है जो वास्तव में आप देख रहे हैं। यह विषय पर धुन और उनकी व्याख्या और ग्रंथ सूची की व्याख्या करने के लिए एक अच्छा ट्यूटोरियल प्रस्तुत करता है: यादृच्छिक सामान्यीकृत रैखिक मॉडल


14

मशीन लर्निंग शब्दजाल के संदर्भ में @ ज़िग्सिस्टार की प्रतिक्रिया: बूटस्ट्रैप एकत्रीकरण तकनीकों (जैसे रैंडम फ़ॉरेस्ट) के पीछे का विचार "यादृच्छिकता" या "अस्थिरता" के कुछ तत्व के साथ डेटा के लिए कई निम्न-पूर्वाग्रह, उच्च-विचरण मॉडल फिट करना है। यादृच्छिक जंगलों के मामले में, अस्थिरता बूटस्ट्रैपिंग के माध्यम से और पेड़ के प्रत्येक नोड को विभाजित करने के लिए सुविधाओं का एक यादृच्छिक सेट चुनकर जोड़ा जाता है। इन शोरगुल, लेकिन कम पूर्वाग्रह के कारण, पेड़ किसी भी व्यक्तिगत पेड़ के उच्च विचरण को कम करते हैं।

जबकि प्रतिगमन / वर्गीकरण पेड़ "कम-पूर्वाग्रह, उच्च-विचरण" मॉडल हैं, रैखिक प्रतिगमन मॉडल आमतौर पर विपरीत होते हैं - "उच्च-पूर्वाग्रह, कम-विचरण"। इस प्रकार, समस्या अक्सर रैखिक मॉडल के साथ सामना करती है, पूर्वाग्रह को कम कर रही है, विचरण को कम नहीं कर रही है। बूटस्ट्रैप एकत्रीकरण बस ऐसा करने के लिए नहीं बना है।

एक अतिरिक्त समस्या यह है कि बूटस्ट्रैपिंग एक ठेठ रैखिक मॉडल में पर्याप्त "यादृच्छिकता" या "अस्थिरता" प्रदान नहीं कर सकती है। मैं एक प्रतिगमन वृक्ष को बूटस्ट्रैप नमूनों की यादृच्छिकता के प्रति अधिक संवेदनशील होने की उम्मीद करूंगा, क्योंकि प्रत्येक पत्ती में आमतौर पर केवल एक मुट्ठी भर डेटा बिंदु होते हैं। इसके अलावा, प्रतिगमन पेड़ प्रत्येक नोड पर चर के यादृच्छिक सबसेट पर पेड़ को विभाजित करके stochastically उगाया जा सकता है। यह महत्वपूर्ण क्यों है के लिए यह पिछला प्रश्न देखें: रैंडम फ़ॉरेस्ट को m यादृच्छिक विशेषताओं के आधार पर क्यों विभाजित किया जाता है?

कहा जा रहा है कि सभी, आप निश्चित रूप से रैखिक मॉडल [लिंक] पर बूटस्ट्रैपिंग का उपयोग कर सकते हैं , और यह कुछ संदर्भों में बहुत सहायक हो सकता है। हालांकि, प्रेरणा बूटस्ट्रैप एकत्रीकरण तकनीकों से बहुत अलग है।


लिंक और प्रतिक्रिया के लिए धन्यवाद। यदि यादृच्छिकता विधि "कम पूर्वाग्रह, उच्च विचरण" मॉडल के लिए उपयोगी है, तो क्या विपरीत प्रकार के मॉडल "उच्च पूर्वाग्रह, कम विचरण" से निपटने के लिए कोई पद्धति है?
रिक

यदि आपके पास कम पूर्वाग्रह, उच्च विचरण मॉडल है, तो बैगिंग जैसी कार्यप्रणालियां पूर्वाग्रह में मामूली वृद्धि पर विचरण को कम कर सकती हैं। यदि आपके पास उच्च पूर्वाग्रह, निम्न विचरण है, तो निम्न पूर्वाग्रह या उच्च विचरण वाले मॉडल का उपयोग करें - जैसे बहुपद प्रतिगमन या अधिक सामान्यतः कर्नेल विधियाँ।
जो

10

और यहाँ है कि यह "यादृच्छिक" करने के लिए उतना आकर्षक नहीं है जितना कि रैखिक मॉडल के साथ-साथ यह निर्णय पेड़ों के साथ है:

एक बड़े नमूने से बनाया गया एक बड़ा निर्णय पेड़ डेटा को ओवरफिट करने की बहुत संभावना है, और यादृच्छिक वन विधि कई छोटे पेड़ों के वोट पर भरोसा करके इस प्रभाव से लड़ती है।

दूसरी ओर रैखिक प्रतिगमन, एक ऐसा मॉडल है जो बहुत अधिक ग्रस्त नहीं है और इस तरह शुरुआत में इसे पूरे नमूने पर प्रशिक्षण देने से चोट नहीं लगती है। और यहां तक ​​कि अगर आपके पास कई प्रतिगामी चर हैं, तो आप ओवरफिटिंग से निपटने के लिए अन्य तकनीकों, जैसे कि नियमितीकरण, को लागू कर सकते हैं।


0

मैं @ziggystar से सहमत हूं। बूटस्ट्रैप नमूनों की संख्या के रूप मेंरेखीय मॉडल के अनन्तता, बैगेड अनुमान में परिवर्तित होता है, पूरे नमूने पर चलने वाले रैखिक मॉडल के OLS (साधारण जानवर वर्ग) का अनुमान लगाता है। यह साबित करने का तरीका यह है कि बूटस्ट्रैप "दिखावा" करता है कि जनसंख्या वितरण समान अनुभवजन्य वितरण है। जैसा कि आप इस अनुभवजन्य वितरण से अधिक से अधिक डेटा सेट का नमूना लेते हैं, अनुमानित हाइपरप्लेन का औसत ऑर्डिनरी लेस्टर वर्गों के स्पर्शोन्मुखी गुणों द्वारा "सच्चे हाइपरप्लेन" (जो पूरे डेटा पर ओएलएस अनुमान रन होता है) में परिवर्तित हो जाएगा।

इसके अलावा, बैगिंग हमेशा एक अच्छी बात नहीं है। इतना ही नहीं यह पूर्वाग्रह से नहीं लड़ता है, यह कुछ अजीबोगरीब मामलों में पूर्वाग्रह को बढ़ा सकता है । उदाहरण:

एक्स1,एक्स2,,एक्सn~बी(पी)
(बर्नौली परीक्षण जो प्रायिकता के साथ मान 1 लेते हैं पी और मान 0 संभावना के साथ 1-पी)। इसके अलावा, हम पैरामीटर को परिभाषित करते हैं
θ=1{पी>0}
और इसका अनुमान लगाने की कोशिश करें। स्वाभाविक रूप से, यह एक एकल डेटा बिंदु को देखने के लिए पर्याप्त हैएक्समैं=1 इसको जानने के लिए θ=1। पूरे नमूने में ऐसा डेटा बिंदु हो सकता है और हमें अनुमान लगाने की अनुमति देता हैθबिना किसी त्रुटि के। दूसरी ओर, किसी भी बूटस्ट्रैप नमूने में ऐसा डेटा बिंदु नहीं हो सकता है और हमें गलत अनुमान लगाने के लिए प्रेरित कर सकता हैθ0 के साथ (हम यहाँ कोई बायेसियन फ्रेमवर्क नहीं अपनाते हैं, अधिकतम संभावना की पुरानी पुरानी विधि को पूरा करता है)। दूसरे शब्दों में,
Biaरों bagजीमैंnजी=पीआर(मैंn  टीरोंटीआरपी रोंपीएल एक्स(1)==एक्स(n)=0)>0,
सशर्त θ=1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.