क्या प्रतिगमन 'सत्य' प्रतिगमन के लिए यादृच्छिक वन है?


18

रेजीमेंट के लिए यादृच्छिक जंगलों का उपयोग किया जाता है। हालांकि, जो मैं समझता हूं, वे प्रत्येक पत्ती पर औसत लक्ष्य मान प्रदान करते हैं। चूंकि प्रत्येक पेड़ में केवल सीमित पत्ते होते हैं, केवल विशिष्ट मूल्य हैं जो लक्ष्य हमारे प्रतिगमन मॉडल से प्राप्त कर सकते हैं। इस प्रकार यह केवल एक 'असतत' प्रतिगमन (एक कदम समारोह की तरह) नहीं है और न कि रैखिक प्रतिगमन की तरह है जो 'निरंतर' है?

क्या मुझे ये ठीक तरह से समझ आ रहा है? यदि हाँ, तो प्रतिगमन में रैंडम फ़ॉरेस्ट का क्या लाभ है?


जवाबों:


23

यह सही है - यादृच्छिक वन निरंतर चर का विवेचन करते हैं क्योंकि वे निर्णय पेड़ों पर आधारित होते हैं, जो पुनरावर्ती बाइनरी विभाजन के माध्यम से कार्य करते हैं। लेकिन पर्याप्त डेटा और पर्याप्त विभाजन के साथ, कई छोटे चरणों के साथ एक चरण फ़ंक्शन एक चिकनी फ़ंक्शन का अनुमान लगा सकता है। तो यह एक समस्या नहीं है। यदि आप वास्तव में एक एकल भविष्यवक्ता द्वारा एक चिकनी प्रतिक्रिया पर कब्जा करना चाहते हैं, तो आप किसी विशेष चर के आंशिक प्रभाव की गणना करते हैं और इसके लिए एक चिकनी फ़ंक्शन फिट करते हैं (यह स्वयं मॉडल को प्रभावित नहीं करता है, जो इस चरणबद्ध चरित्र को बनाए रखेगा)।

यादृच्छिक जंगलों कुछ अनुप्रयोगों के लिए मानक प्रतिगमन तकनीकों पर काफी लाभ प्रदान करते हैं। सिर्फ तीन का उल्लेख करने के लिए:

  1. वे मनमाने ढंग से कई भविष्यवक्ताओं के उपयोग की अनुमति देते हैं (डेटा बिंदुओं की तुलना में अधिक भविष्यवक्ता संभव है)
  2. वे एक प्राथमिकता विनिर्देश के बिना जटिल अरेखीय आकृतियों को अनुमानित कर सकते हैं
  3. वे प्राथमिकताओं विनिर्देश के बिना भविष्यवाणियों के बीच जटिल बातचीत पर कब्जा कर सकते हैं ।

के रूप में चाहे वह एक 'सच' प्रतिगमन है, यह कुछ अर्थ है। आखिरकार, टुकड़ा-टुकड़ा प्रतिगमन भी प्रतिगमन है, लेकिन यह भी चिकना नहीं है। जैसा कि एक श्रेणीबद्ध भविष्यवक्ता के साथ कोई प्रतिगमन है, जैसा कि नीचे टिप्पणी में बताया गया है।


7
इसके अलावा, केवल स्पष्ट सुविधाओं के साथ प्रतिगमन भी सहज नहीं होगा।
टिम

3
क्या एक श्रेणीगत सुविधा वाला एक प्रतिगमन सुचारू हो सकता है?
डेव

4

यह असतत है, लेकिन फिर निश्चित संख्या में बिट्स के साथ एक फ्लोटिंग पॉइंट नंबर के रूप में कोई भी आउटपुट असतत होगा। यदि किसी पेड़ में 100 पत्ते हैं, तो वह 100 अलग-अलग संख्या दे सकता है। यदि आपके पास प्रत्येक के साथ 100 अलग-अलग पेड़ हैं, तो आपके यादृच्छिक जंगल में सैद्धांतिक रूप से 100 ^ 100 विभिन्न मूल्य हो सकते हैं, जो सटीकता के 200 (दशमलव) अंक, या ~ 600 बिट्स दे सकते हैं। बेशक, कुछ ओवरलैप होने जा रहे हैं, इसलिए आप वास्तव में 100 ^ 100 विभिन्न मूल्यों को देखने नहीं जा रहे हैं। वितरण आपको अधिक चरम सीमा तक पहुंचाने की कोशिश करता है; प्रत्येक पेड़ में कुछ न्यूनतम पत्ती (एक पत्ती जो एक आउटपुट देती है जो अन्य सभी पत्तियों से कम या बराबर होती है), और एक बार जब आप प्रत्येक पेड़ से न्यूनतम पत्ती प्राप्त करते हैं, तो आपको कोई कम नहीं मिल सकता है। तो वहाँ जंगल के लिए कुछ न्यूनतम समग्र मूल्य होने जा रहा है, और जब आप उस मूल्य से विचलित हो जाते हैं, तो आप सभी के साथ शुरू करने जा रहे हैं, लेकिन कुछ पेड़ अपने न्यूनतम पत्ते पर होते हैं, जिससे असतत कूद में न्यूनतम मूल्य वृद्धि से छोटे विचलन होते हैं। लेकिन चरम सीमाओं पर घटी हुई विश्वसनीयता सामान्य रूप से प्रतिगमन की संपत्ति है, न कि केवल यादृच्छिक वन।


प्रशिक्षण डेटा से पत्ते किसी भी मूल्य को संग्रहीत कर सकते हैं (इसलिए सही प्रशिक्षण डेटा के साथ, 100 पत्तियों के 100 पेड़ 10,000 अलग-अलग मूल्यों तक स्टोर कर सकते हैं)। लेकिन लौटाया गया मूल्य प्रत्येक पेड़ से चुने हुए पत्ते का मतलब है। तो उस मान की सटीकता की बिट्स की संख्या समान है चाहे आपके पास 2 पेड़ हों या 100 पेड़ हों।
डैरेन कुक

3

उत्तर इस बात पर निर्भर करेगा कि प्रतिगमन की आपकी परिभाषा क्या है, प्रतिगमन मॉडल की परिभाषा और परिसीमन देखें । लेकिन एक सामान्य परिभाषा (या एक परिभाषा का हिस्सा) वह प्रतिगमन मॉडल सशर्त अपेक्षा है । और एक प्रतिगमन वृक्ष को वास्तव में सशर्त अपेक्षा के अनुमानक के रूप में देखा जा सकता है।

लीफ नोड्स में आप उस पत्ती तक पहुँचने वाले नमूना अवलोकनों के औसत का अनुमान लगाते हैं, और एक अंकगणितीय माध्य एक अपेक्षा का अनुमानक होता है। पेड़ में शाखा पैटर्न कंडीशनिंग का प्रतिनिधित्व करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.