क्या पेड़ के आकलनकर्ता हमेशा से पक्षपाती हैं?


9

मैं निर्णय पेड़ों पर एक होमवर्क कर रहा हूं, और मुझे जिन सवालों का जवाब देना है उनमें से एक है "क्यों अनुमान लगाने वाले पेड़ों से पक्षपाती होते हैं, और कैसे बैगिंग उनके विचरण को कम करने में मदद करता है?"।

अब, मुझे पता है कि ओवरफ़ीड मॉडल में वास्तव में कम पूर्वाग्रह होते हैं, क्योंकि वे सभी डेटा बिंदुओं को फिट करने की कोशिश करते हैं। और, मेरे पास पाइथन में एक स्क्रिप्ट थी जो एक ट्री को कुछ डेटासेट (एक फीचर के साथ) में फिट करती थी। यह सिर्फ एक साइनसॉइड था, जिसमें कुछ ऑफ पॉइंट्स, नीचे दी गई तस्वीर)। इसलिए, मुझे आश्चर्य हुआ कि "यदि मैं डेटा को बहुत अधिक मानता हूं, तो क्या मैं पूर्वाग्रह को शून्य कर सकता हूं?" और, यह पता चला कि, 10000 की गहराई के साथ, अभी भी कुछ बिंदु हैं जिनके माध्यम से वक्र पास नहीं होता है।

यहाँ छवि विवरण दर्ज करें

मैंने क्यों खोज करने की कोशिश की, लेकिन मैं वास्तव में स्पष्टीकरण नहीं पा सका। मैं अनुमान लगा रहा हूं कि कुछ पेड़ हो सकते हैं जो पूरी तरह से सभी बिंदुओं से गुजरेंगे, और जो मुझे मिला वह सिर्फ "बुरा भाग्य" था। या कि शायद एक अलग डेटासेट ने मुझे एक निष्पक्ष परिणाम दिया हो (हो सकता है कि एक पूर्ण साइनसॉइड?)। या यहां तक ​​कि, शायद शुरुआत में किए गए कटौती ने आगे के कटों के लिए सभी बिंदुओं को पूरी तरह से अलग करना असंभव बना दिया।

इसलिए, इस डेटासेट को ध्यान में रखते हुए (क्योंकि यह दूसरों के लिए अलग हो सकता है), मेरा सवाल यह है: क्या एक पेड़ को उस बिंदु पर ओवरफिट करना संभव है जहां पूर्वाग्रह शून्य हो जाता है, या हमेशा कुछ पूर्वाग्रह होने वाला है, भले ही वास्तव में छोटे? और अगर हमेशा कुछ पूर्वाग्रह हैं, तो ऐसा क्यों होता है?

पुनश्च मैं अगर यह प्रासंगिक हो सकता है पता नहीं है, लेकिन मैं प्रयोग किया जाता DecisionTreeRegressorसे sklearnआंकड़ों के मॉडल फिट करने के लिए।


3
हमारी साइट पर आपका स्वागत है! ध्यान दें कि आपके प्रश्न में "अग्रिम धन्यवाद" जोड़ने की कोई आवश्यकता नहीं है, अपने धन्यवाद को व्यक्त करने के लिए सबसे अच्छा है जब तक आप कुछ उत्तर प्राप्त न कर लें, और (हरे रंग की टिक) जो भी आपकी सबसे अधिक मदद करता है उसे स्वीकार करें! यदि आपने अभी तक ऐसा नहीं किया है, तो यह देखने के लिए हमारे दौरे पर क्यों न जाएं कि यह साइट कैसे काम करती है?
सिल्वरफिश

3
एक फ़ंक्शन y = 0 पर विचार करें, और आप y = f (x) को फिट करने की कोशिश कर रहे हैं, जहां x कुछ यादृच्छिक मान लेता है। एक निर्णय पेड़ अनुमानक इस भर्ती कोने के मामले में पक्षपाती है?
ज्यूम्मन

जवाबों:


10

एक निर्णय ट्री मॉडल हमेशा किसी अन्य सीखने के मॉडल की तुलना में अधिक पूर्वाग्रह नहीं है ।

स्पष्ट करने के लिए, आइए दो उदाहरण देखें। बता दें कि पर रैंडम यूनिफॉर्म वेरिएबल है । यहां सांख्यिकीय प्रक्रियाएं संभव हैंएक्स[0,1]

सत्य 1: दिया गया , का सूचक कार्य है, साथ ही साथ शोर:Yएक्स

Y|एक्स~मैं<.5(एक्स)+एन(0,1)

सत्य 2: दिया गया एक रैखिक कार्य हैYएक्सएक्स, प्लस शोर:

Y|एक्स~एक्स+एन(0,1)

अगर हम दोनों स्थितियों में एक निर्णय वृक्ष फिट, मॉडल संयुक्त राष्ट्र पक्षपाती पहले की स्थिति में है, लेकिन है दूसरे में पक्षपाती। ऐसा इसलिए है क्योंकि एक विभाजित बाइनरी ट्री पहली स्थिति में सही अंतर्निहित डेटा मॉडल को पुनर्प्राप्त कर सकता है। दूसरे में, एक पेड़ जो सबसे अच्छा कर सकता है, वह कभी-कभी महीन अंतराल पर हलचल द्वारा रैखिक कार्य को अनुमानित कर सकता है - परिमित गहराई का एक पेड़ केवल इतना करीब पहुंच सकता है।

अगर हम दोनों स्थितियों में एक रेखीय प्रतीपगमन फिट, मॉडल है पहली स्थिति में पक्षपाती है, लेकिन संयुक्त राष्ट्र पक्षपाती दूसरे में है।

इसलिए, यह जानने के लिए कि क्या कोई मॉडल पक्षपाती है, आपको यह जानना होगा कि सही अंतर्निहित डेटा तंत्र क्या है। वास्तविक जीवन की स्थितियों में, आप इसे कभी नहीं जानते हैं, इसलिए आप वास्तव में कभी नहीं कह सकते हैं कि वास्तविक जीवन में एक मॉडल पक्षपाती है या नहीं। कभी-कभी, हम सोचते हैं कि हम लंबे समय तक पूरी तरह से सही हैं, लेकिन फिर पूर्वाग्रह गहरी समझ के साथ उभरता है (न्यूटनियन ग्रेविटी से आइंस्टीन ग्रेविटी कम से कम एक एपोक्रिफ़ल उदाहरण है)।

कुछ अर्थों में, हम सबसे वास्तविक दुनिया की प्रक्रियाओं (कुछ अपवादों के साथ) से अनजान होने की उम्मीद करते हैं, कि सच्चाई का एक उचित पर्याप्त अनुमान यह है कि हमारे सभी मॉडल पक्षपाती हैं। मुझे कुछ संदेह है कि सवाल मॉडलिंग जटिल सांख्यिकीय प्रक्रिया की आवश्यक निरर्थकता के बारे में गहन दार्शनिक चर्चा के लिए पूछ रहा है, लेकिन इसके बारे में सोचना मजेदार है।


0

तथ्य यह है कि आपके डेटा में कुछ बिंदुओं की भविष्यवाणी अभी भी नहीं की जा रही है, ऐसा कुछ इर्रेडिबल त्रुटि के कारण हो सकता है। सिद्धांत यह है कि मशीन लर्निंग में रिड्यूसबल, और इरेड्यूसबल एरर होता है। इर्रेडिबल एरर का विचार यह है कि आपका मॉडल कितना भी अच्छा क्यों न हो, वह कभी भी परफेक्ट नहीं होगा। ऐसा कुछ कारणों से होता है। एक, कोई फर्क नहीं पड़ता कि आपके प्रशिक्षण सुविधाएँ कितनी मजबूत हैं, हमेशा आउटपुट को प्रभावित करने वाली कुछ छिपी हुई विशेषताएं होंगी जो आपके प्रशिक्षण डेटा में शामिल नहीं हैं। एक और कारण यह है कि लगभग सभी डेटा में, कुछ आउटलेयर होने के लिए बाध्य है। आप हमेशा अपने मॉडल को यथासंभव मजबूत बनाने की कोशिश कर सकते हैं, लेकिन कोई फर्क नहीं पड़ता कि आप कितनी भी कोशिश कर लें, आउटलेर हमेशा मौजूद रहेंगे। (इसका मतलब यह नहीं है कि आपको अपने मॉडल बनाते समय आउटलेर के बारे में नहीं सोचना चाहिए)। और एक अंतिम विवरण यह है कि आप डॉन '

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.