क्या रैंडम वन भविष्यवाणी पूर्वाग्रह प्रदर्शित करते हैं?


12

मुझे लगता है कि यह एक सीधा सवाल है, हालांकि इसके पीछे का तर्क क्यों या क्यों नहीं हो सकता है। मेरे द्वारा पूछे जाने का कारण यह है कि मैंने हाल ही में एक RF के अपने कार्यान्वयन को लिखा है और हालांकि यह अच्छा प्रदर्शन करता है, यह उतना अच्छा प्रदर्शन नहीं कर रहा है जितना मैंने उम्मीद की थी ( कागले फोटो क्वालिटी प्रेडिक्शन प्रतियोगिता डेटा सेट, विजेता स्कोर और कुछ के आधार पर) बाद की जानकारी जो तकनीक के उपयोग के बारे में उपलब्ध थी)।

ऐसी परिस्थितियों में पहली बात मैं अपने मॉडल के लिए प्लॉट भविष्यवाणी की त्रुटि है, इसलिए प्रत्येक दिए गए भविष्यवाणी मूल्य के लिए मैं सही लक्ष्य मान से दूर पूर्वाग्रह (या विचलन) का निर्धारण करता हूं। मेरे RF के लिए मुझे यह प्लॉट मिला:

सही लक्ष्य मान से पूर्वाग्रह बनाम पूर्वाग्रह

मैं सोच रहा था कि क्या यह RF के लिए आमतौर पर मनाया जाने वाला पूर्वाग्रह पैटर्न है (यदि नहीं तो यह शायद डेटा सेट और / या उसके कार्यान्वयन के लिए कुछ विशिष्ट हो सकता है)। मैं निश्चित रूप से पूर्वाग्रह की भरपाई करने के लिए इसका उपयोग करके भविष्यवाणियों को बेहतर बनाने के लिए इस भूखंड का उपयोग कर सकता हूं, लेकिन मैं सोच रहा हूं कि क्या आरएफ मॉडल में ही कोई और मौलिक त्रुटि या कमी है जिसे संबोधित करने की आवश्यकता है। धन्यवाद।

== ADDENDUM ==

मेरी प्रारंभिक जांच इस ब्लॉग प्रविष्टि रैंडम फ़ॉरेस्ट बायस - अपडेट पर है


2
यह आपके डेटा की एक विशेषता हो सकती है; क्या आपने एक ही डेटासेट पर अन्य आरएफ कार्यान्वयन चलाने की कोशिश की है, यह देखने के लिए कि क्या यह इस प्रभाव को पुन: पेश करता है?

जवाबों:


4

(मैं विशेषज्ञ से बहुत दूर हूं । ये सिर्फ एक कनिष्ठ सांख्यिकीविद् के पेशी हैं, जो अलग-अलग हैं, लेकिन शिथिल सादृश्य हैं, मुद्दों पर। मेरा जवाब संदर्भ से बाहर हो सकता है।)

एक नए नमूने की भविष्यवाणी की जा रही है, और एक दैवज्ञ जिसकी पहुंच बहुत बड़े प्रशिक्षण सेट तक है, तो शायद "सबसे अच्छा" और सबसे ईमानदार भविष्यवाणी यह ​​कहना है कि "मैं 60% संभावना के साथ भविष्यवाणी करता हूं कि यह रेड क्लास के बजाय है। द ब्लू क्लास ”।

मैं और अधिक ठोस उदाहरण दूंगा। कल्पना कीजिए कि, हमारे बहुत बड़े प्रशिक्षण सेट में, नमूनों का एक बड़ा समूह है जो हमारे नए नमूने के समान है। इनमें से 60% नीले और 40% लाल हैं। और ब्लूज़ को ब्लूज़ से अलग करने के लिए कुछ भी नहीं प्रतीत होता है। ऐसे मामले में, यह स्पष्ट है कि एक 60% / 40% एकमात्र भविष्यवाणी है जिसे एक समझदार व्यक्ति कर सकता है।

बेशक, हमारे पास इस तरह का एक दाना नहीं है, इसके बजाय हमारे पास बहुत सारे पेड़ हैं। सरल निर्णय पेड़ इन 60% / 40% भविष्यवाणियों को बनाने में असमर्थ हैं और इसलिए प्रत्येक पेड़ एक असतत भविष्यवाणी (लाल या नीला, बीच में कुछ भी नहीं) करेगा। जैसा कि यह नया नमूना निर्णय की सतह के लाल पक्ष में आता है, आप पाएंगे कि लगभग सभी पेड़ ब्लू के बजाय रेड की भविष्यवाणी करते हैं। प्रत्येक पेड़ की तुलना में यह अधिक निश्चित होने का दिखावा करता है और यह एक पक्षपातपूर्ण भविष्यवाणी की ओर भगदड़ शुरू कर देता है।

समस्या यह है कि हम एक ही पेड़ से निर्णय की गलत व्याख्या करते हैं। जब एक एकल पेड़ लाल वर्ग में एक नोड डालता है, तो हमें यह नहीं समझना चाहिए कि पेड़ से 100% / 0% भविष्यवाणी के रूप में। (मैं सिर्फ यह नहीं कह रहा हूं कि हम 'जानते हैं' कि यह शायद एक खराब भविष्यवाणी है। मैं कुछ मजबूत कह रहा हूं, अर्थात हमें सावधान रहना चाहिए कि हम पेड़ की भविष्यवाणी के रूप में व्याख्या करते हैं)। मैं इसे ठीक करने के बारे में विस्तार से नहीं बता सकता। लेकिन आंकड़ों के क्षेत्रों से विचारों को उधार लेना संभव है कि कैसे एक पेड़ के भीतर अधिक 'फजी' विभाजन का निर्माण किया जाए ताकि एक पेड़ को उसकी अनिश्चितता के बारे में और अधिक ईमानदार होने के लिए प्रोत्साहित किया जा सके। फिर, पेड़ों के जंगल से भविष्यवाणियों को औसत रूप से समझना संभव होना चाहिए।

मुझे आशा है कि इससे थोड़ी सहायात मिलेगी। यदि नहीं, तो मुझे किसी भी प्रतिक्रिया से सीखने की उम्मीद है।


फजी विभाजन, इसे मिला, चरम आरएफ की भावना में (लेकिन संभवतः इतना चरम नहीं?)। मैं यह कोशिश करूँगा क्योंकि आपका स्पष्टीकरण मेरे लिए समझ में आता है। धन्यवाद।
Redcalx

[बेतरतीब जंगल - पूर्वाग्रह की समस्या पर विचार] ( -locster.livejournal.com/134241.html ) "कुंजी तब (मुझे लगता है) गैर-समान यादृच्छिकता का उपयोग करना है [ ते विभाजन की दहलीज का] जैसे कि सभी का सेट।" विभाजन के बिंदु जब संयुक्त y = f (x) को फिर से बनाएंगे, और y = f (x) के एक पूर्ण प्रतिनिधित्व का रुख करेंगे क्योंकि RF में DTs की संख्या अनंत की ओर जाती है। "
redcalx

क्या 60/40% भविष्यवाणियों को एक प्रतिगमन पेड़ द्वारा नियंत्रित नहीं किया जाएगा? विश्वास एक पत्ती के विभाजन में वर्ग अनुपात होगा (प्रशिक्षण सेट के लिए)। शायद सांख्यिकीय शक्ति से निपटने के लिए इसका विस्तार / किया जा सकता है
ऑल्टर

3

हाँ। अधिकांश पेड़ों की पूंछों में एक पूर्वाग्रह होता है। देख:

निरंतर चर की भविष्यवाणी करते समय निर्णय वृक्ष विभाजन को कैसे लागू किया जाना चाहिए?

"पेड़ों के साथ एक संभावित मुद्दा यह है कि वे पूंछ में खराब फिट होते हैं। एक टर्मिनल नोड के बारे में सोचें जो प्रशिक्षण सेट की कम सीमा को पकड़ता है। यह उन प्रशिक्षण सेट बिंदुओं के माध्यम का उपयोग करके भविष्यवाणी करेगा, जो हमेशा अंडर-भविष्यवाणी करेंगे। परिणाम (चूंकि यह मतलबी है)। "


मुझे नहीं लगता कि टिप्पणी यादृच्छिक जंगलों पर लागू होती है
जैच

मेरा मानना ​​है कि जब प्रतिक्रिया चर निरंतर होती है तो नोड्स में यादृच्छिक जंगलों का संदर्भ कार्यान्वयन ~ 5 अवलोकनों के साथ रुक जाता है। यदि अभी भी विभाजन चर के रूप में अच्छी तरह से जारी थे, तो यह अभी भी पूर्वाग्रह की एक छोटी राशि का परिचय देगा। इसी तरह से क्यों LOESS अक्सर समर्थन के किनारों पर केंद्रित केंद्रित औसत से बेहतर दिखता है ...
शिया पार्केज
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.