प्रशन
- क्या यह निर्भर करता है कि पेड़ उथला है या गहरा है? या हम इसे पेड़ की गहराई / स्तरों के बावजूद कह सकते हैं?
- पूर्वाग्रह कम और विचरण अधिक क्यों है? कृपया सहज ज्ञान युक्त और गणितीय रूप से समझाएं
प्रशन
जवाबों:
पार्टी के लिए थोड़ा देर से लेकिन मुझे लगता है कि यह सवाल ठोस उदाहरणों के साथ जवाब दे सकता है।
मैं इस उत्कृष्ट लेख का सारांश लिखूंगा : पूर्वाग्रह-विचरण-व्यापार-बंद , जिसने मुझे इस विषय को समझने में मदद की।
किसी भी मशीन लर्निंग एल्गोरिदम के लिए भविष्यवाणी की त्रुटि को तीन भागों में तोड़ा जा सकता है:
इरेड्यूसबल त्रुटि
जैसा कि नाम का अर्थ है, एक त्रुटि घटक है जिसे हम एल्गोरिदम की परवाह किए बिना सही नहीं कर सकते हैं और यह पैरामीटर चयन है। इरेड्यूसबल त्रुटि जटिलताओं के कारण होती है जो बस प्रशिक्षण सेट में कैप्चर नहीं की जाती हैं । यह ऐसी विशेषताएँ हो सकती हैं जो हमारे पास सीखने के सेट में नहीं हैं, लेकिन वे मैपिंग को प्रभावित करते हैं, भले ही इसका परिणाम कुछ भी हो।
बायस त्रुटि
बायस त्रुटि लक्ष्य फ़ंक्शन के बारे में हमारी धारणाओं के कारण है। जितनी अधिक धारणाएँ (प्रतिबंध) हम लक्ष्य कार्यों के बारे में बनाते हैं, उतने ही अधिक पूर्वाग्रह भी हमारे सामने आते हैं। उच्च पूर्वाग्रह वाले मॉडल कम लचीले होते हैं क्योंकि हमने लक्ष्य कार्यों पर अधिक नियम लगाए हैं।
भिन्न त्रुटि
विभिन्न प्रशिक्षण सेटों के संबंध में टारगेट फंक्शन के रूप में परिवर्तनशीलता की भिन्नता है। यदि आप प्रशिक्षण सेट में कुछ नमूनों की जगह लेते हैं, तो छोटे विचरण त्रुटि वाले मॉडल बहुत अधिक नहीं बदलेंगे। प्रशिक्षण सेट में छोटे परिवर्तन के साथ भी उच्च विचरण वाले मॉडल प्रभावित हो सकते हैं।
सरल रैखिक प्रतिगमन पर विचार करें:
Y=b0+b1x
जाहिर है, यह एक लक्ष्य समारोह की काफी प्रतिबंधात्मक परिभाषा है और इसलिए इस मॉडल में एक उच्च पूर्वाग्रह है।
दूसरी ओर, कम विचरण के कारण यदि आप डेटा नमूनों के जोड़े को बदलते हैं, तो यह संभावना नहीं है कि इससे लक्ष्य फ़ंक्शन के समग्र मानचित्रण में बड़े बदलाव होंगे। दूसरी ओर, एल्गोरिथ्म जैसे के-निकटतम-पड़ोसियों में उच्च विचरण और निम्न पूर्वाग्रह होते हैं। यह कल्पना करना आसान है कि विभिन्न नमूने KNN निर्णय सतह को कैसे प्रभावित कर सकते हैं।
आम तौर पर, पैरामीट्रिक एल्गोरिदम में एक उच्च पूर्वाग्रह और कम विचरण होता है, और इसके विपरीत।
मशीन लर्निंग की चुनौतियों में से एक पूर्वाग्रह त्रुटि और विचरण त्रुटि का सही संतुलन है।
निर्णय वृक्ष
अब जब हमारे पास ये परिभाषाएँ हैं, तो यह भी सीधा है कि निर्णय के पेड़ कम पूर्वाग्रह और उच्च विचरण वाले मॉडल के उदाहरण हैं। पेड़ लक्ष्य समारोह के बारे में लगभग कोई धारणा नहीं बनाता है, लेकिन यह डेटा में विचरण के लिए अतिसंवेदनशील है।
बूटबॉर्पिंग एग्रीगेशन और रैंडम फॉरेस्ट जैसे पहनावा एल्गोरिदम हैं, जिसका उद्देश्य निर्णय वृक्ष में पूर्वाग्रह की छोटी लागत पर विचरण को कम करना है।
यदि स्तरों की संख्या बहुत अधिक है यानी एक जटिल निर्णय वृक्ष, तो मॉडल ओवरफिट हो जाता है।
सहज रूप से, इसे इस तरह से समझा जा सकता है। जब परिणाम पर पहुंचने से पहले से गुजरने के लिए बहुत सारे निर्णय नोड होते हैं, यानी पत्ती नोड्स तक पहुंचने से पहले ट्रैवर्स की संख्या की संख्या अधिक होती है, तो आप जिन स्थितियों के खिलाफ जांच कर रहे हैं वे गुणक बन जाते हैं। यही है, अभिकलन बन जाता है (स्थिति 1) और& (स्थिति 2) और& (स्थिति 3) और& (स्थिति 4) और& (स्थिति 5) ।
यदि सभी शर्तें पूरी हो जाती हैं, तो ही कोई निर्णय लिया जाता है। जैसा कि आप देख सकते हैं, यह प्रशिक्षण सेट के लिए बहुत अच्छी तरह से काम करेगा क्योंकि आप डेटा पर लगातार कम कर रहे हैं। पेड़ प्रशिक्षण सेट में मौजूद डेटा के लिए अत्यधिक ट्यून हो जाता है।
लेकिन जब एक नया डेटा बिंदु खिलाया जाता है, भले ही कोई भी पैरामीटर थोड़ा सा विचलित हो जाए, लेकिन शर्त पूरी नहीं होगी और यह गलत शाखा लेगा।
एक जटिल निर्णय वृक्ष (जैसे गहरी) में कम पूर्वाग्रह और उच्च विचरण होता है। पूर्वाग्रह-भिन्नता व्यापार पेड़ की गहराई पर निर्भर करता है।
निर्णय वृक्ष संवेदनशील होता है कि वह कहाँ विभाजित होता है और कैसे विभाजित होता है। इसलिए, इनपुट चर मानों में भी छोटे बदलावों के परिणामस्वरूप बहुत भिन्न पेड़ संरचना हो सकती है।
एक निर्णय पेड़ में कम पूर्वाग्रह और उच्च विचरण क्यों होता है? क्या यह निर्भर करता है कि पेड़ उथला है या गहरा है? या हम इसे पेड़ की गहराई / स्तरों के बावजूद कह सकते हैं? पूर्वाग्रह कम और विचरण अधिक क्यों है? कृपया सहज ज्ञान युक्त और गणितीय रूप से समझाएं।
बायस वर्सन
मॉडल से अधिक पूर्वाग्रह = त्रुटि अधिक सरल होना (डेटा को बहुत अच्छी तरह से फिट नहीं करता है)
अधिक जटिल = मॉडल से अधिक जटिल होने में त्रुटि (डेटा को बहुत अच्छी तरह से फिट करता है, और डेटा में निहित पैटर्न के अलावा शोर सीखता है)
सब कुछ सापेक्ष है
मैं यह कहकर शुरुआत करना चाहता हूं कि सब कुछ सापेक्ष है। डिसीजन ट्री में सामान्य तौर पर कम पूर्वाग्रह और उच्च विचरण होता है जो कि यादृच्छिक वन कहते हैं। इसी तरह, एक उथले पेड़ में अधिक पूर्वाग्रह और कम विचरण होता है जो कि अधिक गहराई वाला एक ही वृक्ष होता है।
निर्णय पेड़ों और यादृच्छिक जंगलों की तुलना
अब उस विडंबना के साथ, आइए विचार करें कि यादृच्छिक वृक्षों की तुलना में निर्णय वृक्ष विचरण (उच्चतर विचरण और निचले पूर्वाग्रह) में क्यों बदतर होंगे। जिस तरह से एक निर्णय ट्री एल्गोरिथ्म काम करता है वह यह है कि डेटा को बार-बार विभाजित किया जाता है क्योंकि हम पेड़ में नीचे जाते हैं, इसलिए वास्तविक पूर्वानुमान कम और कम डेटा बिंदुओं द्वारा किए जाएंगे। उस की तुलना में, यादृच्छिक वन कई पेड़ों के निर्णयों को एकत्र करते हैं, और वह भी, यादृच्छिकरण के माध्यम से कम सहसंबद्ध पेड़, इसलिए मॉडल बेहतर सामान्यीकरण करता है (=> विभिन्न डेटासेट = निचले संस्करण में अधिक मज़बूती से प्रदर्शन करता है)। इसी तरह, हम केवल एक पेड़ को फिट करने के लिए डेटा और सुविधाओं के एक सबसेट से परामर्श करने के लिए यादृच्छिक जंगलों पर अधिक सरलीकृत धारणाएं बना रहे हैं, इसलिए उच्च पूर्वाग्रह। BTW, उपदंश,