निर्णय वृक्ष: पत्ती-वार (सर्वोत्तम-प्रथम) और स्तर-वार वृक्ष पार


14

अंक 1:

जिस तरह से पेड़ का विस्तार किया गया है, उसके बारे में लाइट जीबीएम के विवरण से मैं भ्रमित हूं ।

वे कहते हैं:

अधिकांश निर्णय ट्री लर्निंग एल्गोरिदम पेड़ को स्तर (गहराई) द्वारा विकसित करते हैं, जैसे कि निम्नलिखित छवि:

यहाँ छवि विवरण दर्ज करें

प्रश्न 1 : इस तरह से "सबसे अधिक" एल्गोरिदम लागू किए गए हैं? जहाँ तक मुझे पता है कि C4.5 और CART DFS का उपयोग करते हैं। XGBoost BFS का उपयोग करता है। निर्णय पेड़ों के लिए कौन से अन्य एल्गोरिदम या पैकेज बीएफएस का उपयोग करते हैं?

अंक 2:

लाइट जीबीएम बताता है:

लाइट जीबीएम पत्ती-वार (सबसे अच्छा) द्वारा पेड़ बढ़ता है। यह बढ़ने के लिए अधिकतम डेल्टा नुकसान के साथ पत्ती का चयन करेगा। एक ही पत्ती बढ़ने पर, पत्ती-वार एल्गोरिथ्म स्तर-वार एल्गोरिथ्म की तुलना में अधिक नुकसान को कम कर सकता है।

यहाँ छवि विवरण दर्ज करें

प्रश्न 2 : क्या यह कहना सही है कि स्तर-वार विकास पेड़ों में सभी पत्तियों के लिए समान गहराई होगी?

प्रश्न 3: यदि प्रश्न 2 सही नहीं है, तो स्तर-वार और पत्ती-वार विकास से पेड़ ट्रावर्सल के अंत में (प्रूनिंग आदि के बिना) समान दिखेंगे। क्या यह एक सही कथन है?

प्रश्न 4: यदि प्रश्न 3 सही है, तो "पत्ती-वार एल्गोरिथ्म कैसे स्तर-वार एल्गोरिथ्म की तुलना में अधिक हानि को कम कर सकता है"? क्या यह प्री-प्रूनिंग एल्गोरिथम के साथ करना है?

जवाबों:


11

यदि आप पूरा पेड़ उगाते हैं, तो सबसे पहले (पत्ती-वार) और गहराई-पहले (स्तर-वार) के परिणामस्वरूप एक ही पेड़ होगा। अंतर उस क्रम में है जिसमें पेड़ का विस्तार होता है। चूंकि हम आम तौर पर पेड़ों को उनकी पूरी गहराई तक नहीं बढ़ाते हैं, इसलिए मामले मायने रखते हैं: शुरुआती रोक के मानदंडों और छंटाई के तरीकों के परिणामस्वरूप बहुत अलग पेड़ हो सकते हैं। क्योंकि लीफ-वार वैश्विक हानि में उनके योगदान के आधार पर विभाजन का चयन करता है और न केवल एक विशेष शाखा के साथ नुकसान, यह अक्सर (हमेशा नहीं) स्तर-वार की तुलना में "तेजी से" कम त्रुटि वाले पेड़ों को सीखेगा। एक छोटी संख्या में नोड्स के लिए, पत्ती-वार संभवतया स्तर-वार प्रदर्शन होगा। जैसा कि आप अधिक नोड्स जोड़ते हैं, बिना रोक या छंटाई के वे एक ही प्रदर्शन में परिवर्तित हो जाएंगे क्योंकि वे सचमुच एक ही पेड़ का निर्माण करेंगे।

संदर्भ:

शी, एच। (2007)। बेस्ट-फर्स्ट डिसीजन ट्री लर्निंग (थीसिस, मास्टर ऑफ साइंस (एमएससी))। वाइकाटो विश्वविद्यालय, हैमिल्टन, न्यूजीलैंड। Https://hdl.handle.net/10289/2317 से लिया गया


EDIT: आपके पहले प्रश्न के बारे में, C4.5 और CART दोनों गहराई-पहले उदाहरण हैं, सबसे अच्छा नहीं। उपरोक्त संदर्भ से कुछ प्रासंगिक सामग्री यहां दी गई है:

1.2.1 मानक निर्णय पेड़

निर्णय पेड़ों के शीर्ष-डाउन इंडक्शन के लिए मानक एल्गोरिदम जैसे C4.5 (क्विनलान, 1993) और CART (ब्रीमन एट अल। 1984) प्रत्येक डिवाइड-एंड-कॉनसेप्ट रणनीति का उपयोग करके प्रत्येक चरण में गहराई-पहले क्रम में नोड्स का विस्तार करते हैं। आम तौर पर, एक निर्णय पेड़ के प्रत्येक नोड पर, परीक्षण में केवल एक ही विशेषता शामिल होती है और विशेषता मूल्य की तुलना एक स्थिर से की जाती है। मानक निर्णय पेड़ों का मूल विचार यह है कि, पहले, रूट नोड पर जगह के लिए एक विशेषता का चयन करें और इस विशेषता के लिए कुछ मानदंड (जैसे जानकारी या गिन्नी सूचकांक) के आधार पर कुछ शाखाएं बनाएं। फिर, ट्रेनिंग इंस्टेंसेस को सब्मिट में विभाजित करें, रूट नोड से फैली प्रत्येक शाखा के लिए एक। सबसेट की संख्या शाखाओं की संख्या के समान है। फिर, यह कदम एक चुने हुए शाखा के लिए दोहराया जाता है, केवल उन उदाहरणों का उपयोग करके जो वास्तव में उस तक पहुंचते हैं। एक निश्चित आदेश का उपयोग नोड्स (सामान्य रूप से, बाएं से दाएं) का विस्तार करने के लिए किया जाता है। यदि किसी भी समय नोड पर सभी इंस्टेंसेस में एक ही क्लास लेबल होता है, जिसे शुद्ध नोड के रूप में जाना जाता है, तो विभाजन रुक जाता है और नोड को टर्मिनल नोड में बनाया जाता है। यह निर्माण प्रक्रिया तब तक जारी रहती है जब तक कि सभी नोड शुद्ध नहीं हो जाते। इसके बाद ओवरफिटिंग को कम करने के लिए एक प्रूनिंग प्रक्रिया का पालन किया जाता है (धारा 1.3 देखें)।

१.२.२ श्रेष्ठ-प्रथम निर्णय वृक्ष

एक और संभावना है, जो अब तक केवल एल्गोरिदम को बढ़ावा देने के संदर्भ में मूल्यांकन किया गया है (फ्रीडमैन एट अल, 2000), एक निश्चित क्रम के बजाय सबसे पहले क्रम में नोड्स का विस्तार करना है। यह विधि प्रत्येक चरण में पेड़ पर "सबसे अच्छा" विभाजन नोड जोड़ता है। "सबसे अच्छा" नोड वह नोड है जो बंटवारे के लिए उपलब्ध सभी नोड्स (यानी टर्मिनल नोड्स के रूप में लेबल नहीं किया गया है) के बीच अधिकतम अशुद्धता को कम करता है। यद्यपि यह पूरी तरह से विकसित वृक्ष के रूप में मानक गहराई-पहले विस्तार के परिणामस्वरूप होता है, यह हमें नए पेड़ों की छंटाई के तरीकों की जांच करने में सक्षम बनाता है जो विस्तार की संख्या का चयन करने के लिए क्रॉस-मान्यता का उपयोग करते हैं। प्री-प्रूनिंग और पोस्ट-प्रुनिंग दोनों को इस तरह से किया जा सकता है, जो उनके बीच एक निष्पक्ष तुलना करने में सक्षम बनाता है (धारा 1.3 देखें)।

बेस्ट-फर्स्ट डिसीजन ट्री का निर्माण मानक गहराई-पहले निर्णय पेड़ों के समान डिवाइड-एंड-कॉनकेर फैशन में किया जाता है। सबसे अच्छा पेड़ पहले कैसे बनाया जाता है इसका मूल विचार इस प्रकार है। सबसे पहले, रूट नोड पर जगह के लिए एक विशेषता का चयन करें और कुछ मानदंडों के आधार पर इस विशेषता के लिए कुछ शाखाएं बनाएं। फिर, ट्रेनिंग इंस्टेंसेस को सब्मिट में विभाजित करें, रूट नोड से फैली प्रत्येक शाखा के लिए एक। इस थीसिस में केवल द्विआधारी निर्णय पेड़ों पर विचार किया जाता है और इस प्रकार शाखाओं की संख्या ठीक दो होती है। फिर, यह कदम एक चुने हुए शाखा के लिए दोहराया जाता है, केवल उन उदाहरणों का उपयोग करके जो वास्तव में उस तक पहुंचते हैं। प्रत्येक चरण में हम विस्तार के लिए उपलब्ध सभी उपसमुच्चयों में से "सर्वश्रेष्ठ" सबसेट को चुनते हैं। यह निर्माण प्रक्रिया तब तक जारी रहती है जब तक कि सभी नोड शुद्ध नहीं हो जाते हैं या विशिष्ट संख्या में विस्तार हो जाता है। आकृति 1। 1 एक काल्पनिक बाइनरी बेस्ट-फर्स्ट ट्री और एक काल्पनिक बाइनरी डेप्थ-फर्स्ट ट्री के बीच विभाजन क्रम में अंतर को दर्शाता है। ध्यान दें कि अन्य ऑर्डरिंग को पहले-पहले पेड़ के लिए चुना जा सकता है, जबकि ऑर्डर हमेशा गहराई-पहले मामले में समान होता है।


क्या आप कृपया पहले प्रश्न का उत्तर दे सकते हैं?
जेकटरिना कोकात्जूहा

मेरे उत्तर को अपडेट किया। लघु संस्करण यह है कि C4.5 और CART दोनों गहराई-पहले के उदाहरण हैं, न कि सबसे पहले।
डेविड मार्क्स

मेरा पहला प्रश्न सर्वश्रेष्ठ-प्रथम या डीएफएस की परिभाषा या स्पष्टीकरण के बारे में नहीं था। और मैंने खुद से कहा था कि C4.5 और CART DFS हैं। पहला प्रश्न "कौन सा" सबसे "एल्गोरिदम" स्तर-वार द्वारा लागू किया गया था? [...] निर्णय के पेड़ों के लिए कौन से अन्य एल्गोरिदम या पैकेज बीएफएस का उपयोग करते हैं? "
जेकैटरिना कोकात्जूहा

1
"गहराई-प्रथम" पेड़ की वृद्धि है स्तर के लिहाज से। यही मैं आपको बताने की कोशिश कर रहा था। मैंने आपके लिए प्रकाश डाला अंश पढ़ें। "गहराई पहले" और "सबसे पहले" पेड़ की वृद्धि के साथ यहां ग्राफ ट्रैवर्सल डीएफएस और बीएफएस को भ्रमित न करें। वे समान नहीं हैं, और पहले विकास में गहराई का अर्थ है कि आप "बीएफएस" कह रहे हैं, "डीएफएस" नहीं।
डेविड मार्क्स

वह महत्वपूर्ण बिंदु था जो मुझे हर समय याद आ रहा था। धन्यवाद।
जेकटरिना कोकात्जूहा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.