क्या निर्णय के पेड़ लगभग हमेशा द्विआधारी पेड़ होते हैं?


21

लगभग हर निर्णय पेड़ उदाहरण मैं भर में आया है एक द्विआधारी पेड़ होने के लिए होता है। क्या यह बहुत सार्वभौमिक है? क्या अधिकांश मानक एल्गोरिदम (C4.5, CART, आदि) केवल बाइनरी पेड़ों का समर्थन करते हैं? मैं जो इकट्ठा करता हूं, उससे CHAID बाइनरी पेड़ों तक सीमित नहीं है, लेकिन यह एक अपवाद प्रतीत होता है।

एक दो-तरफा विभाजन जिसके बाद बच्चों में से एक पर दो-तरफा विभाजन होता है, एक ही तरह से तीन-विभाजित विभाजन नहीं है। यह एक अकादमिक बिंदु हो सकता है, लेकिन मैं यह सुनिश्चित करने की कोशिश कर रहा हूं कि मैं सबसे सामान्य उपयोग-मामलों को समझता हूं।

जवाबों:


18

यह मुख्य रूप से एक तकनीकी मुद्दा है: यदि आप द्विआधारी विकल्प तक सीमित नहीं करते हैं, तो पेड़ में अगले विभाजन के लिए बस बहुत अधिक संभावनाएं हैं। इसलिए आप अपने प्रश्न में किए गए सभी बिंदुओं में निश्चित रूप से सही हैं।

ध्यान रखें कि अधिकांश पेड़-प्रकार के एल्गोरिदम चरणबद्ध तरीके से काम करते हैं और यहां तक ​​कि सबसे अच्छा संभव परिणाम देने की गारंटी नहीं है। यह सिर्फ एक अतिरिक्त चेतावनी है।

अधिकांश व्यावहारिक उद्देश्यों के लिए, हालांकि पेड़ की इमारत / छंटाई के दौरान नहीं , दो प्रकार के विभाजन समान हैं, हालांकि, यह देखते हुए कि वे एक दूसरे के तुरंत बाद दिखाई देते हैं।


बस अपने पहले बिंदु पर बढ़ाना: संभव विभाजन की संख्या तेजी से बढ़ जाती है। यदि आप एक निरंतर चर पर विभाजित कर रहे हैं जिसमें 1000 अलग-अलग मूल्य हैं, तो 999 बाइनरी विभाजन हैं, लेकिन 999 * 998 त्रिशूल विभाजन।
पीटर फ्लॉम - मोनिका

2
@ पेटर वहाँ हैं त्रिगुट विभाजन, वास्तव में। (1000131)=999998/2
whuber

5

एक दो-तरफा विभाजन जिसके बाद बच्चों में से एक पर दो-तरफा विभाजन होता है, एक ही तरह से तीन-विभाजित विभाजन नहीं है

मुझे यकीन नहीं है कि तुम यहाँ क्या मतलब है। किसी भी मल्टी-वे विभाजन को दो-तरफा विभाजन की एक श्रृंखला के रूप में दर्शाया जा सकता है। तीन-तरफ़ा विभाजन के लिए, आप A, B और C में विभाजित करके पहले A & B बनाम C में विभाजित कर सकते हैं और फिर A को B से अलग कर सकते हैं।

एक दिया एल्गोरिथ्म शायद उस विशेष अनुक्रम को नहीं चुन सकता है (खासकर अगर, अधिकांश एल्गोरिदम की तरह, यह लालची है), लेकिन यह निश्चित रूप से हो सकता है। और अगर किसी भी यादृच्छिककरण या स्टेजवाइज प्रक्रियाओं को यादृच्छिक जंगलों या बढ़े हुए पेड़ों की तरह किया जाता है, तो विभाजन के सही क्रम को खोजने की संभावना बढ़ जाती है। जैसा कि अन्य लोगों ने बताया है कि बहु-मार्ग विभाजन कम्प्यूटेशनल रूप से महंगे हैं, इसलिए इन विकल्पों को देखते हुए, अधिकांश शोधकर्ताओं ने द्विआधारी विभाजन को चुना है।

उम्मीद है की यह मदद करेगा


3
हाँ मैं समझता हूँ कि A, B, और C को A & B बनाम C में पहले विभाजित करके प्राप्त किया जा सकता है और फिर B से A को विभाजित किया जा सकता है। मेरी बात वास्तव में यह थी कि एक दिया गया एल्गोरिथम उस विशेष अनुक्रम को नहीं चुन सकता है।
माइकल मैकगोवन

2

निर्णय पेड़ और बंटवारे (बाइनरी बनाम अन्यथा) के उपयोग के बारे में, मुझे केवल CHAID के बारे में पता है जिसमें गैर-बाइनरी विभाजन होते हैं लेकिन संभावना दूसरों की होती है। मेरे लिए, एक गैर बाइनरी स्प्लिट का मुख्य उपयोग डेटा माइनिंग अभ्यासों में है जहां मैं देख रहा हूं कि कैसे कई स्तरों के लिए नाममात्र चर को बेहतर तरीके से बिन किया जाए। बाइनरी स्प्लिट्स की एक श्रृंखला सीएचएआईडी द्वारा किए गए समूह के रूप में उपयोगी नहीं है।


यह हास्यास्पद है कि आपने बिनिंग का उल्लेख किया है, क्योंकि बिनिंग के बारे में सोचने से मुझे इस सवाल के बारे में सोचना शुरू हो गया है (हालांकि मैं नाममात्र चर की बजाय द्विआधारी संख्यात्मक चर के बारे में सोच रहा था)।
माइकल मैकगोवन

@ मिचेल, हाँ यह भी काम करता है लेकिन आप जानकारी फेंक देते हैं। मैं इसका उपयोग तब करता हूं जब मुझे नाममात्र चर के विरल स्तरों को संयोजित करने की आवश्यकता होती है - जब एक पेड़ प्रकार के दृष्टिकोण के बिना अंतिम मॉडलिंग किया जाएगा (लॉजिस्टिक प्रतिगमन या एसवीएम और कई विरल डमी चर मुद्दों का कारण बनता है)
B_Miner '

0

कृपया पढ़ें इस

व्यावहारिक कारणों (कॉम्बीनेटरियल विस्फोट) के लिए अधिकांश पुस्तकालय द्विआधारी विभाजन के साथ निर्णय पेड़ों को लागू करते हैं। अच्छी बात यह है कि वे एनपी-पूर्ण (हाईफिल, लॉरेंट और रोनाल्ड एल। रिवेस्ट हैं। "इष्टतम द्विआधारी निर्णय पेड़ों का निर्माण एनपी-पूर्ण है।" सूचना प्रसंस्करण पत्र 5.1 (1976): 15-17)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.