निर्णय पेड़ों का कमजोर पक्ष क्या है?

34

निर्णय वृक्ष एक बहुत ही समझ में आने वाली मशीन सीखने की विधि है। एक बार बनने के बाद इसका मानव द्वारा आसानी से निरीक्षण किया जा सकता है जो कुछ अनुप्रयोगों में एक बड़ा फायदा है।

निर्णय पेड़ों के व्यावहारिक कमजोर पक्ष क्या हैं?

machine-learning nonparametric cart

— Łुकाज़ लु
स्रोत

37

यहाँ एक जोड़ी है जिसके बारे में मैं सोच सकता हूँ:

वे डेटा में छोटे गड़बड़ी के लिए बेहद संवेदनशील हो सकते हैं: थोड़े से बदलाव के परिणामस्वरूप बहुत अलग पेड़ हो सकते हैं।
वे आसानी से ओवरफिट कर सकते हैं। यह सत्यापन विधियों और छंटाई द्वारा नकारा जा सकता है, लेकिन यह एक ग्रे क्षेत्र है।
उनके पास आउट-ऑफ-सैंपल भविष्यवाणी (यह उनके गैर-चिकनी होने से संबंधित है) की समस्याएं हो सकती हैं।

इनमें से कुछ मल्टीकोलिनरिटी की समस्या से संबंधित हैं : जब दो चर दोनों एक ही बात को समझाते हैं, तो एक निर्णय वृक्ष लालच से सबसे अच्छा एक का चयन करेगा, जबकि कई अन्य तरीके उन दोनों का उपयोग करेंगे। बेतरतीब जंगलों जैसे तरीकों को इकट्ठा करना एक निश्चित सीमा तक इसे नकार सकता है, लेकिन आप समझने में आसानी खो देते हैं।

हालांकि, सबसे बड़ी समस्या, मेरे दृष्टिकोण से कम से कम, एक राजसी संभावनावादी ढांचे की कमी है। कई अन्य तरीकों में आत्मविश्वास अंतराल, पीछे के वितरण आदि जैसी चीजें हैं, जो हमें कुछ विचार देती हैं कि मॉडल कितना अच्छा है। एक निर्णय पेड़ अंततः एक तदर्थ अनुमानी है, जो अभी भी बहुत उपयोगी हो सकता है (वे डेटा प्रोसेसिंग में बग के स्रोत खोजने के लिए उत्कृष्ट हैं), लेकिन आउटपुट को "सही मॉडल" के रूप में मानने वाले लोगों का खतरा है अनुभव, यह विपणन में बहुत कुछ होता है)।

— साइमन बायरन
स्रोत

2

एमएल के दृष्टिकोण से पेड़ों को उसी तरह से परीक्षण किया जा सकता है जैसे किसी अन्य क्लासिफायर (उदाहरण के लिए सीवी)। इसके बजाय यह दर्शाता है कि भारी अतिवृद्धि हुई; ;-) इसके अलावा आरएफ बहुसंस्कृतिता से बचता है क्योंकि यह पहनावा नहीं है, लेकिन क्योंकि इसके पेड़ उप-रूपी हैं।

2

(: यूआरएल निर्णय पेड़ की एक संभाव्य ढांचे के लिए, DTREE देख datamining.monash.edu.au/software/dtree/index.shtml ) जो कागज "वालेस सीएस और पैट्रिक जद,` निर्णय पेड़ कोडिंग पर आधारित है मशीन लर्निंग ', , 11, 1993, पीपी 7-22 "।

— इमाकलिक

2

साथ ही, बूटस्ट्रैपिंग का उपयोग करके CI (भविष्यवाणियों के लिए) प्राप्त करना संभव नहीं है?

— ताल गलिली

@ साइमन बायरन, आपकी टिप्पणी के बारे में मेरा एक सवाल है "हालांकि, सबसे बड़ी समस्या, मेरे दृष्टिकोण से कम से कम, एक राजसी संभावनावादी ढांचे की कमी है"। मेरी अज्ञानता को क्षमा करें, लेकिन क्या आप कृपया मुझे कुछ व्यावहारिक राजसी संभाव्य रूपरेखाओं (विशेष रूप से वर्गीकरण के संदर्भ में) के लिए इंगित कर सकते हैं। मुझे निर्णय पेड़ों की इस सीमा में बहुत दिलचस्पी है।

— एमिलियो वाज़केज़-रीना

2

@AmV, एक उदाहरण लॉजिस्टिक रिग्रेशन होगा: हम इस तथ्य का उपयोग कर सकते हैं कि प्रत्येक अवलोकन एक द्विपद से आता है विश्वास / विश्वसनीय अंतराल प्राप्त करने और मॉडल की मान्यताओं की जांच करने के लिए।

— साइमन बायरन

23

एक नुकसान यह है कि सभी शर्तों को बातचीत करने के लिए ग्रहण किया जाता है। अर्थात्, आपके पास दो व्याख्यात्मक चर नहीं हो सकते हैं जो स्वतंत्र रूप से व्यवहार करते हैं। पेड़ के प्रत्येक चर को पेड़ के हर चर के साथ बातचीत करने के लिए मजबूर किया जाता है। यह बेहद अक्षम है अगर ऐसे चर हैं जिनके पास कोई कमजोर या कमजोर बातचीत नहीं है।

— रॉब Hyndman
स्रोत

मुझे आश्चर्य है कि अगर यह एक व्यावहारिक सीमा है - एक चर के लिए जो केवल कमजोर रूप से वर्गीकरण को प्रभावित करता है, तो मेरा अंतर्ज्ञान यह है कि ट्री संभवतः उस चर पर विभाजित नहीं होगा (यानी, यह एक नोड नहीं होगा) जो बदले में इसका मतलब है जहाँ तक निर्णय ट्री वर्गीकरण जाता है, यह अदृश्य है।

— डौग

मैं कमजोर बातचीत की बात कर रहा हूं, वर्गीकरण पर कमजोर प्रभाव की नहीं। एक इंटरैक्शन भविष्यवाणियों में से दो के बीच एक संबंध है।

— रोब हंडमैन

2

यह अक्षम हो सकता है, लेकिन पेड़ की संरचना इसे संभाल सकती है।

इसलिए मैंने पक्षपाती या गलत के बजाय अक्षम कहा। यदि आपके पास डेटा का लोड है, तो यह ज्यादा मायने नहीं रखता है। लेकिन अगर आप एक पेड़ को कुछ सौ अवलोकनों में फिट करते हैं तो ग्रहण की गई बातचीत से भविष्यवाणी की सटीकता को कम किया जा सकता है।

— रोब हंडमैन

2

इस बात से सहमत; मैं इसे उजागर करना चाहता था। फिर भी मुझे लगता है कि उचित प्रशिक्षण का उपयोग करके भविष्यवाणी की सटीकता में कमी को दूर किया जा सकता है; phylogenetics में इसी तरह की समस्या (लालचीपन) मोंटे कार्लो द्वारा अधिकतम संभावित संभावनाएं खोजने के लिए संभव ट्री स्पेस की स्कैनिंग से कम हो जाती है - मुझे नहीं पता कि आंकड़ों में एक समान दृष्टिकोण है, शायद कोई भी इस समस्या से परेशान नहीं था हद।

12

मेरा जवाब CART (C 4.5 / C 5 कार्यान्वयन) के लिए निर्देशित है, हालांकि मुझे नहीं लगता कि यह सीमित है। मेरा अनुमान है कि यह वही है जो ओपी के मन में है - यह आमतौर पर किसी का मतलब है जब वे कहते हैं "निर्णय ट्री।"

निर्णय पेड़ों की सीमाएं :

कम प्रदर्शन

'प्रदर्शन' से मेरा मतलब रिज़ॉल्यूशन नहीं है, बल्कि निष्पादन की गति है । गरीब होने का कारण यह है कि आपको हर बार अपने CART मॉडल को अपडेट करने की इच्छा रखने वाले पेड़ को 'फिर से बनाना' चाहिए - पहले से प्रशिक्षित ट्री द्वारा वर्गीकृत डेटा, जिसे आप तब ट्री में जोड़ना चाहते हैं (यानी, एक के रूप में उपयोग करें) प्रशिक्षण डेटा बिंदु) के लिए आवश्यक है कि आप शुरू करें - प्रशिक्षण के उदाहरणों को वृद्धिशील रूप से नहीं जोड़ा जा सकता है, क्योंकि वे अधिकांश अन्य पर्यवेक्षित शिक्षण एल्गोरिदम के लिए कर सकते हैं। यह बताने का शायद सबसे अच्छा तरीका है कि निर्णय पेड़ों को ऑनलाइन मोड में प्रशिक्षित नहीं किया जा सकता है, बल्कि केवल बैच मोड में। जाहिर है आप इस सीमा पर ध्यान नहीं देंगे यदि आप अपने वर्गीकरण को अपडेट नहीं करते हैं, लेकिन तब मैं उम्मीद करूंगा कि आप संकल्प में गिरावट देखें।

यह महत्वपूर्ण है क्योंकि उदाहरण के लिए मल्टी-लेयर पेसेप्ट्रॉन के लिए, एक बार जब यह प्रशिक्षित हो जाता है, तो यह डेटा को वर्गीकृत करना शुरू कर सकता है; उस डेटा का उपयोग पहले से प्रशिक्षित क्लासिफायर को 'ट्यून' करने के लिए भी किया जा सकता है, हालांकि डिसीजन ट्रीज़ के साथ, आपको पूरे डेटा सेट (ट्रेनिंग में इस्तेमाल होने वाला मूल डेटा और किसी नए उदाहरण) के साथ पीछे हटना होगा।

चर के बीच जटिल संबंधों के साथ डेटा पर गरीब संकल्प

निर्णय पेड़ अज्ञात कक्षा के डेटा बिंदु के चरण-वार मूल्यांकन द्वारा वर्गीकृत करते हैं, समय पर एक नोड, रूट नोड से शुरू होकर एक टर्मिनल नोड के साथ समाप्त होता है। और प्रत्येक नोड पर, केवल दो संभावनाएं (बाएं-दाएं) संभव हैं, इसलिए कुछ चर रिश्ते हैं जो निर्णय पेड़ बस सीख नहीं सकते हैं।

व्यावहारिक रूप से वर्गीकरण तक सीमित

निर्णय पेड़ सबसे अच्छा काम करते हैं जब उन्हें एक वर्ग को डेटा बिंदु आवंटित करने के लिए प्रशिक्षित किया जाता है - अधिमानतः केवल कुछ संभव वर्गों में से एक। मुझे विश्वास नहीं है कि मुझे कभी भी रिग्रेशन मोड (जैसे, निरंतर आउटपुट, जैसे मूल्य, या अपेक्षित जीवनकाल) में डिसीजन ट्री का उपयोग करने में कोई सफलता मिली है। यह एक औपचारिक या अंतर्निहित सीमा नहीं है, बल्कि एक व्यावहारिक है। ज्यादातर बार, निर्णय पेड़ों का उपयोग कारकों की भविष्यवाणी या असतत परिणामों के लिए किया जाता है।

निरंतर उम्मीद की चर के साथ गरीब संकल्प

फिर, सिद्धांत रूप में, "पिछले समय की खरीद के बाद से" डाउनलोड समय "या" दिनों की संख्या "जैसे स्वतंत्र चर होना ठीक है - बस अपने विभाजन की कसौटी को विचरण में बदल दें (यह आमतौर पर सूचना एंट्रॉपी या गिन्नी अशुद्धता को असतत चर के लिए है, लेकिन मेरे अनुभव निर्णय पेड़ इन उदाहरणों में शायद ही कभी अच्छी तरह से काम करते हैं। अपवाद "छात्र की आयु" जैसे मामले हैं जो निरंतर दिखता है लेकिन व्यवहार में मूल्यों की सीमा काफी छोटी है (विशेषकर यदि उन्हें पूर्णांक के रूप में रिपोर्ट किया जाता है)।

— डौग
स्रोत

1

प्रदर्शन कोण पर अच्छी कॉल के लिए +1, जिसमें आमतौर पर पर्याप्त खेल नहीं होता है। मैंने देखा है कि बड़े डेटासेट (जैसे SQL सर्वर) के लिए डिज़ाइन किए गए कई सॉफ़्टवेयर प्लेटफ़ॉर्म पर कम से कम अन्य डेटा माइनिंग विधियों की तुलना में निर्णय लेने वाले पेड़ प्रदर्शन मुद्दों में भाग लेते हैं। यह आपके द्वारा लाई गई संपूर्ण रीट्रेनिंग समस्या से अलग है। यह उन मामलों में खराब होता है जहां ओवरफिटिंग होती है (हालांकि यह कई अन्य खनन एल्गोरिदम के बारे में कहा जा सकता है)।

— SQLServerSteve

10

यहां अच्छे उत्तर हैं, लेकिन मुझे आश्चर्य है कि एक बात पर जोर नहीं दिया गया है। CART डेटा के बारे में कोई वितरण संबंधी धारणा नहीं बनाता है, विशेष रूप से प्रतिक्रिया चर। इसके विपरीत, OLS प्रतिगमन (निरंतर प्रतिक्रिया चर के लिए) और रसद प्रतिगमन (कुछ स्पष्ट प्रतिक्रिया चर के लिए), उदाहरण के लिए, है मजबूत मान्यताओं; विशेष रूप से, ओएलएस प्रतिगमन मानता है कि प्रतिक्रिया सशर्त रूप से वितरित की जाती है, और लॉजिस्टिक मानता है कि प्रतिक्रिया द्विपद या बहुपद है।

कार्ट की ऐसी धारणाओं की कमी एक दोधारी तलवार है। जब उन धारणाओं को वारंट नहीं किया जाता है, तो यह दृष्टिकोण को एक रिश्तेदार लाभ देता है। दूसरी ओर, जब वे धारणाएँ धारण करती हैं, तो उन तथ्यों को ध्यान में रखते हुए डेटा से अधिक जानकारी निकाली जा सकती है। यही है, मान्यताओं के सही होने पर मानक प्रतिगमन विधियाँ कार्ट की तुलना में अधिक जानकारीपूर्ण हो सकती हैं।

— गुंग - को पुनः स्थापित मोनिका
स्रोत