निर्णय वृक्ष एक बहुत ही समझ में आने वाली मशीन सीखने की विधि है। एक बार बनने के बाद इसका मानव द्वारा आसानी से निरीक्षण किया जा सकता है जो कुछ अनुप्रयोगों में एक बड़ा फायदा है।
निर्णय पेड़ों के व्यावहारिक कमजोर पक्ष क्या हैं?
निर्णय वृक्ष एक बहुत ही समझ में आने वाली मशीन सीखने की विधि है। एक बार बनने के बाद इसका मानव द्वारा आसानी से निरीक्षण किया जा सकता है जो कुछ अनुप्रयोगों में एक बड़ा फायदा है।
निर्णय पेड़ों के व्यावहारिक कमजोर पक्ष क्या हैं?
जवाबों:
यहाँ एक जोड़ी है जिसके बारे में मैं सोच सकता हूँ:
इनमें से कुछ मल्टीकोलिनरिटी की समस्या से संबंधित हैं : जब दो चर दोनों एक ही बात को समझाते हैं, तो एक निर्णय वृक्ष लालच से सबसे अच्छा एक का चयन करेगा, जबकि कई अन्य तरीके उन दोनों का उपयोग करेंगे। बेतरतीब जंगलों जैसे तरीकों को इकट्ठा करना एक निश्चित सीमा तक इसे नकार सकता है, लेकिन आप समझने में आसानी खो देते हैं।
हालांकि, सबसे बड़ी समस्या, मेरे दृष्टिकोण से कम से कम, एक राजसी संभावनावादी ढांचे की कमी है। कई अन्य तरीकों में आत्मविश्वास अंतराल, पीछे के वितरण आदि जैसी चीजें हैं, जो हमें कुछ विचार देती हैं कि मॉडल कितना अच्छा है। एक निर्णय पेड़ अंततः एक तदर्थ अनुमानी है, जो अभी भी बहुत उपयोगी हो सकता है (वे डेटा प्रोसेसिंग में बग के स्रोत खोजने के लिए उत्कृष्ट हैं), लेकिन आउटपुट को "सही मॉडल" के रूप में मानने वाले लोगों का खतरा है अनुभव, यह विपणन में बहुत कुछ होता है)।
एक नुकसान यह है कि सभी शर्तों को बातचीत करने के लिए ग्रहण किया जाता है। अर्थात्, आपके पास दो व्याख्यात्मक चर नहीं हो सकते हैं जो स्वतंत्र रूप से व्यवहार करते हैं। पेड़ के प्रत्येक चर को पेड़ के हर चर के साथ बातचीत करने के लिए मजबूर किया जाता है। यह बेहद अक्षम है अगर ऐसे चर हैं जिनके पास कोई कमजोर या कमजोर बातचीत नहीं है।
मेरा जवाब CART (C 4.5 / C 5 कार्यान्वयन) के लिए निर्देशित है, हालांकि मुझे नहीं लगता कि यह सीमित है। मेरा अनुमान है कि यह वही है जो ओपी के मन में है - यह आमतौर पर किसी का मतलब है जब वे कहते हैं "निर्णय ट्री।"
निर्णय पेड़ों की सीमाएं :
कम प्रदर्शन
'प्रदर्शन' से मेरा मतलब रिज़ॉल्यूशन नहीं है, बल्कि निष्पादन की गति है । गरीब होने का कारण यह है कि आपको हर बार अपने CART मॉडल को अपडेट करने की इच्छा रखने वाले पेड़ को 'फिर से बनाना' चाहिए - पहले से प्रशिक्षित ट्री द्वारा वर्गीकृत डेटा, जिसे आप तब ट्री में जोड़ना चाहते हैं (यानी, एक के रूप में उपयोग करें) प्रशिक्षण डेटा बिंदु) के लिए आवश्यक है कि आप शुरू करें - प्रशिक्षण के उदाहरणों को वृद्धिशील रूप से नहीं जोड़ा जा सकता है, क्योंकि वे अधिकांश अन्य पर्यवेक्षित शिक्षण एल्गोरिदम के लिए कर सकते हैं। यह बताने का शायद सबसे अच्छा तरीका है कि निर्णय पेड़ों को ऑनलाइन मोड में प्रशिक्षित नहीं किया जा सकता है, बल्कि केवल बैच मोड में। जाहिर है आप इस सीमा पर ध्यान नहीं देंगे यदि आप अपने वर्गीकरण को अपडेट नहीं करते हैं, लेकिन तब मैं उम्मीद करूंगा कि आप संकल्प में गिरावट देखें।
यह महत्वपूर्ण है क्योंकि उदाहरण के लिए मल्टी-लेयर पेसेप्ट्रॉन के लिए, एक बार जब यह प्रशिक्षित हो जाता है, तो यह डेटा को वर्गीकृत करना शुरू कर सकता है; उस डेटा का उपयोग पहले से प्रशिक्षित क्लासिफायर को 'ट्यून' करने के लिए भी किया जा सकता है, हालांकि डिसीजन ट्रीज़ के साथ, आपको पूरे डेटा सेट (ट्रेनिंग में इस्तेमाल होने वाला मूल डेटा और किसी नए उदाहरण) के साथ पीछे हटना होगा।
चर के बीच जटिल संबंधों के साथ डेटा पर गरीब संकल्प
निर्णय पेड़ अज्ञात कक्षा के डेटा बिंदु के चरण-वार मूल्यांकन द्वारा वर्गीकृत करते हैं, समय पर एक नोड, रूट नोड से शुरू होकर एक टर्मिनल नोड के साथ समाप्त होता है। और प्रत्येक नोड पर, केवल दो संभावनाएं (बाएं-दाएं) संभव हैं, इसलिए कुछ चर रिश्ते हैं जो निर्णय पेड़ बस सीख नहीं सकते हैं।
व्यावहारिक रूप से वर्गीकरण तक सीमित
निर्णय पेड़ सबसे अच्छा काम करते हैं जब उन्हें एक वर्ग को डेटा बिंदु आवंटित करने के लिए प्रशिक्षित किया जाता है - अधिमानतः केवल कुछ संभव वर्गों में से एक। मुझे विश्वास नहीं है कि मुझे कभी भी रिग्रेशन मोड (जैसे, निरंतर आउटपुट, जैसे मूल्य, या अपेक्षित जीवनकाल) में डिसीजन ट्री का उपयोग करने में कोई सफलता मिली है। यह एक औपचारिक या अंतर्निहित सीमा नहीं है, बल्कि एक व्यावहारिक है। ज्यादातर बार, निर्णय पेड़ों का उपयोग कारकों की भविष्यवाणी या असतत परिणामों के लिए किया जाता है।
निरंतर उम्मीद की चर के साथ गरीब संकल्प
फिर, सिद्धांत रूप में, "पिछले समय की खरीद के बाद से" डाउनलोड समय "या" दिनों की संख्या "जैसे स्वतंत्र चर होना ठीक है - बस अपने विभाजन की कसौटी को विचरण में बदल दें (यह आमतौर पर सूचना एंट्रॉपी या गिन्नी अशुद्धता को असतत चर के लिए है, लेकिन मेरे अनुभव निर्णय पेड़ इन उदाहरणों में शायद ही कभी अच्छी तरह से काम करते हैं। अपवाद "छात्र की आयु" जैसे मामले हैं जो निरंतर दिखता है लेकिन व्यवहार में मूल्यों की सीमा काफी छोटी है (विशेषकर यदि उन्हें पूर्णांक के रूप में रिपोर्ट किया जाता है)।
यहां अच्छे उत्तर हैं, लेकिन मुझे आश्चर्य है कि एक बात पर जोर नहीं दिया गया है। CART डेटा के बारे में कोई वितरण संबंधी धारणा नहीं बनाता है, विशेष रूप से प्रतिक्रिया चर। इसके विपरीत, OLS प्रतिगमन (निरंतर प्रतिक्रिया चर के लिए) और रसद प्रतिगमन (कुछ स्पष्ट प्रतिक्रिया चर के लिए), उदाहरण के लिए, है मजबूत मान्यताओं; विशेष रूप से, ओएलएस प्रतिगमन मानता है कि प्रतिक्रिया सशर्त रूप से वितरित की जाती है, और लॉजिस्टिक मानता है कि प्रतिक्रिया द्विपद या बहुपद है।
कार्ट की ऐसी धारणाओं की कमी एक दोधारी तलवार है। जब उन धारणाओं को वारंट नहीं किया जाता है, तो यह दृष्टिकोण को एक रिश्तेदार लाभ देता है। दूसरी ओर, जब वे धारणाएँ धारण करती हैं, तो उन तथ्यों को ध्यान में रखते हुए डेटा से अधिक जानकारी निकाली जा सकती है। यही है, मान्यताओं के सही होने पर मानक प्रतिगमन विधियाँ कार्ट की तुलना में अधिक जानकारीपूर्ण हो सकती हैं।