CHAID बनाम CRT (या कार्ट)

मैं लगभग 20 भविष्यवक्ताओं (कुछ श्रेणियों के साथ श्रेणीबद्ध) वाले डेटा सेट पर SPSS का उपयोग करके एक निर्णय ट्री वर्गीकरण चला रहा हूं । CHAID (ची-स्क्वैयर ऑटोमैटिक इंटरेक्शन डिटेक्शन) और CRT / CART (क्लासिफिकेशन एंड रिग्रेशन ट्रीज) मुझे अलग-अलग पेड़ दे रहे हैं। क्या कोई CHAID बनाम CRT के सापेक्ष गुणों की व्याख्या कर सकता है? एक विधि का दूसरे पर उपयोग करने के क्या निहितार्थ हैं?

spss cart

— Placidia
स्रोत

मैं कुछ गुणों की सूची दूंगा और बाद में आपको इसकी कीमत के लिए अपना मूल्यांकन दूंगा:

CHAID डिफ़ॉल्ट रूप से मल्टीवे विभाजन का उपयोग करता है (मल्टीवे विभाजन का मतलब है कि वर्तमान नोड दो नोड्स से अधिक में विभाजित है)। यह वांछित हो सकता है या नहीं भी हो सकता है (इससे बेहतर खंड या आसान व्याख्या हो सकती है)। हालांकि, यह निश्चित रूप से नोड्स में नमूना आकार से बाहर पतली है और इस तरह कम गहरे पेड़ों को जन्म देती है। जब विभाजन उद्देश्यों के लिए उपयोग किया जाता है तो यह जल्द ही वापस हो सकता है क्योंकि CHAID को अच्छी तरह से काम करने के लिए एक बड़े नमूना आकार की आवश्यकता होती है। CART द्विआधारी विभाजन करता है (प्रत्येक नोड डिफ़ॉल्ट रूप से दो बेटी नोड्स में विभाजित होता है)।
CHAID का उद्देश्य श्रेणीबद्ध / विवेकाधीन लक्ष्यों के साथ काम करना है (XAID प्रतिगमन के लिए था लेकिन शायद तब से उनका विलय हो गया है)। कार्ट निश्चित रूप से प्रतिगमन और वर्गीकरण कर सकते हैं।
CHAID एक पूर्व-विचार विचार का उपयोग करता है । एक नोड केवल तभी विभाजित होता है जब एक महत्वपूर्ण मानदंड पूरा होता है। ची-स्क्वायर परीक्षण के रूप में बड़े नमूने के आकार की आवश्यकता की उपरोक्त समस्या के साथ यह संबंध केवल छोटे नमूनों में बहुत कम शक्ति है (जो कि प्रभावी रूप से कई परीक्षण के लिए एक बोनफेरोनी सुधार द्वारा और भी कम हो जाता है)। दूसरी ओर CART एक बड़े पेड़ को उगाता है और फिर पेड़ को एक छोटे संस्करण में वापस प्री-ट्यून करता है।
इस प्रकार CHAID शुरू से ही ओवरफिटिंग को रोकने की कोशिश करता है (केवल विभाजन ही महत्वपूर्ण संगति है), जबकि CART आसानी से ओवरफिट कर सकता है जब तक कि पेड़ पीछे नहीं हटता है। दूसरी ओर यह CART को CHAID से और आउट-ऑफ-सैंपल (दिए गए ट्यूनिंग पैरामीटर संयोजन के लिए) से बेहतर प्रदर्शन करने की अनुमति देता है।
मेरी राय में सबसे महत्वपूर्ण अंतर यह है कि CHAID में स्प्लिट वेरिएबल और स्प्लिट पॉइंट सिलेक्शन CART की तरह कम मजबूती से कन्फ्यूज्ड है । यह काफी हद तक अप्रासंगिक है जब पेड़ों को भविष्यवाणी के लिए उपयोग किया जाता है, लेकिन एक महत्वपूर्ण मुद्दा है जब पेड़ों को व्याख्या के लिए उपयोग किया जाता है: एक पेड़ जिसमें एल्गोरिथ्म के उन दो हिस्सों को अत्यधिक भ्रमित किया जाता है, उन्हें "चर चयन में पक्षपातपूर्ण" कहा जाता है (एक दुर्भाग्यपूर्ण नाम) । इसका मतलब यह है कि विभाजित चर चयन कई संभावित विभाजन (मीट्रिक भविष्यवक्ताओं) के साथ चर पसंद करता है। CART उस अर्थ में अत्यधिक "पक्षपाती" है, CHAID इतना नहीं।
सरोगेट विभाजन के साथ CART को पता है कि लापता मानों को कैसे संभाला जाए (सरोगेट विभाजन का अर्थ है कि अनुपलब्ध मानों (NAs) के साथ पूर्वसूचक चर के लिए एल्गोरिथ्म अन्य पूर्वानुमानकर्ता चर का उपयोग करता है जो प्राथमिक विभाजन चर के रूप में "अच्छा" नहीं हैं, लेकिन प्राथमिक द्वारा निर्मित विभाजन को नकल करते हैं। विभाजक)। CHAID के पास ऐसी कोई बात नहीं है।

तो इस बात पर निर्भर करता है कि आपको इसके लिए क्या चाहिए क्योंकि मैं चाहता हूं कि CHAID का उपयोग करें यदि नमूना कुछ आकार का है और व्याख्या के पहलू अधिक महत्वपूर्ण हैं। इसके अलावा, अगर मल्टीवे विभाजन या छोटे पेड़ वांछित हैं तो CHAID बेहतर है। दूसरी ओर CART एक अच्छी तरह से काम करने वाली भविष्यवाणी मशीन है, यदि भविष्यवाणी करना आपका उद्देश्य है, तो मैं CART के लिए जाऊंगा।

— मोमो
स्रोत

(+1)। अच्छा अवलोकन। क्या आप बता सकते हैं कि "मल्टीवे स्प्लिट्स" और "सरोगेट स्प्लिट्स" क्या हैं? यदि विभाजन द्विगुणित नहीं हैं तो मल्टीवे विभाजन हैं?

— २१:२d पर कोल्लेरदश '

@ मोमो: अपडेट किए गए उत्तर के लिए बहुत बहुत धन्यवाद। मल्टीवे स्प्लिट्स के बारे में, मैंने हस्ती एट अल के निम्नलिखित दिलचस्प कथन को पाया है। (2013) सांख्यिकीय शिक्षा के तत्व : "[...] जबकि यह [मल्टीवे विभाजन] कभी-कभी उपयोगी हो सकता है, यह एक अच्छी सामान्य रणनीति नहीं है। [...] चूंकि मल्टीवे विभाजन बाइनरी की एक श्रृंखला द्वारा प्राप्त किया जा सकता है। विभाजन, बाद वाले को पसंद किया जाता है। " मुझे आश्चर्य है कि यह वास्तव में निश्चित है क्योंकि वे राज्य करते हैं (मैं मशीन सीखने के साथ बहुत अनुभवी नहीं हूं) लेकिन दूसरी ओर, उनकी पुस्तक को एक संदर्भ माना जाता है।

— COOLSerdash

हां, बाइनरी विभाजन की एक श्रृंखला मल्टीवे विभाजन के समान हो सकती है। वे अलग भी हो सकते हैं। मैं बयान से सहमत हूं। एक और ध्यान देने वाली बात यह है कि संपूर्ण खोज के साथ विभाजित बिंदुओं की तलाश एल्गोरिदमिक रूप से सरल और किसी दिए गए नोड के बाइनरी विभाजन के लिए तेज़ है।

— मोमो

बहुत पूरा जवाब। मैंने 100.000 से अधिक डेटाबेस के साथ एक रीएर्श में CHAID का उपयोग किया। इस स्तर पर, वर्गीकरण बहुत पहले से है लेकिन मैं अलग-अलग संख्याओं के विभाजन के साथ कुछ बार प्रयास करता हूं और पेड़ के कम गहरे स्तर (SPSS सॉफ्टवेयर इस पैरामीटर को पहले से निर्धारित करने की अनुमति देता है)। इसका कारण यह है कि CHAID कई ग्रूप (मल्टीस्प्लिट) के साथ वर्गीकरण पेड़ उत्पन्न करता है और यदि डेटाबेस बड़ा है तो बहुत बुरा होता है। अंतिम पेड़ कूप विशाल होगा। अंत में, डेटाबेस के नमूने विभाजन के "आंतरिक नियंत्रण" का उपयोग करना न भूलें।

— GoSS

सवाल के बारे में क्या ??

— मधु सरीन

सभी एकल-वृक्ष विधियों में कई तुलनाओं की एक चौंका देने वाली संख्या शामिल होती है जो परिणाम में बहुत अस्थिरता लाती है। इसीलिए संतोषजनक भविष्य कहनेवाला भेदभाव प्राप्त करने के लिए पेड़ के कुछ प्रकार औसत (बैगिंग, बूस्टिंग, रैंडम फॉरेस्ट) आवश्यक है (इसके अलावा आप पेड़ों का लाभ खो देते हैं - व्याख्यात्मकता)। एकल पेड़ों की सादगी काफी हद तक एक भ्रम है। वे सरल हैं क्योंकि वे इस अर्थ में गलत हैं कि पेड़ को डेटा के कई बड़े उपसमुच्चय का प्रशिक्षण देने से पेड़ संरचनाओं के बीच बहुत असहमति होगी।

मैंने किसी भी हाल की CHAID कार्यप्रणाली को नहीं देखा है, लेकिन अपने मूल अवतार में CHAID डेटा की अधिक व्याख्या में एक महान अभ्यास था।

— फ्रैंक हैरेल
स्रोत