पारंपरिक निर्णय पेड़ों बनाम सशर्त आक्रमण पेड़

क्या कोई और पारंपरिक निर्णय ट्री एल्गोरिदम (जैसे आर) की तुलना में सशर्त प्रवेश पेड़ों ( आर में पैकेज ctreeसे party) के बीच प्राथमिक अंतर को समझा सकता है rpart?

क्या सीआई पेड़ अलग बनाता है?
शक्तियां और कमजोरियां?

अद्यतन: मैंने Horthorn et al द्वारा कागज पर देखा है कि ची टिप्पणियों में संदर्भित करता है। मैं इसे पूरी तरह से पालन करने में सक्षम नहीं था - क्या कोई यह समझा सकता है कि क्रमपरिवर्तन का उपयोग करके चर कैसे चुने जाते हैं (जैसे कि एक प्रभाव कार्य क्या है)?

धन्यवाद!

r machine-learning cart

— B_Miner
स्रोत

आपका मतलब है कि होथोर्न के कागज में वर्णित वर्णन से आगे क्या है ? मुझे IMPS2009 सम्मेलन में कैरोलिन स्ट्रोब से कुछ अच्छे चित्र याद हैं ; मुझे लगता है कि उसकी वेबसाइट पर कुछ हैंडआउट हैं।

— chl

यह लिंक विभिन्न प्रकार के निर्णय ट्री पैकेजों r-bloggers.com/a-brief-tour-of-the-trees-and-forests

— Archpaul

हांलांकि इसकी कीमत के बारे निश्चित नहीं हूँ:

दोनों rpartऔर ctreeपुनरावर्ती सहसंयोजकों के एक सेट पर मूल्यों के आधार पर निर्भर चर के अविभाज्य विभाजन करते हैं । rpartऔर संबंधित एल्गोरिदम आमतौर पर वर्तमान कोवरिएट का चयन करने के लिए सूचना उपायों (जैसे कि गिन्नी गुणांक ) को नियुक्त करते हैं।

ctree, इसके लेखकों के अनुसार ( chl की टिप्पणियों को देखें ) निम्नलिखित चर चयन पूर्वाग्रह rpart(और संबंधित विधियों) से बचता है : वे ऐसे चर का चयन करते हैं जिनमें कई संभावित विभाजन या कई लापता मान होते हैं। दूसरों के विपरीत, ctreeएक चर परीक्षण प्रक्रिया का उपयोग करता है ताकि चर का चयन करने के बजाय चर का चयन किया जा सके जो सूचना माप को बढ़ाता है (जैसे कि गिन्नी गुणांक)।

महत्व परीक्षण, या बेहतर: एल्गोरिथ्म के प्रत्येक प्रारंभ में गणना की गई कई महत्वपूर्ण परीक्षण (चुनिंदा कोवरिएट - स्प्लिट - रिकर्स) क्रमपरिवर्तन परीक्षण हैं , अर्थात् , "परिकल्पना के तहत परीक्षण सांख्यिकीय का वितरण" गणना द्वारा प्राप्त किया जाता है। देखे गए डेटा बिंदुओं पर लेबल के पुनर्व्यवस्था के तहत परीक्षण सांख्यिकीय के सभी संभावित मूल्य। " (विकिपीडिया लेख से)।

अब परीक्षण आँकड़ा के लिए: यह आश्रित चर और सहसंयोजकों के परिवर्तनों (पहचान सहित, कोई परिवर्तन नहीं) से गणना की जाती है। आप दोनों चरों के लिए कई प्रकार के परिवर्तन चुन सकते हैं। DV (डिपेंडेंट वेरिएबल) के लिए, परिवर्तन को उस प्रभाव फ़ंक्शन को कहा जाता है जिसके बारे में आप पूछ रहे थे।

उदाहरण ( कागज से लिया गया ):

यदि DV और कोवरिएट्स दोनों संख्यात्मक हैं, तो आप पहचान परिवर्तन का चयन कर सकते हैं और कोवरिएट और DV के मूल्यों के सभी संभावित क्रमों के बीच सहसंबंधों की गणना कर सकते हैं। उसके बाद, आप की गणना पी इस क्रमचय परीक्षण से -value और से इसकी तुलना पी अन्य covariates के लिए -values।
यदि DV और कोवरिएट्स दोनों नाममात्र (अव्यवस्थित श्रेणीबद्ध) हैं, तो परीक्षण आँकड़ा एक आकस्मिक तालिका से गणना की जाती है।
आप इस सामान्य योजना से किसी भी प्रकार के परिवर्तनों (पहचान परिवर्तन सहित) से अन्य प्रकार के परीक्षण आँकड़े आसानी से बना सकते हैं।

क्रमपरिवर्तन परीक्षण के लिए छोटा उदाहरण R:

require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE) 
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate)) 
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the 
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test

अब मान लीजिए कि आपके पास कोविरेट्स का एक सेट है, न कि केवल ऊपर के रूप में। फिर गणना पी ऊपर योजना में की तरह covariates से प्रत्येक के लिए -values, और छोटी से छोटी के साथ एक को चुनें पी -value। आप सीधे सहसंबंधों के बजाय p -values की गणना करना चाहते हैं, क्योंकि आपके पास विभिन्न प्रकार (जैसे संख्यात्मक और श्रेणीबद्ध) के सहसंयोजक हो सकते हैं।

एक बार जब आपने एक कोवरिएट का चयन कर लिया है, तो अब सभी संभावित विभाजन का पता लगाएं (या अक्सर सभी संभावित विभाजन की किसी न किसी तरह से प्रतिबंधित संख्या, उदाहरण के लिए, विभाजन से पहले DV के तत्वों की न्यूनतम संख्या की आवश्यकता होती है) फिर से क्रमचय-आधारित परीक्षण का मूल्यांकन करते हैं।

ctreeके लिए दोनों डीवी और covariates संभव परिवर्तनों के एक नंबर के साथ आता है (के लिए सहायता देखने Transformationsमें partyपैकेज)।

इसलिए आम तौर पर मुख्य अंतर यह प्रतीत होता है कि ctreeएक कोवरिएट चयन योजना का उपयोग किया जाता है जो सांख्यिकीय सिद्धांत पर आधारित है (यानी क्रमपरिवर्तन-आधारित महत्व परीक्षणों द्वारा चयन) और इस तरह से एक संभावित पूर्वाग्रह से बचा जाता है rpart, अन्यथा वे समान लगते हैं; उदाहरण के लिए, सशर्त आक्रमण वृक्षों का उपयोग रैंडम फॉरेस्ट के लिए बेस लर्नर के रूप में किया जा सकता है।

यह लगभग उतना ही है जितना मुझे मिल सकता है। अधिक जानकारी के लिए, आपको वास्तव में पेपर पढ़ने की आवश्यकता है। ध्यान दें कि मैं दृढ़ता से अनुशंसा करता हूं कि आप वास्तव में जानते हैं कि जब आप किसी भी तरह के सांख्यिकीय विश्लेषण को लागू करना चाहते हैं तो आप क्या कर रहे हैं।

— wolf.rauch
स्रोत

इसलिए निम्नलिखित कहना उचित होगा: 1. सिद्धांत रूप में, यदि महत्व परीक्षण उपलब्ध थे और गिन्नी के लिए गणना करना आसान था, तो किसी भी वर्तमान निर्णय पेड़ बिल्डर को इनसे संवर्धित किया जा सकता है; 2. लेकिन व्यवहार में वे उपलब्ध नहीं हैं (यानी गणना के लिए बहुत कठिन / अक्षम); 3. CI पेड़ों के लेखकों ने विभाजन के मानदंडों में से एक परिवार को चुना। यह जरूरी नहीं कि वर्गीकरण सटीकता के लिए सबसे अच्छा परिवार है, लेकिन कम से कम इसके लिए महत्व की गणना करना आसान है; 4. और इसलिए सीआई पेड़ों की कमजोरी यह है कि आपको इस विशिष्ट मानदंड का उपयोग करने की आवश्यकता है?

— शेल्डनकोपर

@SheldonCooper: 1. और 2. मेरे सिर पर थोड़ा हो सकता है। मुझे लगता है कि आप 3. के बारे में सही और 4. हैं

— wolf.rauch

(...) और DV के मूल्यों के सभी संभावित क्रमांकन "DV के मूल्यों के सभी संभावित क्रमोन्नति! 10 तत्वों के सभी संभावित क्रमों को खोजने के लिए 130 सेकंड से अधिक का समय लगता है। इससे अधिक होने पर सीआई के पेड़ बेकार हो जाएंगे।" 20 प्रेक्षण। - एक मॉडरेटर द्वारा जोड़ा गया।

— chl

मैं माफी चाहता हूँ, लेकिन क्या DV के लिए खड़ा है?

— मिथिकलप्रोग्राममर

@mythicalprogrammer आश्रित चर, मुझे लगता है

— फ्राकस्टर