हांलांकि इसकी कीमत के बारे निश्चित नहीं हूँ:
दोनों rpart
और ctree
पुनरावर्ती सहसंयोजकों के एक सेट पर मूल्यों के आधार पर निर्भर चर के अविभाज्य विभाजन करते हैं । rpart
और संबंधित एल्गोरिदम आमतौर पर वर्तमान कोवरिएट का चयन करने के लिए सूचना उपायों (जैसे कि गिन्नी गुणांक ) को नियुक्त करते हैं।
ctree
, इसके लेखकों के अनुसार ( chl की टिप्पणियों को देखें ) निम्नलिखित चर चयन पूर्वाग्रह rpart
(और संबंधित विधियों) से बचता है : वे ऐसे चर का चयन करते हैं जिनमें कई संभावित विभाजन या कई लापता मान होते हैं। दूसरों के विपरीत, ctree
एक चर परीक्षण प्रक्रिया का उपयोग करता है ताकि चर का चयन करने के बजाय चर का चयन किया जा सके जो सूचना माप को बढ़ाता है (जैसे कि गिन्नी गुणांक)।
महत्व परीक्षण, या बेहतर: एल्गोरिथ्म के प्रत्येक प्रारंभ में गणना की गई कई महत्वपूर्ण परीक्षण (चुनिंदा कोवरिएट - स्प्लिट - रिकर्स) क्रमपरिवर्तन परीक्षण हैं , अर्थात् , "परिकल्पना के तहत परीक्षण सांख्यिकीय का वितरण" गणना द्वारा प्राप्त किया जाता है। देखे गए डेटा बिंदुओं पर लेबल के पुनर्व्यवस्था के तहत परीक्षण सांख्यिकीय के सभी संभावित मूल्य। " (विकिपीडिया लेख से)।
अब परीक्षण आँकड़ा के लिए: यह आश्रित चर और सहसंयोजकों के परिवर्तनों (पहचान सहित, कोई परिवर्तन नहीं) से गणना की जाती है। आप दोनों चरों के लिए कई प्रकार के परिवर्तन चुन सकते हैं। DV (डिपेंडेंट वेरिएबल) के लिए, परिवर्तन को उस प्रभाव फ़ंक्शन को कहा जाता है जिसके बारे में आप पूछ रहे थे।
उदाहरण ( कागज से लिया गया ):
- यदि DV और कोवरिएट्स दोनों संख्यात्मक हैं, तो आप पहचान परिवर्तन का चयन कर सकते हैं और कोवरिएट और DV के मूल्यों के सभी संभावित क्रमों के बीच सहसंबंधों की गणना कर सकते हैं। उसके बाद, आप की गणना पी इस क्रमचय परीक्षण से -value और से इसकी तुलना पी अन्य covariates के लिए -values।
- यदि DV और कोवरिएट्स दोनों नाममात्र (अव्यवस्थित श्रेणीबद्ध) हैं, तो परीक्षण आँकड़ा एक आकस्मिक तालिका से गणना की जाती है।
- आप इस सामान्य योजना से किसी भी प्रकार के परिवर्तनों (पहचान परिवर्तन सहित) से अन्य प्रकार के परीक्षण आँकड़े आसानी से बना सकते हैं।
क्रमपरिवर्तन परीक्षण के लिए छोटा उदाहरण R
:
require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE)
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate))
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test
अब मान लीजिए कि आपके पास कोविरेट्स का एक सेट है, न कि केवल ऊपर के रूप में। फिर गणना पी ऊपर योजना में की तरह covariates से प्रत्येक के लिए -values, और छोटी से छोटी के साथ एक को चुनें पी -value। आप सीधे सहसंबंधों के बजाय p -values की गणना करना चाहते हैं, क्योंकि आपके पास विभिन्न प्रकार (जैसे संख्यात्मक और श्रेणीबद्ध) के सहसंयोजक हो सकते हैं।
एक बार जब आपने एक कोवरिएट का चयन कर लिया है, तो अब सभी संभावित विभाजन का पता लगाएं (या अक्सर सभी संभावित विभाजन की किसी न किसी तरह से प्रतिबंधित संख्या, उदाहरण के लिए, विभाजन से पहले DV के तत्वों की न्यूनतम संख्या की आवश्यकता होती है) फिर से क्रमचय-आधारित परीक्षण का मूल्यांकन करते हैं।
ctree
के लिए दोनों डीवी और covariates संभव परिवर्तनों के एक नंबर के साथ आता है (के लिए सहायता देखने Transformations
में party
पैकेज)।
इसलिए आम तौर पर मुख्य अंतर यह प्रतीत होता है कि ctree
एक कोवरिएट चयन योजना का उपयोग किया जाता है जो सांख्यिकीय सिद्धांत पर आधारित है (यानी क्रमपरिवर्तन-आधारित महत्व परीक्षणों द्वारा चयन) और इस तरह से एक संभावित पूर्वाग्रह से बचा जाता है rpart
, अन्यथा वे समान लगते हैं; उदाहरण के लिए, सशर्त आक्रमण वृक्षों का उपयोग रैंडम फॉरेस्ट के लिए बेस लर्नर के रूप में किया जा सकता है।
यह लगभग उतना ही है जितना मुझे मिल सकता है। अधिक जानकारी के लिए, आपको वास्तव में पेपर पढ़ने की आवश्यकता है। ध्यान दें कि मैं दृढ़ता से अनुशंसा करता हूं कि आप वास्तव में जानते हैं कि जब आप किसी भी तरह के सांख्यिकीय विश्लेषण को लागू करना चाहते हैं तो आप क्या कर रहे हैं।