डीवियनस क्या है? (विशेष रूप से कार्ट / रिपर में)


45

"डीवियनस" क्या है, इसकी गणना कैसे की जाती है, और आंकड़ों में विभिन्न क्षेत्रों में इसके उपयोग क्या हैं?

विशेष रूप से, मैं व्यक्तिगत रूप से CART में इसके उपयोगों में रुचि रखता हूं (और R में इसके कार्यान्वयन में)।

मैं यह पूछ रहा हूं क्योंकि विकी-लेख में कुछ कमी है और आपकी अंतर्दृष्टि का सबसे अधिक स्वागत किया जाएगा।

जवाबों:


48

डीवियन और जीएलएम

औपचारिक रूप से, व्यक्ति दो संभावित मॉडल के बीच की दूरी के रूप में भक्ति देख सकता है; जीएलएम संदर्भ में, यह दो नेस्टेड मॉडल बीच संभावना के लॉग अनुपात का दो गुना है, जहां "छोटा" मॉडल है; जैसा कि @suncoolsu ने कहा है कि मॉडल मापदंडों पर एक रेखीय प्रतिबंध (cf. द नेमन-पियर्सन लेम्मा ) है। जैसे, इसका उपयोग मॉडल तुलना करने के लिए किया जा सकता है । इसे ओएलएस आकलन (एनोवा, रिग्रेशन) में इस्तेमाल आरएसएस के सामान्यीकरण के रूप में भी देखा जा सकता है, क्योंकि यह अशक्त मॉडल (केवल अवरोधन) की तुलना में मूल्यांकन किए जाने वाले मॉडल की अच्छाई-की-फिट का एक माप प्रदान करता है । यह LM के साथ भी काम करता है:1/00

> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)

अवशिष्ट एसएस (RSS) की गणना में की जाती है, जिसे आसानी से प्राप्त किया जाता है:ε^tε^

> t(residuals(lm.res))%*%residuals(lm.res)
         [,1]
[1,] 98.66754

या (अनधिकृत)R2

> summary(lm.res)

Call:
lm(formula = y ~ x)

(...)

Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175 
F-statistic: 71.97 on 1 and 98 DF,  p-value: 2.334e-13 

चूँकि जहाँ कुल विचरण है। ध्यान दें कि यह सीधे एक एनोवा तालिका में उपलब्ध है, जैसेR2=1RSS/TSSTSS

> summary.aov(lm.res)
            Df Sum Sq Mean Sq F value    Pr(>F)    
x            1 72.459  72.459  71.969 2.334e-13 ***
Residuals   98 98.668   1.007                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

अब, विचलन को देखो:

> deviance(lm.res)
[1] 98.66754

वास्तव में, रैखिक मॉडल के लिए अवमूल्यन आरएसएस के बराबर होता है (आप याद कर सकते हैं कि ऐसे मामले में ओएलएस और एमएल अनुमान मेल खाते हैं)।

Deviance और CART

हम CART को पहले से ही लेबल वाले व्यक्तियों को मनमानी कक्षाओं (एक वर्गीकरण संदर्भ में) में आवंटित करने के तरीके के रूप में देख सकते हैं । पेड़ों को व्यक्तियों की वर्ग सदस्यता के लिए संभाव्यता मॉडल प्रदान करने के रूप में देखा जा सकता है। इसलिए, प्रत्येक नोड पर, कक्षाओं में हमारे पास प्रायिकता वितरण । यहां जो महत्वपूर्ण है वह यह है कि पेड़ की पत्तियां हमें द्वारा निर्दिष्ट वितरण से एक यादृच्छिक नमूना । इस प्रकार, हम सभी पत्तियों के योग के रूप में एक पेड़, की भक्ति को परिभाषित कर सकते हैंnipiknikpikD

Di=2kniklog(pik),

वेनबल्स और रिप्ले के नोटेशन ( MASS , स्प्रिंगर 2002, 4th एड।) के बाद। यदि आपके पास आर उपयोगकर्ताओं (आईएमएचओ) के लिए इस आवश्यक संदर्भ तक पहुंच है, तो आप स्वयं जांच कर सकते हैं कि नोड्स को विभाजित करने और अवलोकन डेटा के लिए पेड़ को फिटिंग करने के लिए इस तरह के दृष्टिकोण का उपयोग कैसे किया जाता है (पी। 255 एफएफ।); मूल रूप से, विचार यह है कि पेड़ को काटकर, जहां पेड़ में नोड्स की संख्या है । यहां हम लागत-जटिलता व्यापार बंद को पहचानते हैं । यहाँ, , नोड अशुद्धता की अवधारणा के बराबर है (अर्थात, किसी दिए गए नोड पर वितरण की विविधता) जो एन्ट्रापी या सूचना प्राप्त करने के उपाय पर आधारित है, या रूप में परिभाषित प्रसिद्ध गिनी सूचकांक,D+α#(T)#(T)TD1kpik2 (अज्ञात अनुपात नोड अनुपात से अनुमानित हैं)।

एक प्रतिगमन पेड़ के साथ, विचार काफी समान है, और हम उस व्यक्ति के लिए परिभाषित वर्गों के योग के रूप में अवमूल्यन की अवधारणा कर सकते हैं, जिसके द्वाराj

Di=j(yjμi)2,

सभी पत्तियों पर अभिव्यक्त। यहाँ, प्रायिकता मॉडल जो प्रत्येक पत्ती के भीतर माना जाता है, एक । वेनबल्स और रिप्ले (पी। 256) का हवाला देते हुए, " एक गाऊसी जीएलएम के लिए सामान्य रूप से फैला हुआ विचलन है। हालांकि, पेड़ के आंतरिक नोड्स पर वितरण फिर सामान्य वितरण का मिश्रण है, और इसलिए पत्तियों पर ही उपयुक्त है। ट्री-कंस्ट्रक्शन प्रक्रिया को संभाव्यता मॉडल के पदानुक्रमित शोधन के रूप में देखा जाना चाहिए , जो प्रतिगमन में फॉरवर्ड वेरिएबल के समान है । " धारा 9.2 कार्यान्वयन के बारे में और विस्तृत जानकारी प्रदान करता है , लेकिन आप पहले से ही इसके लिए कार्य देख सकते हैंN(μi,σ2)DDirpartresiduals()rpart ऑब्जेक्ट, जहां "अवशिष्ट अवशिष्ट" की गणना फिटेड मॉडल के लघुगणक से दो बार माइनस के वर्गमूल के रूप में की जाती है।

एटकिंसन और थर्नेओ द्वारा राउटर रूटीन का उपयोग करके पुनरावर्ती विभाजन का एक परिचय भी एक अच्छी शुरुआत है। अधिक सामान्य समीक्षा (बैगिंग सहित) के लिए, मैं सुझाऊंगा


1
+1 अच्छा जवाब chl, जो, जैसा कि आप कहते हैं, मेरा पूरक है तो वहाँ कोई समस्या नहीं है। बहुत अच्छी तरह से डाल दिया।
मोनिका को बहाल करें - जी। सिम्पसन

एक मामूली बात - शायद lm.fitआपके उदाहरण में उपयोग करना सबसे अच्छा नहीं है , क्योंकि इसके पीछे वर्कहॉर्स का नाम है lm
मोनिका को बहाल करें - जी सिम्पसन

@ गेविन ओह, हाँ, यह सही है। मुझे याद दिलाने के लिए Thx, मैं अक्सर यह गलती करता हूं ...
chl

3
सिर्फ एक टिप्पणी: रैखिक प्रतिगमन के लिए Deviance, RSS के बराबर है क्योंकि त्रुटियों की सामान्यता का अर्थ है कि RSS LR परीक्षण आँकड़ा के समान है, जिसका अर्थ है कि Deviance सामान्य रूप से वितरित किया जाता है, भले ही विषमता हो । यह केवल (मुझे लगता है) chl की टिप्पणी का एक विस्तार है।
सूर्यास्तसू

@ suncoolsu यदि यह ML और OLS अनुमानों के बारे में मेरी टिप्पणी के बारे में है, तो मेरा मतलब है कि " (यानी लीनियर मॉडल में) के लिए" एक गौसियन वितरण मान रहा है " । आपकी टिप्पणी का स्वागत है। εi
CHL

25

यह थोड़ा स्पष्ट हो सकता है अगर हम एक आदर्श मॉडल के बारे में सोचते हैं जिसमें कई मानदंड हैं जैसे कि यह प्रतिक्रिया में सभी प्रकारों के बारे में बताता है। यह संतृप्त मॉडल है। डीविंस बस एक उम्मीदवार मॉडल के "फिट" और संतृप्त मॉडल के अंतर को मापता है।

एक प्रतिगमन वृक्ष में, संतृप्त मॉडल वह होगा जिसमें टिप्पणियों के रूप में कई टर्मिनल नोड्स (पत्ते) होते हैं ताकि यह पूरी तरह से प्रतिक्रिया में फिट हो। एक सरल मॉडल के अवतरण की गणना सभी नोड्स पर अभिव्यक्त वर्गों के नोड अवशिष्ट योगों के रूप में की जा सकती है। दूसरे शब्दों में, पूर्वानुमानित और देखे गए मूल्यों के बीच चुकता अंतर का योग। यह उसी तरह की त्रुटि है (या विचलन) जिसका उपयोग कम से कम वर्गों के प्रतिगमन में किया जाता है।

एक वर्गीकरण के पेड़ के लिए, वर्गों की अवशिष्ट रकम फिट की कमी का सबसे उपयुक्त उपाय नहीं है। इसके बजाय, विचलन का एक वैकल्पिक उपाय है, साथ ही पेड़ों को एन्ट्रापी माप या गिन्नी इंडेक्स को न्यूनतम किया जा सकता है। बाद वाला डिफ़ॉल्ट है rpart। गिनी सूचकांक की गणना इस प्रकार है:

Di=1k=1Kpik2

जहां नोड में वर्ग का मनाया अनुपात है । यह उपाय पेड़ के सभी टर्मिनल नोड्स में सम्‍मिलित है, जो फिट किए गए ट्री मॉडल के लिए एक देवता पर पहुंचने के लिए है। k i ipikkii


(+1) क्षमा करें, मेरी पोस्ट बाद में आई और मैंने आपको नोटिस नहीं किया। जैसा कि मुझे लगता है कि वे बहुत अधिक ओवरलैप नहीं करते हैं, अगर आप बुरा नहीं मानते हैं, तो मैं उन्हें छोड़ दूंगा।
CHL

तो, विचलन अच्छाई-ऑफ-द फिट का एक उपाय, सही है? AFAIK, प्रतिगमन में, हमारे पास गुडनेस-ऑफ-फिट को मापने के लिए कुछ आंकड़े (जैसे कि आरएसएस, ) हैं; और वर्गीकरण में, हम गर्भपात दर का उपयोग कर सकते हैं। क्या मैं सही हू? R2
एवोकैडो

11

डिलियन्स नल की परिकल्पना के परीक्षण के लिए संभावना-अनुपात सांख्यिकीय है जो मॉडल फिर से सामान्य विकल्प (यानी, संतृप्त मॉडल) रखता है। कुछ पॉइसन और द्विपद जीएलएम के लिए, की संख्या परिलक्षित होती है क्योंकि व्यक्तिगत गणना आकार में बढ़ जाती है। फिर देवता के पास चि-स्क्वैयर एसिम्प्टोटिक नल वितरण है । स्वतंत्रता की डिग्री = एन - पी, जहां पी मॉडल मापदंडों की संख्या है; यानी, यह संतृप्त और असंतृप्त मॉडल में मुक्त मापदंडों की संख्या के बराबर है। तब विचलन मॉडल फिट के लिए एक परीक्षण प्रदान करता है।N

Deviance=2[L(μ^|y)L(y|y)]

हालांकि, ज्यादातर बार, आप परीक्षण करना चाहते हैं यदि आपको कुछ चर छोड़ने की आवश्यकता है। कहते हैं कि दो मॉडल और , क्रमशः और मापदंडों के साथ , और आपको यह परीक्षण करने की आवश्यकता है कि इन दोनों में से कौन सा बेहतर है। मान लें कि , अर्थात नेस्टेड मॉडल का एक विशेष मामला है । M1M2p1p2M1M2

उस स्थिति में, विचलन का अंतर लिया जाता है:

ΔDeviance=2[L(μ1^|y)L(μ2^|y)]

ध्यान दें कि संतृप्त मॉडल की लॉग संभावना और की स्वतंत्रता की डिग्री बदल । यह वही है जो हम सबसे अधिक उपयोग करते हैं जब हमें परीक्षण करने की आवश्यकता होती है कि कुछ पैरामीटर 0 हैं या नहीं। लेकिन जब आप डिवोर्स आउटपुट में फिट होते हैं तो संतृप्त मॉडल बनाम वर्तमान मॉडल के लिए होता है।p 2 - p 1ΔDeviancep2p1glmR

यदि आप अधिक विवरण में पढ़ना चाहते हैं: cf: एलन एगेस्टी द्वारा श्रेणीबद्ध डेटा विश्लेषण, पीपी 118।


@ ताल, मैं उपयोग नहीं करता हूं rpartऔर मैं इस मंच के अधिक अनुभवी सदस्यों को जवाब छोड़ दूंगा।
सनकूलू

मुझे लगता है कि मुझे यह विचार मिल गया है ... लेकिन प्रतिपक्ष पेड़ों प्रतिगमन पेड़ों के लिए भी प्रिंट प्रिंट Oo
deps_stats

@deps_stats वृक्ष के टर्मिनल नोड्स पर अभिव्यक्त वर्गों का नोड अवशिष्ट योग है।
मोनिका की बहाली - जी। सिम्पसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.