फिट विश्लेषण की अच्छाई के लिए मजबूत रेखीय मॉडल में एक भारित


19

मैंने MASS पैकेज Rका उपयोग करके एमएम वेट के साथ एक मजबूत रैखिक मॉडल का अनुमान लगाया rlm()। `R`` मॉडल के लिए मान प्रदान नहीं करता है , लेकिन अगर यह एक सार्थक मात्रा है, तो मैं एक होना चाहूंगा। मुझे यह जानने में भी दिलचस्पी है कि क्या मूल्य होने का कोई मतलब है जो कुल रेजिडेंशियल वैरिएंट का वजन उसी तरह से होता है जिस तरह से अवलोकन को मजबूत प्रतिगमन में भारित किया गया था। मेरी सामान्य सोच यह है कि, यदि प्रतिगमन के प्रयोजनों के लिए, हम अनिवार्य रूप से कुछ अनुमानों को कम प्रभाव देने वाले भार के साथ हैं क्योंकि वे किसी तरह से आउटलेर हैं, तो शायद r 2 की गणना करने के उद्देश्य से हमें उन्हें भी देना चाहिए कम प्रभाव का अनुमान है?आर 2आर2आर2आर2

मैंने और भारित R 2 के लिए दो सरल कार्य लिखे , वे नीचे हैं। मैंने अपने मॉडल के लिए इन कार्यों को चलाने के परिणामों को भी शामिल किया, जिसे HI9 कहा जाता है। संपादित करें: मैं UNSW के Adelle कोस्टर है कि एक सूत्र देता है के लिए के वेब पेज पाया है कि दोनों की गणना की गणना में वजन वेक्टर शामिल और मैंने किया था बस के रूप में, और उसे एक और अधिक औपचारिक संदर्भ के लिए पूछा: http: //web.maths। unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (अभी भी क्रॉस की मदद की तलाश में है कि इस भारित आर 2 की व्याख्या कैसे करें ।)आर2आर2R2SSeSStआर2

#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){  
+ SSe <- sum((x$resid)^2);  
+ observed <- x$resid+x$fitted;  
+ SSt <- sum((observed-mean(observed))^2);  
+ value <- 1-SSe/SSt;  
+ return(value);  
+ }  
r2(HI9)  
[1] 0.2061147

#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted      
+ value <- 1-SSe/SSt;
+ return(value);
+ }
 > r2ww(HI9)
[1] 0.7716264

किसी को भी धन्यवाद जो इस पर जवाब देने में समय बिताता है। कृपया मेरी क्षमायाचना स्वीकार करें यदि इस पर पहले से ही कुछ बहुत अच्छा संदर्भ है जो मैं चूक गया था, या यदि मेरा ऊपर का कोड पढ़ना मुश्किल है (मैं कोड आदमी नहीं हूं)।


lm () के अंदर वज़न डालें और वहाँ से r-squared लें (व्हील का पुनः आविष्कार क्यों करें?)
user603

1
एक तरीके से टिप के लिए धन्यवाद जो मैंने अधिक कुशलता से किया। क्या कोई मेरे द्वारा वर्णित / प्रस्तावित भारित वर्ग के अर्थ पर टिप्पणी कर सकता है?
क्रेगमिलिगन

@ user603: आप वास्तव में lm () के अंदर वेट लगाने के बारे में कैसे जाएंगे?
हिस्टेलिम्फ

बस एक तारीफ के लिए, आर में फिट किया गया भारित कम से कम वर्ग योग (w * e ^ 2) को कम करके है, जहां ई अवशिष्ट है। इसलिए आपके लिए गणना कोड, सभी वजन डब्ल्यू को एक वर्गमूल लिया जाना चाहिए।
युआनहो लाई

मैं इस बात पर जोर देना चाहता हूं कि हम एक भारित माध्य नहीं लेना चाहते हैं, कम से कम मेरा मानना ​​है कि क्योंकि एक कार्यक्रम मैंने लिखा है कि एक आर-स्क्वेर्ड को 1 के करीब दें: क्लासिक आर-स्क्वेर्ड भारित आर-स्क्वेरड लेकिन भारित आर के साथ नहीं- चुकता जहां मतलब भी दिया जाता है, मुझे लगता है -6 यह काउंटर सहज भी मेरे लिए है, लेकिन मेरा मानना है कि अनुभव हालांकि
पियरे

जवाबों:


22

निम्नलिखित उत्तर निम्न पर आधारित है: (1) विलेट और सिंगर की मेरी व्याख्या (1988) आर-स्क्वेर के बारे में एक और सावधानी नोट: यह भारित कम से कम स्क्वेट्स प्रतिगमन विश्लेषण में उपयोग किया जाता है। अमेरिकी सांख्यिकीविद्। 42 (3)। pp236-238, और (2) आधार है कि मजबूत रेखीय प्रतिगमन अनिवार्य रूप से भारित वर्गों द्वारा अनुमानित वजन के साथ कम से कम वर्गों प्रतिगमन है।

R2w के लिए प्रश्न में मैंने जो फॉर्मूला दिया है, उसे r2wls के लिए विलेट और सिंगर (1988) में समीकरण 4 के अनुरूप करने के लिए एक छोटे से सुधार की आवश्यकता है: SST गणना को एक भारित माध्य का भी उपयोग करना चाहिए:

the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].

इस (सही) भारित आर-वर्ग का अर्थ क्या है? विलेट और सिंगर इसकी व्याख्या करते हैं: "रूपांतरित [भारित] डाटासेट में निर्धारण का गुणांक। यह भारित Y में भिन्नता के अनुपात का एक माप है जिसका भार भारित X द्वारा किया जा सकता है , और वह मात्रा है जो आउटपुट के रूप में है। जब एक WLS प्रतिगमन प्रदर्शन किया जाता है, तो प्रमुख सांख्यिकीय कंप्यूटर संकुल द्वारा R2।

क्या यह फिट की अच्छाई के एक उपाय के रूप में सार्थक है? यह इस बात पर निर्भर करता है कि इसे कैसे प्रस्तुत किया जाता है और व्याख्या की जाती है। विलेट और सिंगर चेतावनी देते हैं कि यह आम तौर पर सामान्य वर्ग के रिग्रेशन में प्राप्त आर-स्क्वॉयर की तुलना में काफी अधिक है, और उच्च मूल्य प्रमुख प्रदर्शन को प्रोत्साहित करता है ... लेकिन यह प्रदर्शन भ्रामक हो सकता है यदि इसे आर के पारंपरिक अर्थों में व्याख्या किया जाए। -squared (के अनुपात के रूप अनिर्धारितएक मॉडल द्वारा समझाया भिन्नता)। विलेट और सिंगर का प्रस्ताव है कि एक कम 'भ्रामक' विकल्प छद्म आर 2wls (उनका समीकरण 7) है, जो मूल प्रश्न में मेरे फ़ंक्शन आर 2 के बराबर है। सामान्य तौर पर, विलेट और सिंगर ने यह भी चेतावनी दी है कि फिट की भलाई के एकमात्र उपाय के रूप में किसी भी r2 (यहां तक ​​कि उनके pseudor2wls) पर भरोसा करना अच्छा नहीं है। इन सावधानियों के बावजूद, मजबूत प्रतिगमन का पूरा आधार यह है कि कुछ मामलों को 'अच्छे नहीं' के रूप में आंका जाता है और मॉडल फिटिंग में उतना नहीं गिना जाता है, और मॉडल मूल्यांकन प्रक्रिया के भाग में इसे प्रतिबिंबित करना अच्छा हो सकता है। वर्णित भारित आर-वर्ग, फिट की अच्छाई का एक अच्छा उपाय हो सकता है - जब तक कि प्रस्तुति में सही व्याख्या स्पष्ट रूप से दी गई हो और यह फिट की अच्छाई के एकमात्र आकलन के रूप में निर्भर नहीं है।


1
(+1)। उत्तर देने के लिए समय निकालने के लिए धन्यवाद।
user603

1

@CraigMilligan। नहीं करना चाहिए:

  • वजन वर्गीय कोष्ठक के बाहर हो
  • भारित माध्य की गणना की जाती है जिसके लिए हम भी उपयोग कर सकते हैंsum(x$w*observed)/sum(x$w)weighted.mean(observed,x$w)

कुछ इस तरह:

r2ww <- function(x){
  SSe <- sum(x$w*(x$resid)^2)
  observed <- x$resid+x$fitted
  SSt <- sum(x$w*(observed-weighted.mean(observed,x$w))^2)
  value <- 1-SSe/SSt;
  return(value);
}
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.