क्या lm मॉडल में छात्र अवशिष्ट v / s मानकीकृत अवशिष्ट है


10

क्या "छात्र अवशिष्ट" और "मानकीकृत अवशिष्ट" प्रतिगमन मॉडल में समान हैं? मैंने R में एक लीनियर रिग्रेशन मॉडल बनाया और स्टूडेंटाइज्ड रेसिडेंशियल v / s के फिटेड वैल्यू के ग्राफ को प्लॉट करना चाहा, लेकिन R में ऐसा करने का कोई स्वचालित तरीका नहीं मिला।

मान लीजिए मेरे पास एक मॉडल है

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

तब का उपयोग करके plot(lm.fit)स्टूडेंट रेजिडेंशियल बनाम फिटेड वैल्यू का कोई प्लॉट प्रदान नहीं किया जाता है, लेकिन फिर भी यह स्टैन्डर्डाइज्ड रेजीड्यूल्स बनाम फिटेड वैल्यूज का प्लॉट प्रदान करता है।

मैंने इस्तेमाल किया plot(lm.fit$fitted.values,studres(lm.fit)और यह वांछित ग्राफ को प्लॉट करेगा। क्या मैं सिर्फ यह पुष्टि करना चाहता हूं कि मैं सही तरीके से जा रहा हूं और स्टूडेंटाइज्ड और स्टैन्डर्डाइज्ड रेजिड्यूल्स एक ही चीज नहीं हैं। यदि वे अलग-अलग हैं तो कृपया उन्हें और उनकी परिभाषाओं की गणना करने के लिए कुछ गाइड प्रदान करें। मैंने नेट के माध्यम से खोज की और इसे थोड़ा भ्रामक पाया।


2
+1 यह है क्योंकि (क) वास्तव में बच के इन प्रकार के अलग भ्रमित लेकिन (ख) विभिन्न अधिकारियों क्या उन्हें फोन करने के लिए पर सहमत नहीं है! उदाहरण के लिए, Rशब्दावली मोंटगोमरी, पेक और वीनिंग (एक लोकप्रिय प्रतिगमन पाठ्यपुस्तक जो लगभग 35 वर्षों से है) के विपरीत है। इसलिए सावधान रहें, और सुनिश्चित करें कि आप Rप्रलेखन का अध्ययन करते हैं और यदि आपको लगता है कि शब्दावली का मतलब है, तो भरोसा करने के बजाय इसका स्रोत कोड आवश्यक है।
व्हिबर

जवाबों:


11

नहीं, छात्र अवशिष्ट और मानकीकृत अवशिष्ट अलग (लेकिन संबंधित) अवधारणाएं हैं।

वास्तव में निर्मित कार्य प्रदान करता है rstandard()और प्रभाव केrstudent() हिस्से के रूप में । एक ही निर्मित पैकेज उत्तोलन, कुक की दूरी आदि के लिए कई समान कार्य प्रदान करता है, अनिवार्य रूप से समान है , जिसे आप स्वयं के लिए जाँच सकते हैं:rstudent()MASS::studres()

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

मानकीकृत अवशिष्ट एक विशेष डेटा बिंदु के लिए त्रुटि का अनुमान लगाने का एक तरीका है जो बिंदु के उत्तोलन / प्रभाव को ध्यान में रखता है। इन्हें कभी-कभी "आंतरिक रूप से छात्र के अवशेष" कहा जाता है।

ri=eis(ei)=eiMSE(1hii)

मानकीकृत अवशिष्टों के पीछे प्रेरणा यह है कि भले ही हमारे मॉडल ने स्थगन के साथ एक आईआईडी त्रुटि शब्द के साथ समरूपता ग्रहण की हो। ϵiN(0,σ2), वितरण, अवशिष्ट ei नहीं कर सकते आईआईडी होना हमेशा होता है क्योंकि बच की राशि बिल्कुल शून्य।

किसी भी दिए गए डेटा बिंदु के लिए छात्र के अवशेषों की गणना एक मॉडल से प्रत्येक अन्य डेटा बिंदु पर फिट की जाती है , जिसमें प्रश्न को छोड़कर । इन्हें विभिन्न रूप से "बाह्य रूप से छात्र अवशिष्ट", "हटाए गए अवशिष्ट," या "कटहल अवशिष्ट अवशिष्ट" कहा जाता है।

यह कम्प्यूटेशनल रूप से कठिन लगता है (ऐसा लगता है कि हमें हर बिंदु के लिए एक नए मॉडल को फिट करना होगा) लेकिन वास्तव में इसे बिना मूल मॉडल से गणना करने का एक तरीका है। यदि मानकीकृत अवशिष्ट हैri, तो छात्र अवशिष्ट ti है:

ti=ri(nk2nk1ri2)1/2,

छात्रों के अवशेषों के पीछे प्रेरणा उनके बाहरी परीक्षण में उपयोग से आती है। अगर हमें संदेह है कि एक बिंदु एक बाहरी है, तो यह परिभाषा के अनुसार, मॉडल से उत्पन्न नहीं हुआ था। इसलिए यह एक गलती होगी - मान्यताओं का उल्लंघन - उस फिटिंग को मॉडल की फिटिंग में शामिल करना। छात्र अवशिष्टों का व्यापक रूप से व्यावहारिक बाह्य विकृति में उपयोग किया जाता है।

छात्र अवशिष्ट भी वांछनीय संपत्ति है कि प्रत्येक डेटा बिंदु के लिए, अवशिष्ट के वितरण छात्र के टी-वितरण, मूल प्रतिगमन मॉडल की सामान्यता मान्यताओं को पूरा करते थे। (मानकीकृत अवशेषों में इतना अच्छा वितरण नहीं होता है।)

अंत में, किसी भी चिंता का समाधान करने के लिए कि आर लाइब्रेरी ऊपर से अलग नामकरण का अनुसरण कर रही हो सकती है, आर प्रलेखन स्पष्ट रूप से बताता है कि वे ऊपर वर्णित सटीक अर्थों में "मानकीकृत" और "छात्र" का उपयोग करते हैं।

कार्य rstandardऔर rstudentमानकीकृत और छात्र अवशिष्ट क्रमशः दे। (ये क्रमशः इकाई भिन्नता के लिए अवशिष्टों को फिर से सामान्य करते हैं, क्रमशः त्रुटि संस्करण के एक समग्र और छुट्टी-एक-आउट माप का उपयोग करते हैं।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.