आर: रैखिक मॉडल के अवशेषों की सामान्यता का परीक्षण करें - जो अवशिष्ट का उपयोग करें


13

मैं एक Shapiro Wilk W परीक्षण करना चाहता हूँ और Kolmogorov-Smirnov परीक्षण एक रेखीय मॉडल के अवशिष्ट पर सामान्यता की जाँच करने के लिए। मैं बस सोच रहा था कि इसके लिए कौन से अवशिष्ट का उपयोग किया जाना चाहिए - कच्चे अवशिष्ट, पियर्सन अवशिष्ट, छात्र अवशिष्ट या मानकीकृत अवशिष्ट? शापिरो-विल्क के डब्ल्यू परीक्षण के लिए यह प्रतीत होता है कि कच्चे और पियरसन अवशिष्ट के लिए परिणाम समान हैं, लेकिन दूसरों के लिए नहीं।

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

केएस के लिए एक ही सवाल, और यह भी कि क्या अवशेषों को एक सामान्य वितरण (pnorm) के खिलाफ परीक्षण किया जाना चाहिए

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

या एक टी-स्टूडेंट डिस्ट्रीब्यूशन ऑफ एनके -2 डिग्री ऑफ फ्रीडम, इन

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

कोई सलाह शायद? इसके अलावा, परीक्षण आँकड़ों डब्ल्यू (> 0.9?) और डी के लिए अनुशंसित मूल्य क्या हैं जो वितरण के लिए पर्याप्त रूप से सामान्यता के करीब हैं और आपके अनुमान को बहुत अधिक प्रभावित नहीं करते हैं?

अंत में, क्या यह दृष्टिकोण फिटेड lm गुणांक में अनिश्चितता को ध्यान में रखता है, या इस संबंध cumres()में पैकेज में कार्य करना gof()बेहतर होगा?

चीयर्स, टॉम


9
इस तरह के परीक्षण के लिए किसी भी बिंदु का होना दुर्लभ है। अपने आप से पूछें कि यदि अवशिष्ट "काफी" गैर-सामान्य निकला तो आप क्या विशिष्ट कार्य करेंगे। अनुभव आपको सिखाता है कि यह निर्भर करता है कि कैसे, और कितना, वे सामान्यता से अलग हैं। एसडब्ल्यू, केएस, या किसी अन्य औपचारिक वितरण परीक्षण द्वारा न तो उन में से सीधे (या पर्याप्त रूप से) मापा जाता है। इस काम के लिए आप खोजबीन वाले ग्राफिक्स नियोजित करना चाहते हैं , न कि औपचारिक परीक्षण। सवाल यह है कि कौन से अवशिष्ट, साजिश रचने के लिए उपयुक्त हो सकते हैं, लेकिन शेष प्रश्न अप्रासंगिक होने के रूप में सामने आते हैं।
व्हिबर

हां मैंने देखा है कि कई सांख्यिकीविद् इस स्थिति की वकालत करते हैं। लेकिन मैं फिर भी इन परीक्षणों के परीक्षण के आँकड़ों की जाँच करना चाहता हूँ (उदाहरण के लिए अगर शापिरो विलक्स डब्ल्यू का मान 0.9 से अधिक है)। और मैं हमेशा एक बॉक्स-कॉक्स परिवर्तन या कुछ ऐसा कर सकता था जो बड़े विचलन के मामले में सामान्यता में सुधार कर सके। साथ ही मेरा प्रश्न भी आंशिक रूप से वैचारिक था - अर्थात ऐसा करने का सबसे सही तरीका क्या होगा, भले ही सामान्यता हमेशा व्यवहार में
उतनी

जवाबों:


9

एक टिप्पणी के लिए बहुत लंबा चला गया।

  1. एक साधारण प्रतिगमन मॉडल के लिए (जैसे कि द्वारा फिट किया जाएगा lm), आपके द्वारा पहले दो अवशिष्ट प्रकारों के बीच कोई अंतर नहीं है; type="pearson"गैर-गाऊसी GLMs के लिए प्रासंगिक है, लेकिन responseगाऊसी मॉडल के लिए भी ऐसा ही है ।

  2. जिन टिप्पणियों को आप अपने परीक्षणों पर लागू करते हैं (कुछ प्रकार के अवशेष) स्वतंत्र नहीं हैं, इसलिए सामान्य आँकड़ों का सही वितरण नहीं होता है। इसके अलावा, सख्ती से बोलते हुए, आपके द्वारा अवशिष्ट किसी भी अवशेष को बिल्कुल सामान्य नहीं माना जाएगा, क्योंकि आपका डेटा कभी भी सामान्य नहीं होगा। [औपचारिक परीक्षण गलत प्रश्न का उत्तर देता है - एक अधिक प्रासंगिक प्रश्न यह होगा कि 'यह गैर-सामान्यता मेरे अनुमान पर कितना प्रभाव डालेगी?', एक सवाल जो फिट परिकल्पना परीक्षण की सामान्य अच्छाई द्वारा उत्तर नहीं दिया गया है।]

  3. यहां तक ​​कि अगर आपका डेटा बिल्कुल सामान्य होना था, तो न तो तीसरा और न ही चौथे प्रकार का अवशिष्ट बिल्कुल सामान्य होगा। फिर भी लोगों के लिए कच्चे अवशेषों की तुलना में (क्यूक्यू भूखंडों के द्वारा) कहना बहुत अधिक आम है।

  4. आप अपने डिजाइन मैट्रिक्स ( ) पर सिमुलेशन सशर्त द्वारा 2. और 3. (और अवशिष्ट में निर्भरता के साथ-साथ मानकीकृत अवशिष्ट में गैर-सामान्यता पर निर्भरता) में कुछ मुद्दों पर काबू पा सकते हैं , जिसका अर्थ है कि आप जो भी अवशिष्ट अवशिष्ट का उपयोग कर सकते हैं (हालाँकि, आप "इस तरह एक समस्या का जवाब देने से पहले से ही आप" इस तरह से समस्या का जवाब जानते हैं) का सामना नहीं कर सकते।X

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.