क्या होगा यदि अवशेषों को सामान्य रूप से वितरित किया जाता है, लेकिन y नहीं है?


110

मुझे एक अजीब सा सवाल सूझा। मान लें कि आपके पास एक छोटा सा नमूना है, जहां एक साधारण रैखिक मॉडल के साथ विश्लेषण करने के लिए आप जिस पर निर्भर चर का विश्लेषण करने जा रहे हैं, वह अत्यधिक तिरछा है। इस प्रकार आप मानते हैं कि यू को सामान्य रूप से वितरित नहीं किया गया है, क्योंकि इससे सामान्य रूप से वितरित y । लेकिन जब आप क्यूक्यू-नॉर्मल प्लॉट की गणना करते हैं, तो इस बात के सबूत होते हैं, कि अवशेष सामान्य रूप से वितरित किए गए हैं। इस प्रकार कोई भी मान सकता है कि त्रुटि शब्द सामान्य रूप से वितरित किया गया है, हालांकि y नहीं है। तो इसका क्या मतलब है, जब त्रुटि शब्द सामान्य रूप से वितरित किया गया लगता है, लेकिन y नहीं करता है?

जवाबों:


143

प्रतिगमन समस्या में अवशिष्टों के लिए यह उचित है कि उन्हें सामान्य रूप से वितरित किया जाए, भले ही प्रतिक्रिया चर न हो। एक univariate प्रतिगमन समस्या पर विचार करें जहां । ताकि प्रतिगमन मॉडल उचित हो, और आगे यह मान लें कि β = 1 का सही मूल्य है । इस मामले में, जबकि वास्तविक प्रतिगमन मॉडल के अवशेष सामान्य हैं, y का वितरण x के वितरण पर निर्भर करता है , क्योंकि y का सशर्त माध्य x का एक कार्य है । यदि डेटासेट में x के मान बहुत अधिक हैंy~एन(βएक्स,σ2)β=1yएक्सyएक्सएक्सजो शून्य के करीब हैं और उत्तरोत्तर का मान कम है , तो y के वितरण को बाईं ओर तिरछा किया जाएगा। यदि x के मान सममित रूप से वितरित किए जाते हैं, तो y सममित रूप से वितरित किया जाएगा, और इसके बाद। एक प्रतिगमन समस्या के लिए, हम केवल यह मानते हैं कि एक्स के मूल्य पर प्रतिक्रिया सामान्य स्थिति है ।एक्सyएक्सyएक्स


9
(+1) मुझे नहीं लगता कि यह अक्सर पर्याप्त दोहराया जा सकता है! यहां भी इसी मुद्दे पर चर्चा देखें ।
वोल्फगैंग

1
मैं आपका उत्तर समझता हूं और यह सही लगता है। कम से कम आपने बहुत सारे सकारात्मक वोट अर्जित किए :) लेकिन मैं बिल्कुल भी खुश नहीं हूं। तो अपने उदाहरण में मान्यताओं आपके द्वारा किए गए हैं y ~ एन ( 1 एक्स , σ 2 ) । लेकिन जब मैं अनुमान का अनुमान लगा रहा हूँ तो मैं E ( y | x ) का अनुमान लगा रहा हूँ । इस प्रकार x को उस समय दिया जाना चाहिए जब मैं माध्य का अनुमान लगा रहा हूं। इससे यह पालन करना चाहिए कि x एक मान है और मुझे इस बात की परवाह नहीं है कि इसे साकार करने से पहले इसे कैसे वितरित किया गया था। तो y एन ( वी एलβ=1y~एन(1एक्स,σ2)(y|एक्स)एक्स का वितरण है y । मुझे समझ नहीं आ रहा है कि x कहां y को प्रभावित कर रहा है। y~एन(vएलयू,σ2)yएक्सy
मार्कडॉलर

4
मैं बल्कि (सुखद रूप से) वोटों की संख्या से आश्चर्यचकित हूं; ओ) प्रतिगमन मॉडल को फिट करने के लिए उपयोग किए गए डेटा को प्राप्त करने के लिए, आपने कुछ संयुक्त वितरण से एक नमूना लिया है , जिससे आप अनुमान लगाना चाहते हैं। ( y | x ) । हालांकि के रूप में y एक (शोर) का कार्य है एक्स , के नमूने के वितरण y के नमूने के वितरण पर निर्भर होगा एक्स , कि विशेष रूप से नमूने के लिए। आप x के "सही" वितरण में दिलचस्पी नहीं ले सकते हैं , लेकिन y का नमूना वितरण x के नमूने पर निर्भर करता है। पी(y,एक्स)(y|एक्स)yएक्सyएक्सएक्स
डिक्रान मार्सुपियल

2
अक्षांश ( x ) के कार्य के रूप में तापमान ( ) का अनुमान लगाने के एक उदाहरण पर विचार करें । हमारे नमूने में y मानों का वितरण इस बात पर निर्भर करेगा कि हम मौसम केंद्रों को बाहर करने के लिए कहाँ चुनते हैं। यदि हम उन सभी को डंडे या भूमध्य रेखा पर रखते हैं, तो हमारे पास एक बायोमॉडल वितरण होगा। यदि हम उन्हें नियमित रूप से बराबर क्षेत्र के ग्रिड पर रखते हैं, तो हम दोनों मूल्यों के लिए जलवायु के भौतिकी समान होने के बावजूद, वाई मूल्यों का एक असमान वितरण प्राप्त करेंगे । बेशक यह आपके फिट किए गए प्रतिगमन मॉडल को प्रभावित करेगा, और उस तरह के अध्ययन का अध्ययन "कोवरिएट शिफ्ट" के रूप में जाना जाता है। HTHyएक्सyy
Dikran Marsupial

मुझे यह भी संदेह है कि अंतर्निहित धारणा पर सशर्त है कि उपयोग किए गए डेटा परिचालन संयुक्त वितरण पी ( y , x ) से एक आईआईडी नमूना थे । E(y|x)p(y,x)
डिक्रान मार्सुपियल

100

@DikranMarsupial बिल्कुल सही है, लेकिन यह मेरे लिए हुआ कि उसकी बात को स्पष्ट करना अच्छा होगा, खासकर जब से यह चिंता बार-बार सामने आती है। विशेष रूप से, एक प्रतिगमन मॉडल के अवशिष्टों को पी-मान के सही होने के लिए सामान्य रूप से वितरित किया जाना चाहिए। हालाँकि, भले ही अवशेष सामान्य रूप से वितरित किए गए हों, लेकिन यह गारंटी नहीं देता है कि होगा (ऐसा नहीं है कि यह मायने रखता है ...); यह एक्स के वितरण पर निर्भर करता है । Yएक्स

आइए एक सरल उदाहरण लें (जो मैं बना रहा हूं)। मान लें कि हम पृथक सिस्टोलिक उच्च रक्तचाप के लिए एक दवा का परीक्षण कर रहे हैं (यानी, शीर्ष रक्तचाप की संख्या बहुत अधिक है)। आइए आगे बताते हैं कि सिस्टोलिक बीपी सामान्य रूप से हमारी रोगी आबादी के भीतर वितरित किया जाता है, जिसका मतलब 160 और एसडी 3 है, और यह कि दवा के प्रत्येक मिलीग्राम के लिए जो रोगी प्रत्येक दिन लेते हैं, सिस्टोलिक बीपी 1 मिमीएचजी से नीचे चला जाता है। दूसरे शब्दों में, के सही मूल्य 160 है, और बीटा 1 -1 होता है, और सच डेटा पैदा समारोह है: बी पी एस वाई एस = 160 - 1 × दैनिक दवा खुराक + εβ0β1 हमारे काल्पनिक अध्ययन में, 300 मरीजों को बेतरतीब ढंग 0mg (प्लेसीबो), 20 मिलीग्राम, या 40mg प्रति दिन इस नए दवा के लेने के लिए आवंटित कर रहे हैं। (ध्यान दें कि एक्स सामान्य रूप से वितरित नहीं किया गया है।) फिर, दवा लेने के लिए पर्याप्त समय के बाद, हमारा डेटा इस तरह दिखाई दे सकता है:

बीपीरोंyरों=160-1×दैनिक दवा की खुराक+εकहाँ पे ε~एन(0,9)
एक्स

यहाँ छवि विवरण दर्ज करें

(मैंने डोजेज का मजाक उड़ाया ताकि अंक इतने अधिक ओवरलैप न हो जाएं कि उन्हें भेद पाना कठिन हो।) अब, के वितरण की जांच करें (यानी, यह सीमांत / मूल वितरण है), और अवशिष्ट: Y

यहाँ छवि विवरण दर्ज करें

YY

Yएक्सपी<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

यहाँ छवि विवरण दर्ज करें

ये परिणाम बताते हैं कि सब कुछ ठीक काम करता है।

एक्स Yएक्स


1
तो सामान्य रूप से वितरित किए जा रहे अवशेषों की धारणा केवल पी-वैल्यू के सही होने के लिए है? यदि अवशिष्ट सामान्य नहीं है तो पी-मान गलत क्यों हो सकता है?
एवोकैडो

3
@loganecolss, एक नए प्रश्न के रूप में बेहतर हो सकता है। किसी भी दर पर, हाँ इसे w / क्या करना है, क्या p-मान सही हैं। यदि आपके अवशेष पर्याप्त रूप से गैर-सामान्य हैं और आपका एन कम है, तो नमूना वितरण इस बात से भिन्न होगा कि यह कैसे होने के लिए सिद्ध होता है। चूँकि पी-मान कितना है, इसका नमूना वितरण आपके परीक्षण आँकड़ा से परे है, इसलिए पी-मूल्य गलत होगा।
गंग

0

एक्सYएक्स


3
प्रतिक्रिया का सीमांत वितरण बिल्कुल भी "व्यर्थ" नहीं है; यह प्रतिक्रिया का सीमांत वितरण है (और अक्सर सामान्य त्रुटियों के साथ सादे प्रतिगमन के अलावा अन्य मॉडलों पर संकेत देना चाहिए)। इस बात पर बल देने के लिए कि आप सशर्त वितरण महत्वपूर्ण हैं एक बार जब हम प्रश्न में मॉडल का मनोरंजन करते हैं, लेकिन इससे मौजूदा उत्कृष्ट उत्तरों में मदद नहीं मिलती है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.