क्या सामान्य त्रुटियों की धारणा का अर्थ है कि Y भी सामान्य है?


12

जब तक मैं गलत नहीं हूं, एक रैखिक मॉडल में, प्रतिक्रिया के वितरण को एक व्यवस्थित घटक और एक यादृच्छिक घटक माना जाता है। त्रुटि शब्द यादृच्छिक घटक को कैप्चर करता है। इसलिए, यदि हम मानते हैं कि त्रुटि शब्द सामान्य रूप से वितरित है, तो इसका मतलब यह नहीं है कि प्रतिक्रिया भी सामान्य रूप से वितरित की जाती है? मुझे लगता है कि यह करता है, लेकिन फिर नीचे दिए गए बयान जैसे भ्रमित करने वाले लगते हैं:

और आप स्पष्ट रूप से देख सकते हैं कि इस मॉडल में "सामान्यता" की एकमात्र धारणा यह है कि अवशिष्ट (या "त्रुटियों" ) को सामान्य रूप से वितरित किया जाना चाहिए। भविष्यवक्ता या प्रतिक्रिया चर के वितरण के बारे में कोई धारणा नहीं हैएक्स मैं y मैंϵixiyi

स्रोत: भविष्यवाणियों, प्रतिक्रियाओं और अवशिष्टों: वास्तव में सामान्य रूप से वितरित करने की आवश्यकता क्या है?


7
यदि के गैर-स्टोकेस्टिक हैं तो सामान्यता का अर्थ है आश्रित चर की सामान्यता। स्टोकेस्टिक स्वतंत्र चर के लिए यह सामान्य रूप से नहीं होगा, यह तब स्वतंत्र चर के वितरण पर निर्भर करता है। ϵxϵ

जवाबों:


19

मानक OLS मॉडल साथ लिए एक निश्चितε ~ एन ( 0 , σ 2 मैं n )Y=Xβ+εεN(0,σ2In) XRn×p

इसका वास्तव में मतलब है कि , हालांकि यह के वितरण पर हमारी धारणा का परिणाम है , वास्तव में धारणा होने के बजाय। इसके अलावा कि मैं सशर्त वितरण के बारे में बात कर रहा हूँ ध्यान में रखना , नहीं की सीमांत वितरण । मैं सशर्त वितरण पर ध्यान केंद्रित कर रहा हूं क्योंकि मुझे लगता है कि आप वास्तव में क्या पूछ रहे हैं।ε वाई वाईY|{X,β,σ2}N(Xβ,σ2In)εYY

मुझे लगता है कि भ्रमित करने वाला हिस्सा यह है कि इसका मतलब यह नहीं है कि हिस्टोग्राम सामान्य लगेगा। हम कह रहे हैं कि संपूर्ण वेक्टर एक बहुभिन्नरूपी सामान्य वितरण से एक ही ड्रॉ है जहां प्रत्येक तत्व का संभावित भिन्न अर्थ । यह आईआईडी सामान्य नमूना होने के समान नहीं है। त्रुटियाँ वास्तव में एक iid नमूना हैं, इसलिए उनमें से एक हिस्टोग्राम सामान्य लगेगा (और यही कारण है कि हम अवशिष्टों का एक QQ भूखंड करते हैं, प्रतिक्रिया नहीं)।वाई ( Y मैं | एक्स मैं ) = एक्स टी मैं बीटा εYYE(Yi|Xi)=XiTβε

यहां एक उदाहरण दिया गया है: मान लीजिए कि हम 6 वें ग्रेडर और 12 वें ग्रेडर के नमूने के लिए ऊंचाई माप रहे हैं । हमारा मॉडल साथ । यदि हम एक हिस्टोग्राम को देखते हैं , हम शायद 6 वें ग्रेडर के लिए एक चोटी और 12 वें ग्रेडर के लिए एक चोटी के साथ एक वितरण देखेंगे, लेकिन यह हमारी धारणाओं के उल्लंघन का प्रतिनिधित्व नहीं करता है।एच मैं = β 0 + β 1 मैं ( 12 वीं कक्षा की विद्यार्थी ) + ε मैं ε मैं ~ आईआईडी एन ( 0 , σ 2 )HHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


क्या कोई कृपया संकेतन स्पष्ट कर सकता है ? σ2In
स्नोरम

इसका मतलब है कि पहचान मैट्रिक्स को स्केलर गुणा किया जाता है । σ 2n×nσ2
13:17 पर जेल्ड

पहचान मैट्रिक्स बार कुछ भिन्नता। n×n
साइकोरैक्स का कहना है कि मोनिका

11

इसलिए, यदि हम मानते हैं कि त्रुटि शब्द सामान्य रूप से वितरित है, तो इसका मतलब यह नहीं है कि प्रतिक्रिया भी सामान्य रूप से वितरित की जाती है?

दूर से भी नहीं। जिस तरह से मुझे यह याद है कि मॉडल के निर्धारक भाग पर अवशिष्ट सामान्य स्थिति है । यहाँ अभ्यास में जैसा दिखता है उसका प्रदर्शन है।

मैं बेतरतीब ढंग से कुछ डेटा उत्पन्न करके शुरू करता हूं। फिर मैं एक परिणाम को परिभाषित करता हूं जो कि भविष्यवक्ताओं का एक रैखिक कार्य है और एक मॉडल का अनुमान लगाता है।

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

आइए एक नजर डालते हैं कि ये अवशेष किस तरह के दिखते हैं। मुझे संदेह है कि उन्हें सामान्य रूप से वितरित किया जाना चाहिए, क्योंकि परिणाम yमें आईड सामान्य शोर था। और वास्तव में ऐसा ही है।

यहाँ छवि विवरण दर्ज करें

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Y के वितरण की जाँच करना, हालाँकि, हम देख सकते हैं कि यह निश्चित रूप से सामान्य नहीं है! मैं एक ही माध्य और विचरण के साथ घनत्व फ़ंक्शन को समाप्त कर चुका हूं y, लेकिन यह स्पष्ट रूप से एक भयानक फिट है!

Y का घनत्व

इस मामले में ऐसा होने का कारण यह है कि इनपुट डेटा दूरस्थ रूप से सामान्य नहीं है। इस प्रतिगमन मॉडल के बारे में कुछ भी अवशेषों में छोड़कर सामान्यता की आवश्यकता होती है - स्वतंत्र चर में नहीं, और आश्रित चर में नहीं।

एक्स की डेनिस्टी


8

नहीं, यह नहीं है। उदाहरण के लिए, मान लीजिए कि हमारे पास ओलंपिक एथलीटों के वजन की भविष्यवाणी करने वाला एक मॉडल है। हालांकि वजन को आम तौर पर प्रत्येक खेल में एथलीटों के बीच वितरित किया जा सकता है, यह सभी एथलीटों के बीच नहीं होगा - यह भी असमान नहीं हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.