यह एक ऐसी जगह है जहाँ मुझे कुछ सूत्र देखने में मदद करते हैं, यहाँ तक कि कुछ गणित की चिंता वाले लोगों के लिए भी (मैं सुझाव नहीं दे रहा हूँ कि आप जरूरी काम करते हैं)। साधारण रेखीय प्रतिगमन मॉडल यह है:
यहां यह नोट करना महत्वपूर्ण है कि यह मॉडल स्पष्ट रूप से है एक बार जब आप डेटा में सार्थक जानकारी का अनुमान लगा लेते हैं (जो कि " " है) पर सफेद शोर के अलावा कुछ नहीं बचा है। इसके अलावा, त्रुटियों को एक सामान्य के रूप में विचरण के साथ वितरित किया जाता है ।
β 0 + β 1 एक्स σ 2 ε
Y=β0+β1X+εwhere ε∼N(0,σ2ε)
β0+β1Xσ2ε
यह महसूस करना महत्वपूर्ण है कि एक चर नहीं है (हालांकि जूनियर हाई स्कूल स्तर बीजगणित में, हम इसे कहते हैं)। यह अलग नहीं है। बदलता रहता है। बदलता है। त्रुटि शब्द, , अनियमित रूप से बदलता है ; यह एक यादृच्छिक चर है । हालाँकि, पैरामीटर ( वे हैं जिन्हें हम नहीं जानते - वे अलग-अलग नहीं हैं। इसके बजाय, वे अज्ञात स्थिरांक हैं । इस चर्चा का तथ्य यह है कि कोई भी बात नहीं है कि क्या है (यानी, वहाँ क्या मान ), एक्स वाई ε बीटा 0 , बीटा 1 , σ 2 ε )σ2εXYεβ0, β1, σ2ε)Xσ2εएक ही रहता है। दूसरे शब्दों में, त्रुटियों / अवशिष्टों का विचरण स्थिर है। इसके विपरीत (और शायद अधिक स्पष्टता) के लिए, इस मॉडल पर विचार करें:
इस मामले में, हम लिए एक मूल्य में प्लग करते हैं (तीसरी पंक्ति पर शुरू) , इसे फ़ंक्शन माध्यम से पास करें और त्रुटि विचरण प्राप्त करें जो कि सटीक मान पर प्राप्त होता है । फिर हम हमेशा की तरह शेष समीकरण से आगे बढ़ते हैं।
Y=β0+β1X+εwhere ε∼N(0,f(X)) where f(X)=exp(γ0+γ1X)and γ1≠0
Xf(X) X
उपरोक्त चर्चा को धारणा की प्रकृति को समझने में मदद करनी चाहिए ; सवाल यह भी है कि इसका आकलन कैसे किया जाए। मूल रूप से दो दृष्टिकोण हैं: औपचारिक परिकल्पना परीक्षण और भूखंडों की जांच करना। यदि आपके पास प्रयोगात्मक-ईश डेटा है (यानी, केवल निश्चित मूल्यों पर होता है ) या एक एनोवा। मैं यहां कुछ ऐसे परीक्षणों की चर्चा करता हूं: क्यों लेवेन ने एफ-अनुपात के बजाय भिन्नताओं की समानता का परीक्षण कियाX। हालांकि, मुझे लगता है कि भूखंडों को देखना सबसे अच्छा है। @Penquin_Knight ने यह दिखाने का एक अच्छा काम किया है कि एक मॉडल के अवशिष्टों की साजिश रचने के द्वारा निरंतर वैरिएशन कैसा दिखता है जहां फिटेड वैल्यूज़ के खिलाफ होमोसैसिडिटी प्राप्त होती है। Heteroscedasticity भी संभवतः कच्चे डेटा के एक भूखंड में, या एक स्केल-लोकेशन (जिसे स्प्रेड-लेवल प्लॉट भी कहा जाता है) में पाया जा सकता है। आसानी से आप के लिए एक कॉल के साथ उत्तरार्द्ध भूखंडों plot.lm(model, which=2)
; यह फिट मान के साथ अवशिष्ट के पूर्ण मानों का वर्गमूल है, जिसमें निम्न वक्र सहायक है। आप चाहते हैं कि नीचता सपाट हो, ढलान वाली न हो।
नीचे दिए गए भूखंडों पर विचार करें, जो तुलना करते हैं कि इन तीन अलग-अलग प्रकार के आंकड़ों में होमोसैडैस्टिक बनाम विषमलैंगिक डेटा कैसे दिख सकता है। ऊपरी दो विषम भूखंडों के लिए फ़नल आकार पर ध्यान दें, और पिछले एक में ऊपर की ओर झुकी हुई निचली रेखा।
पूर्णता के लिए, यहां वह कोड है जो मैंने इन डेटा को उत्पन्न करने के लिए उपयोग किया था:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)