मुझे लगता है कि सरल डेटा विश्लेषण अभ्यास अक्सर सांख्यिकीय अवधारणाओं को स्पष्ट और स्पष्ट करने में मदद कर सकते हैं। सांख्यिकीय अवधारणाओं को सिखाने के लिए आप किस डेटा विश्लेषण अभ्यास का उपयोग करते हैं?
मुझे लगता है कि सरल डेटा विश्लेषण अभ्यास अक्सर सांख्यिकीय अवधारणाओं को स्पष्ट और स्पष्ट करने में मदद कर सकते हैं। सांख्यिकीय अवधारणाओं को सिखाने के लिए आप किस डेटा विश्लेषण अभ्यास का उपयोग करते हैं?
जवाबों:
जैसा कि मुझे चर चयन के तरीकों को अक्सर समझाना पड़ता है, एक शिक्षण संदर्भ में नहीं, लेकिन गैर-सांख्यिकीविदों को अपने शोध के लिए सहायता का अनुरोध करने के लिए, मुझे यह बेहद सरल उदाहरण पसंद है जो बताता है कि एकल चर चयन जरूरी नहीं कि एक अच्छा विचार क्यों है।
यदि आपके पास यह डेटासेट है:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
यह महसूस करने में देर नहीं लगती कि X1 और X2 दोनों व्यक्तिगत रूप से y के लिए पूरी तरह से गैर-सूचनात्मक हैं (जब वे समान हैं, y 1 होना निश्चित है - मैं यहां नमूना आकार के मुद्दों की अनदेखी कर रहा हूं, बस इन चार टिप्पणियों को मान लें पूरा ब्रह्मांड हो)। हालांकि, दो चर का संयोजन पूरी तरह से जानकारीपूर्ण है। जैसे, लोगों के लिए यह समझना अधिक आसान है कि यह एक अच्छा विचार क्यों नहीं है (उदाहरण के लिए) केवल एक रजिस्ट्रार के रूप में प्रत्येक व्यक्तिगत चर वाले मॉडल के लिए पी-मूल्य की जांच करें।
मेरे अनुभव में, इससे वास्तव में संदेश जाता है।
मल्टीपल रिग्रेशन गुणांक और अपेक्षित संकेत पतन
डेटा विश्लेषण अभ्यास के माध्यम से सांख्यिकीय अवधारणा के मेरे पसंदीदा उदाहरणों में से एक बहु द्विवार्षिक रजिस्टरों में कई प्रतिगमन का विघटन है।
उद्देश्य
संकल्पना
एक एकाधिक प्रतिगमन मॉडल में प्रतिगमन गुणांक एक) के बीच संबंध का प्रतिनिधित्व करता है) एक दिए गए भविष्यवक्ता चर (X1) का हिस्सा जो मॉडल में अन्य भविष्यवक्ता चर (x2 ... xN) से संबंधित नहीं है; और 2) प्रतिक्रिया चर (वाई) का हिस्सा जो मॉडल में अन्य सभी भविष्यवाणियों चर (x2 ... xN) से संबंधित नहीं है। जब भविष्यवक्ताओं के बीच सहसंबंध होता है, तो भविष्यवक्ता गुणांक से जुड़े संकेत उन अवशिष्टों के बीच संबंधों का प्रतिनिधित्व करते हैं।
व्यायाम
R2 के लिए चरण 4 के लिए गुणांक X1 और x2 के साथ एकाधिक प्रतिगमन मॉडल के लिए X1 का गुणांक होगा। आप x2 के लिए y और x2 दोनों के लिए X1 को आंशिक करके ही कर सकते हैं।
यहाँ इस अभ्यास के लिए कुछ आर कोड है।
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
यहां प्रासंगिक आउटपुट और परिणाम दिए गए हैं।
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***