प्रत्येक समूह में सहसंबंध महत्वपूर्ण लेकिन सभी पर गैर-महत्वपूर्ण?


9

मान लीजिए कि हम और समूहों में चर और बीच पियर्सन सहसंबंध का परीक्षण करते हैं । क्या यह , सहसंबंध के लिए और में से प्रत्येक में महत्वपूर्ण है , लेकिन दोनों समूहों के डेटा संयुक्त होने पर गैर-महत्वपूर्ण है? इस मामले में, क्या आप इसके लिए स्पष्टीकरण प्रदान कर सकते हैं।एक्सyबी(एक्स,y)बी

जवाबों:


21

हां, यह संभव है और यह सभी तरह के तरीके से हो सकता है। एक स्पष्ट उदाहरण है जब ए और बी की सदस्यता किसी तरह से चुनी जाती है जो एक्स और वाई के मूल्यों को दर्शाती है। अन्य उदाहरण संभव हैं, उदाहरण के लिए @ मैक्रो की टिप्पणी एक वैकल्पिक संभावना का सुझाव देती है।

नीचे दिए गए उदाहरण पर विचार करें, R. x और y में लिखे गए iid मानक सामान्य चर हैं, लेकिन अगर मैं उन्हें x और y के सापेक्ष मानों के आधार पर समूहों को आवंटित करता हूं तो मुझे आपके नाम का विवरण मिलता है। समूह ए और समूह बी के भीतर x और y के बीच मजबूत सांख्यिकीय महत्वपूर्ण सहसंबंध है, लेकिन यदि आप समूहीकरण संरचना को अनदेखा करते हैं तो कोई संबंध नहीं है।

यहाँ छवि विवरण दर्ज करें

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1। यह एक बहुत ही चतुर उदाहरण है जो मेरे साथ नहीं हुआ था।
मैक्रों

13

एक संभावना यह है कि प्रभाव प्रत्येक समूह में अलग-अलग दिशाओं में जा रहे हैं और जब आप उन्हें एकत्र करते हैं तो रद्द हो जाते हैं । यह इस बात से भी संबंधित है कि, जब आप एक प्रतिगमन मॉडल में एक महत्वपूर्ण अंतःक्रियात्मक पद छोड़ते हैं, तो मुख्य प्रभाव भ्रामक हो सकते हैं।

उदाहरण के लिए, मान लें कि समूह में प्रतिक्रिया और भविष्यवक्ता बीच का वास्तविक संबंध है:yमैंएक्समैं

(yमैं|एक्समैं,जीआरयूपी )=1+एक्समैं

और समूह ,बी

(yमैं|एक्समैं,जीआरयूपी बी)=1-एक्समैं

मान लीजिए समूह सदस्यता इसलिए वितरित किया जाता है कि तो फिर, अगर आप समूह सदस्यता और calculate से अधिक हाशिए द्वारा कुल अपेक्षा का कानून आपको मिलता है

पी(जीआरयूपी )=1-पी(जीआरयूपी बी)=पी
(yमैं|एक्समैं)

(yमैं|एक्समैं)=((yमैं|एक्समैं,जीआरयूपी))=पी(1+एक्समैं)+(1-पी)(1-एक्समैं)=पी+पीएक्समैं+1-एक्समैं-पी+पीएक्समैं=1-एक्समैं(2पी-1)

इसलिए, यदि , और पर बिल्कुल निर्भर नहीं है । इसलिए, दोनों समूहों के बीच एक संबंध है, लेकिन जब आप उन्हें एकत्र करते हैं, तो कोई संबंध नहीं होता है। दूसरे शब्दों में, जनसंख्या में एक यादृच्छिक रूप से चयनित व्यक्ति के लिए, जिनकी समूह सदस्यता हमें नहीं पता है, औसतन, और बीच कोई संबंध नहीं । लेकिन, प्रत्येक समूह के भीतर है।पी=1/2(yमैं|एक्समैं)=1एक्समैंएक्समैंyमैं

कोई भी उदाहरण जहां का मान पूरी तरह से प्रत्येक समूह के भीतर प्रभाव के आकार को संतुलित करता है, इस परिणाम को भी जन्म देगा - यह गणना को आसान बनाने के लिए सिर्फ यह खिलौना उदाहरण था :)पी

नोट: सामान्य त्रुटियों के साथ, रेखीय प्रतिगमन गुणांक का महत्व पियर्सन के सहसंबंध के महत्व के बराबर है, इसलिए यह उदाहरण आपके द्वारा देखे जा रहे एक विवरण को उजागर करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.