X और XY यादृच्छिक चर के बीच सहसंबंध गुणांक 0.7 क्यों हो जाता है


49

मेडिकल रिसर्च के लिए प्रैक्टिकल स्टेटिस्टिक्स से लिया गया जहां डगलस ऑल्टमैन पृष्ठ 285 में लिखते हैं:

... किसी भी दो मात्राओं के लिए X और Y, X का XY के साथ संबंध होगा। वास्तव में, भले ही X और Y यादृच्छिक संख्याओं के नमूने हैं, हम X और XY के सहसंबंध को 0.7 होने की उम्मीद करेंगे

मैंने आर में यह कोशिश की और यह मामला लगता है:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

ऐसा क्यों है? इसके पीछे क्या सिद्धांत है?


आप किस भाग के लिए स्पष्टीकरण चाहते हैं? क्या आप केवल सहसंबंध के लिए सरलीकृत समीकरण चाहते हैं, जिसके परिणामस्वरूप x और y के बीच ज्ञात सहसंबंध और x और xy के बीच सहसंयोजक हो? या, क्या आप जानना चाहते हैं कि आखिर यहां कोई सहूलियत क्यों है?
जॉन

क्या यह किसी और लिए सच है ? मान लीजिए कि और असंबंधित हैं और जाने देते हैं । तब मुझे संदेह है कि का साथ संबंध नहीं होगा । वाई एक्स जेड वाई = एक्स - जेड एक्स एक्स - वाईXYXZY=XZXXY
हेनरी

जवाबों:


69

तो और हैं असहसंबद्ध बराबर विचरण के साथ यादृच्छिक परिवर्तनीय , तो हम है कि फलस्वरूप,वाई σ 2 संस्करण ( एक्स - वाई )XYσ2

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
इसलिए, जब आप बड़े डेटा सेट लिए और का नमूना सहसंबंध इन गुणों के साथ एक जनसंख्या है, जो एक विशेष मामले के रूप में "यादृच्छिक संख्या" भी शामिल है से तैयार, परिणाम आबादी सहसंबंध मूल्य के करीब हो जाता है
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071

क्या आप थोड़ा और समझा सकते हैं कि कैसेcov(X,X)-cov(X,Y)=s^2
nostock

5
cov (X, X) var (X) का दूसरा नाम है। cov (X, Y) = 0 क्योंकि X और Y को असंबद्ध माना जाता है (इसलिए covariance = 0)।
दिलीप सरवटे

58

एक ज्यामितीय-सांख्यिकीय स्पष्टीकरण।

कल्पना कीजिए कि आप एक "अंदर से बाहर" scatterplot बनाने जहां विषयों हैं कुल्हाड़ियों और चर और हैं अंक । इसे सब्जेक्ट स्पेस प्लॉट कहा जाता है (सामान्य वैरिएबल स्पेस प्लॉट के विपरीत )। क्योंकि प्लॉट करने के लिए केवल 2 अंक हैं, ऐसे स्थान में सभी आयाम केवल दो मनमाना आयामों को छोड़कर जो 2 बिंदुओं का समर्थन करने में सक्षम हैं, साथ ही मूल हैं, बेमानी हैं और सुरक्षित रूप से गिराए जा सकते हैं। और इसलिए हमें एक विमान के साथ छोड़ दिया जाता है। हम वेक्टर तीर को मूल से बिंदुओं तक खींचते हैं: ये डेटा के विषय स्थान में वैक्टर के रूप में हमारे चर और ।n 2 XYXY

अब, यदि चर को केंद्रित किया गया था , तो एक विषय स्थान में, उनके वैक्टर के बीच कोण का कोसाइन उनका सहसंबंध गुणांक है । नीचे दिए गए चित्र पर और वैक्टर ओर्थोगोनल हैं: उनका । असंबद्धता उनके उत्तर में @Dilip द्वारा पूर्व शर्त थी।वाई आर = 0XYr=0

इसके अलावा, चर के लिए केंद्रित, एक विषय अंतरिक्ष में उनकी वेक्टर लंबाई उनके मानक विचलन हैं । तस्वीर पर, और समान लंबाई के हैं, - बराबर संस्करण @Dilip द्वारा बनाई गई एक शर्त भी थे।वाईXY

वेरिएबल या वेरिएबल को खींचने के लिए हम केवल वेक्टर जोड़ या घटाव का उपयोग करते हैं, जिसे हम स्कूल से भूल गए हैं (एक्स वेक्टर के अंत में Y वेक्टर को हटा दें और घटाव के मामले में उलटा दिशा - यह ग्रे एरो द्वारा दिखाया गया है तस्वीर पर, - फिर एक वेक्टर को आकर्षित करें जहां ग्रे तीर बिंदु)।एक्स + वाईXYX+Y

यह बहुत स्पष्ट हो जाता है कि या वैक्टर (इन चरों के मानक विचलन) की लंबाई , पाइथागोरस प्रमेय, , और और या बीच का कोण है। 45 डिग्री, जो कोसाइन - सहसंबंध -एक्स + Y XYX+Y XX-YX+Y0.707 ...2σ2XXYX+Y0.707...

यहाँ छवि विवरण दर्ज करें


4
इस दृष्टिकोण को साझा करने के लिए एक बड़ा +1।
whuber

(+1) यह प्रस्तुत करने का एक बहुत साफ तरीका है!
मैट क्रुसे

आह ... चित्रों! (+1) शाबाश। :-)
कार्डिनल

11

मेरा मानना ​​है कि यहाँ सिमिट्री पर आधारित एक सरल अंतर्ज्ञान भी है। चूंकि X और Y का समान वितरण है और 0 का सहसंयोजक है, X के साथ X with Y का संबंध X; Y में भिन्नता का आधा "व्याख्या" करना चाहिए; अन्य आधे को वाई द्वारा समझाया जाना चाहिए। इसलिए आर 2 को 1/2 होना चाहिए, जिसका अर्थ है कि आर 1 / √2 7 0.707 है।


यह एक अच्छा अंतर्ज्ञान की तरह लगता है, लेकिन ध्यान दें कि यदि , लिखने के लिए मानक तरीका किया जाएगा , नहीं जो भले ही कुछ लोगों को भ्रमित कर सकते हैं वे बीजगणितीय रूप से समतुल्य हैं। आरr2=12r 1/1/21/2
गूँग - मोनिका

नहीं, यह वास्तव में अधिक मानक नहीं है। (यदि आपको साक्ष्य की आवश्यकता है, तो शीर्ष उत्तर को देखें। 38 लोग जो पहले ही इसके लिए वोट कर चुके हैं, वे एक ही अंकन से
वंचित नहीं हुए

मैं उन 38 ;-) में से एक हूं। सवाल यह है कि कोई ऐसा व्यक्ति जिसका बीजगणित काफी कमजोर हो, वह सबसे आसानी से पालन करने में सक्षम होगा? यदि , तो उस को देखना आसान है । r2=1/2r=1/2
गूँग - मोनिका

3

यहाँ यह सोचने का एक सरल तरीका है कि आखिर यहाँ सहसंबंध क्यों है।

कल्पना कीजिए कि जब आप दो वितरणों को घटाते हैं तो क्या होता है। यदि x का मान कम है, तो औसत से, x - yयदि x का मान अधिक है, तो निम्न मान होगा। जैसे-जैसे एक्स बढ़ता है x - y, औसतन वृद्धि होती है, और इस प्रकार, एक सकारात्मक सहसंबंध।


4
मुझे नहीं लगता कि आपका कथन हमेशा सच होता है "जब एक गणितीय संबंध होता है तो दो यादृच्छिक वितरणों के बीच हमेशा एक संबंध होगा।" जैसे x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat

4
@ गंभीर_काट: या, शायद और भी अधिक उत्तेजक होने के लिए, yपूरी तरह से छोड़ दें । :-)
कार्डिनल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.