संक्षिप्त उत्तर: बहुत गैर-मजबूत। सहसंबंध रैखिक निर्भरता का एक उपाय है , और जब एक चर को दूसरे के रैखिक कार्य के रूप में नहीं लिखा जा सकता है (और अभी भी दिए गए सीमांत वितरण हैं), तो आपके पास पूर्ण (सकारात्मक या नकारात्मक) सहसंबंध नहीं हो सकता है। वास्तव में, संभावित सहसंबंधों के मूल्यों को गंभीर रूप से प्रतिबंधित किया जा सकता है।
समस्या यह है कि जबकि जनसंख्या सहसंबंध हमेशा और 1 के बीच होता है , सटीक सीमा प्राप्य भारी मार्जिनल वितरण पर निर्भर करती है। एक त्वरित सबूत और प्रदर्शन:−11
सहसंबंध की सुगम सीमा
अगर वितरण समारोह है एच और सीमांत वितरण कार्यों एफ और जी , वहाँ के लिए कुछ नहीं बल्कि अच्छा ऊपरी और निचले सीमा से मौजूद है एच ,
एच - ( एक्स , वाई ) ≤ एच ( एक्स , वाई ) ≤ एच + ( एक्स , वाई ) ,
फ्रेश बाउंड्स कहा जाता है। य़े हैं
(X,Y)HFGH
H−(x,y)≤H(x,y)≤H+(x,y),
(इसे साबित करने की कोशिश करें; यह बहुत मुश्किल नहीं है।)
H−(x,y)H+(x,y)=max(F(x)+G(y)−1,0)=min(F(x),G(y)).
सीमाएँ स्वयं वितरण कार्य हैं। चलो एक समान वितरण की है। ऊपरी बाउंड , ( X , Y ) = ( F - ( U ) , G - ( U ) ) का वितरण कार्य है और निचला बाउंड, ( F - ( - U ) , G - (U(X,Y)=(F−(U),G−(U)) ।(F−(−U),G−(1−U))
अब, सहप्रसरण के लिए सूत्र पर इस प्रकार का उपयोग कर,
हम देखते हैं कि हम अधिकतम और न्यूनतम सहसंबंध प्राप्त जब एच के बराबर है एच + और एच - क्रमश: यानी, जब Y एक (सकारात्मक या नकारात्मक, क्रमशः) की एक लय समारोह है एक्स ।
Cov(X,Y)=∬H(x,y)−F(x)G(y)dxdy,
HH+H−YX
उदाहरण
यहां कुछ उदाहरण दिए गए हैं (बिना प्रमाण के):
XY(X,Y)YX
Y=μY+σYX−μXσX.
−11XY
XYYY=a−bXabYXY[−1/e,1]≈[−0.37,1]
XY
±1e−1−−−−√≈0.76.
ध्यान दें कि सभी सीमाएं जनसंख्या सहसंबंध के लिए हैं। नमूना सहसंबंध आसानी से सीमा से बाहर का विस्तार कर सकता है, विशेष रूप से छोटे नमूनों के लिए (त्वरित उदाहरण: 2 का नमूना आकार)।
सहसंबंध सीमा का अनुमान लगाना
यदि आप सीमांत वितरण से अनुकरण कर सकते हैं, तो सहसंबंध पर ऊपरी और निचले सीमा का अनुमान लगाना काफी आसान है। उपरोक्त अंतिम उदाहरण के लिए, हम इस R कोड का उपयोग कर सकते हैं:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
यदि हमारे पास केवल वास्तविक डेटा है और सीमांत वितरण नहीं जानते हैं, तो भी हम उपरोक्त विधि का उपयोग कर सकते हैं। यह एक समस्या नहीं है कि चर तब तक निर्भर होते हैं जब तक कि अवलोकन जोड़े निर्भर होते हैं। लेकिन यह कई अवलोकन जोड़े रखने में मदद करता है ।
डेटा ट्रांसफ़ॉर्म कर रहा है
YX सामान्य रूप से वितरित किए जाने वाले , सहसंबंध की अच्छी व्याख्या है (इसका वर्ग एक चर का प्रसरण है जिसे दूसरे द्वारा समझाया गया है। )। यहां ऐसा मामला नहीं है।
आप वास्तव में यहां क्या कर रहे हैं, यह निर्भरता का एक नया उपाय पैदा कर रहा है जो सीमांत वितरण पर निर्भर नहीं करता है; यानी, आप निर्भरता का एक कोपेड- आधारित माप बना रहे हैं । पहले से ही कई तरह के उपाय, मौजूद है स्पीयरमैन की ρ और केंडल τ सबसे प्रसिद्ध जा रहा है। (यदि आप वास्तव में निर्भरता की अवधारणाओं में रुचि रखते हैं, तो इसे कोपलों में देखना बुरा नहीं है।)
निष्कर्ष के तौर पर
कुछ अंतिम विचार और सलाह: केवल सहसंबंध को देखना एक बड़ी समस्या है: यह आपको सोचना बंद कर देता है। दूसरी ओर, बिखरे हुए भूखंडों को देखकर, अक्सर आप सोचने लगते हैं । इसलिए मेरी मुख्य सलाह यह है कि तितर बितर भूखंडों की जांच की जाए और स्पष्ट रूप से निर्भरता का मॉडल तैयार किया जाए।
उस ने कहा, अगर आपको एक साधारण सहसंबंध-जैसे उपाय की आवश्यकता है, तो मैं सिर्फ स्पीयरमैन के ρ (और संबद्ध आत्मविश्वास अंतराल और परीक्षण) का उपयोग करूंगा । इसकी सीमा प्रतिबंधित नहीं है। लेकिन गैर-मोनोटोन निर्भरता के बारे में बहुत जागरूक रहें। सहसंबंध पर विकिपीडिया लेख संभावित समस्याओं को दर्शाता हुआ अच्छा भूखंडों की एक जोड़ी है।