डेटा के इस सेट में कोई सहसंयोजक क्यों नहीं है?


8

सहसंयोजक कैसे काम करता है, इसके बारे में मेरी समझ यह है कि सहसंबंधित डेटा कुछ हद तक उच्च सहसंयोजक होना चाहिए। मैं एक ऐसी स्थिति में आया हूं, जहां मेरा डेटा सहसंबद्ध दिखता है (जैसा कि स्कैटर प्लॉट में दिखाया गया है) लेकिन कोवरियन निकट-शून्य है। यदि वे सहसंबद्ध हैं तो डेटा के सहसंयोजक शून्य कैसे हो सकते हैं?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

यहाँ छवि विवरण दर्ज करें


4
संकेत: जब आप सहसंबंध को देखते हैं तो क्या होता है? सहसंयोजक और सहसंबंध के बीच अंतर क्या है?
aleshing

2
यदि आप संख्याओं को माप रहे हैं जो एक विशेष पैमाने पर एक साथ छोटे या निकट दिखाई देते हैं, तो उनके बीच के अंतर भी छोटे प्रतीत होंगे, और अंतर के उत्पाद छोटे प्रतीत होते हैं। अपने सभी डेटा को गुणा करके देखें1000और फिर गणना को फिर से करना; सहसंयोजक होना चाहिए1000000बड़े समय के रूप में
हेनरी

जवाबों:


14

सहसंयोजक का परिमाण डेटा की भयावहता पर निर्भर करता है और उस डेटा के मतलब के आसपास उन डेटा बिंदुओं को कैसे बंद किया जाता है। जब आप सूत्र को देखते हैं तो यह देखना आसान होता है:

सीvएक्स,y=Σ(एक्समैं-एक्स¯)(yमैं-y¯)n-1

आपके मामले में, x1और x2डेटा की अवहेलना इस बिंदु पर है x1और x2ये हैं:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

अब यदि आप उन दोनों वैक्टरों को एक दूसरे के साथ गुणा करते हैं तो आपको स्पष्ट रूप से काफी कम संख्याएँ मिलती हैं:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

अब राशि लें और द्वारा विभाजित करें n-1 और आपके पास सहवास है:

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

यही कारण है कि सहसंयोजक की भयावहता ताकत x1और x2सह-भिन्नताओं के बारे में बहुत कुछ नहीं कहती है । कोविरियन का मानकीकरण (या सामान्यीकरण) करके, यह मानक विचलन के उत्पाद से विभाजित हो रहा है x1और x2(कोविरियन के समान, अर्थात 2.609127e-05),

आर=सीvएक्स,yरोंएक्सरोंy=Σ(एक्स1-एक्स¯)(yमैं-y¯)(n-1)रोंएक्सरोंy

आप उच्च सहसंबंध गुणांक प्राप्त करते हैं, का आर=0.99, जो पुष्टि करता है कि आप अपने भूखंड में क्या देख सकते हैं।


7

आइए इस बारे में बात करते हैं कि प्लॉट पर त्वरित नज़र से क्या देखा जा सकता है और कुछ तर्कपूर्ण जाँचें (ये इस तरह की चीजें हैं जो डेटा को देखते समय कर सकते हैं, बस कुछ बुनियादी तथ्यों से लैस होकर)

हालाँकि, पहले ध्यान दें कि nमानक विचलन का डेडोमिनेटर संस्करण आधी सीमा से अधिक नहीं हो सकता है ( n-1 भाजक संस्करण कर सकते हैं, लेकिन बहुत से अधिक टिप्पणियों के साथ)।

दोनों चर की सीमाएँ 0.02 (लगभग) के क्रम पर हैं, इसलिए भिन्नताओं को लगभग आधे से अधिक नहीं होना चाहिए, जो कि चुकता हैं, या उनके बारे में नहीं हैं। 10-4

नतीजतन, आपके आउटपुट में भिन्नताओं के देखे गए मूल्य समझ में आते हैं; वे दोनों उससे कम हैं, लेकिन दसवें हिस्से से ज्यादा हैं।

सहसंयोजक का पूर्ण मूल्य तब दो भिन्नताओं के ज्यामितीय माध्य से अधिक नहीं होना चाहिए (अन्यथा सहसंबंध 1 से अधिक हो सकता है)। तो सहसंयोजक के निरपेक्ष मूल्य से अधिक नहीं होना चाहिए14 पर्वतमाला के उत्पाद।

इसलिए यदि दोनों चर की सीमा दोनों के करीब थी 0.02, हम पूर्ण सहसंयोजक से अधिक की उम्मीद नहीं कर सकते (0.02)2/4=10-4

उस बहुत मोटे विश्लेषण से, कुछ भी आश्चर्यजनक नहीं लगता है।

एक अधिक सटीक विश्लेषण वास्तव में अधिक सटीक सीमाओं का उपयोग करके गणना करने से होता है और फिर सीमांत वितरण के आकार के बारे में सोचता है:
पर्वतमाला अभी नीचे हैं0.023 तथा 0.015 क्रमशः, इसलिए कोवरियन से अधिक नहीं होना चाहिए 8.6×10-5, लेकिन चूंकि सीमांत वितरण लगभग-सममित-दो-बिंदु वितरण नहीं हैं, यह उससे काफी कम होना चाहिए।

वास्तव में, अगर हम कहते हैं कि वे अब तक वर्दी से दूर नहीं हैं, तो सहसंयोजक को 1/4 के बजाय उत्पाद को लगभग 1/12 से बाउंड किया जाएगा। 2.9×10-5- लेकिन बहुत कम नहीं है क्योंकि सहसंबंध अधिक है।
[ये संस्करण समान नहीं हैं - वे तिरछे रह गए हैं - लेकिन यह हमारे वर्तमान उद्देश्यों के लिए पर्याप्त है।]

तो बस प्रत्येक चर की सीमा और सीमांत वितरण और भूखंड में सहसंबंध की भावना को देखते हुए, मुझे उम्मीद है कि कोवरियन की तुलना में थोड़ा कम होगा 2.9×10-5। यह वास्तव में है2.6×10-5

(दो महत्वपूर्ण आंकड़ों की सीमा के साथ शुरू होने वाले एक त्वरित बैक-ऑफ-द-लिफाफे की गणना के लिए इतना बुरा नहीं है!)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.