दूरी सहसंबंध संगणना को समझना


15

जहां तक ​​मुझे समझ में आया, दूरी संबंधी संबंध यह जांचने का एक मजबूत और सार्वभौमिक तरीका है कि क्या दो संख्यात्मक चर के बीच कोई संबंध है। उदाहरण के लिए, यदि हमारे पास संख्याओं के जोड़े का एक सेट है:

(x1, y1)
(x2, y2)
...
(xn, yn)

दो चर ( xऔर y) के बीच कोई (जरूरी नहीं कि रैखिक) संबंध है या नहीं, यह जांचने के लिए हम दूरी सहसंबंध का उपयोग कर सकते हैं । इसके अलावा, xऔर yविभिन्न आयामों के वैक्टर हो सकते हैं।

दूरी सहसंबंध की गणना करना अपेक्षाकृत आसान है। दूरी मैट्रिक्स की गणना के लिए पहले हम xi का उपयोग करते हैं । फिर हम का उपयोग कर दूरी मैट्रिक्स गणना yi । दो दूरी के मेट्रिसेस के आयाम समान होंगे क्योंकि xi और yi की संख्या समान है (क्योंकि वे जोड़े में आते हैं)।

अब हमारे पास बहुत सारी दूरियाँ हैं जिन्हें जोड़ा जा सकता है। उदाहरण के लिए (2,3)पहली दूरी के मैट्रिक्स (2,3)से तत्व को दूसरी दूरी के मैट्रिक्स से तत्व के साथ जोड़ा जाता है । इसलिए, हमारे पास दूरियों के जोड़े का एक सेट है और हम इसका उपयोग सहसंबंध (दूरियों के बीच संबंध) की गणना करने के लिए कर सकते हैं।

यदि दो प्रकार की दूरियां परस्पर संबंधित हैं, तो इसका मतलब यह है कि Xs का मतलब आमतौर पर करीब Ys होता है। उदाहरण के लिए यदि के करीब है की तुलना में यह है कि इसका मतलब है y 7 के करीब होने की संभावना है y 13 । इसलिए, हम यह निष्कर्ष निकाल सकते हैं कि Xs और Y निर्भर हैं।x7x13y7y13

उचित लगता है, हालांकि दो पहलू हैं जो मुझे समझ में नहीं आते हैं

सबसे पहले , दूरी सहसंबंध की गणना करने के लिए हम सीधे दो दूरी के मेट्रिसेस का उपयोग नहीं करते हैं। हम उन पर दोहरा केंद्रित प्रक्रिया लागू करते हैं (ताकि किसी भी पंक्ति (या स्तंभ में सभी तत्वों का योग शून्य के बराबर हो)। मुझे समझ नहीं आता कि हमें ऐसा करने की आवश्यकता क्यों है। इस कदम के पीछे तर्क (या अंतर्ज्ञान) क्या है?

दूसरा , मूल दूरी के मेट्रिसेस में हम विकर्ण पर शून्य हैं। इसलिए, अगर हम दूरियों के बीच सहसंबंधों की गणना करते हैं, तो हमारे पास एक सांख्यिकीय रूप से महत्वपूर्ण सहसंबंध होगा क्योंकि पहले मैट्रिक्स से कई शून्य दूसरे मैट्रिक्स में संबंधित शून्य के साथ जोड़े जाते हैं। इस समस्या का समाधान कैसे किया जाता है?

जवाबों:


16

दूरी सहसंयोजक / सहसंबंध (= ब्राउनियन सहवास / सहसंबंध) की गणना निम्नलिखित चरणों में की जाती है:

  1. Nचर द्वारा मामलों के बीच यूक्लिडियन दूरी की मैट्रिक्स की गणना , और चर Y द्वारा इसी तरह की एक और मैट्रिक्स । दो मात्रात्मक विशेषताओं में से कोई, एक्स या वाई , बहुभिन्नरूपी हो सकती है, न कि केवल अविभाज्य।XYXY
  2. प्रत्येक मैट्रिक्स का दोहरा केंद्रित करना। देखें कि आमतौर पर डबल सेंटरिंग कैसे की जाती है। हालांकि, हमारे मामले में, जब यह है कर नहीं वर्ग दूरी शुरू में और से विभाजित नहीं है अंत में। पंक्ति, स्तंभ का अर्थ और तत्वों का समग्र मतलब शून्य हो जाता है।2
  3. दो परिणामी मेट्रिसेस को तत्व रूप से गुणा करें और योग की गणना करें; या समतुल्य, मेट्रिसेस को दो कॉलम वैक्टर में खोलना और उनके सममित क्रॉस-उत्पाद की गणना करना।
  4. औसत,, तत्वों की संख्या से विभाजित N^2
  5. वर्गाकार जड़ लें। इसका परिणाम X और Y के बीच की दूरी का कोविरेंस हैXY
  6. दूरी भिन्नताएं की दूरी के सहसंयोजक हैं , स्वयं के साथ वाई के, आप उन्हें इसी तरह से इंगित करते हैं, अंक 3-4-5।XY
  7. दूरी सहसंबंध को तीन संख्याओं से समान रूप से प्राप्त किया जाता है कि पियर्सन सहसंबंध सामान्य सहसंयोजक से कैसे प्राप्त किया जाता है और variances की जोड़ी: दो variances के उत्पाद के वर्गमूल द्वारा सहसंयोजक को विभाजित करते हैं।

दूरी सहप्रसरण (और सहसंबंध) है नहीं सहप्रसरण (या सहसंबंध) दूरी आपस में। यह विशेष स्केलर उत्पादों (डॉट उत्पादों ) के बीच सहसंयोजक (सहसंबंध) है जिसमें "डबल केंद्रित" मैट्रीस शामिल हैं।

यूक्लिडियन अंतरिक्ष में, एक स्केलर उत्पाद समान दूरी के साथ असमान रूप से बंधा हुआ समानता है । यदि आपके पास दो बिंदु (वेक्टर) हैं तो आप बिना जानकारी खोए उनकी दूरी के बजाय स्केलर उत्पाद के रूप में उनकी निकटता व्यक्त कर सकते हैं।

हालांकि, एक स्केलर उत्पाद की गणना करने के लिए आपको अंतरिक्ष के मूल बिंदु का उल्लेख करना होगा (वैक्टर मूल से आते हैं)। आम तौर पर, कोई भी उस जगह को पसंद कर सकता है जहां वह पसंद करता है, लेकिन अक्सर और सुविधाजनक यह होता है कि वह अंकों के बादल के ज्यामितीय मध्य पर, मतलब है। क्योंकि माध्य उसी स्थान से संबंधित है क्योंकि बादल द्वारा छेड़े गए आयाम से प्रफुल्लित नहीं होगा।

अब, दूरी मैट्रिक्स (बादल के बिंदुओं के बीच) का सामान्य दोहरा केंद्र उस ज्यामितीय मध्य पर मूल को रखते हुए स्केलर उत्पादों के लिए दूरी को परिवर्तित करने का संचालन है। ऐसा करने में, दूरी के "नेटवर्क" को मूल रूप से विशिष्ट लंबाई और जोड़ीदार कोणों के वैक्टर के "फट" से बदल दिया जाता है:

यहाँ छवि विवरण दर्ज करें

[मेरे उदाहरण के चित्र पर नक्षत्र ग्रह है जो "चर" को दूर करता है, कहते हैं कि यह था , उत्पन्न होने से यह द्वि-आयामी था। जब X एकल-स्तंभ चर होता है, तो सभी बिंदु एक पंक्ति में, निश्चित रूप से झूठ बोलते हैं।]XX

डबल केंद्र संचालन के बारे में बस थोड़ा औपचारिक रूप से। दिखाया है n points x p dimensionsडेटा (univariate मामले में, )। आज्ञा देना अंक के बीच डी यूक्लिडियन दूरी के मैट्रिक्स हो । C को अपने कॉलम के साथ X होने दें । फिर एस = डबल केंद्रित  डी 2 के बराबर है सी सी ' , अंक के बादल के बाद पंक्तियों के बीच अदिश उत्पादों केन्द्रित था। दोहरे केंद्र की मुख्य संपत्ति यह है कि 1Xp=1Dn x nnCXS=double-centered D2CC, और इस राशि का नकार राशि के बराबर होती हैबंदका -diagonal तत्वोंएस12nD2=trace(S)=trace(CC)S

दूरी सहसंबंध पर लौटें। जब हम दूरी सहसंयोजक की गणना करते हैं तो हम क्या कर रहे हैं? हमने दोनों जालों की दूरी को उनके संबंधित वैक्टरों में बदल दिया है। और फिर हम दो बंचों के संगत मानों के बीच सहसंबंध (और बाद में सहसंबंध) की गणना करते हैं: एक विन्यास के प्रत्येक स्केलर उत्पाद मूल्य (पूर्व दूरी मूल्य) को इसके दूसरे कॉन्फ़िगरेशन के संबंधित गुणक से गुणा किया जा रहा है। यह देखा जा सकता है (जैसा कि बिंदु 3 में कहा गया था) दो चर के बीच सामान्य सहसंयोजक की गणना करते हुए, उन "चर" में दो वृत्तों को वेक्टरकृत करने के बाद।

इस प्रकार, हम समानता के दो सेटों (स्केलर उत्पादों, जो कि परिवर्तित दूरी हैं) का सहसंयोजन कर रहे हैं। किसी भी प्रकार का सहसंयोजक क्षणों का क्रॉस-प्रोडक्ट है: आपको उन क्षणों की गणना करनी है, माध्य से विचलन, पहले - और डबल सेंट्रिंग वह अभिकलन था। यह आपके प्रश्न का उत्तर है: एक सहसंयोजक को क्षणों पर आधारित होने की आवश्यकता है लेकिन दूरी क्षण नहीं हैं।

(बिंदु 5) के बाद वर्गमूल का अतिरिक्त लेना तर्कसंगत लगता है क्योंकि हमारे मामले में पल पहले से ही एक प्रकार का सहसंयोजक था (एक अदिश उत्पाद और एक सहसंयोजक संरचनात्मक रूप से संकलित होता है) और इसलिए यह आया कि आप दो बार एक तरह के बहुउद्देशीय सहसंयोजक होते हैं। इसलिए मूल डेटा के मूल्यों के स्तर पर वापस आने के लिए (और सहसंबंध मूल्य की गणना करने में सक्षम होने के लिए) किसी को मूल को बाद में लेना होगा।

(0,2)12


चरण 3 में "सैंपल क्रॉस प्रोडक्ट" द्वारा, क्या आपका मतलब सामान्य स्केलर उत्पाद है?
kram1032

1
@ kram1032, Yes scp और स्केलर उत्पाद पर्यायवाची शब्द हैं ।stackexchange.com
a

8

मुझे लगता है कि आपके दोनों प्रश्न गहराई से जुड़े हुए हैं। जबकि दूरी मैट्रिक्स में मूल विकर्ण 0 हैं, जो सहसंयोजक के लिए उपयोग किया जाता है (जो सहसंबंध के अंश निर्धारित करता है) दूरी का दोगुना केंद्रित मूल्य है - जो, किसी भी भिन्नता के साथ एक वेक्टर के लिए, जिसका अर्थ है कि विकर्ण होगा नकारात्मक।

तो चलिए एक सरल स्वतंत्र मामले के माध्यम से कदम उठाते हैं और देखते हैं कि क्या हमें कोई अंतर्ज्ञान देता है क्योंकि सहसंबंध 0 है जब दो चर स्वतंत्र होते हैं।

(X,Y)=[(0,0),(0,1),(1,0),(1,1)]

XY

a=[0011001111001100]

b=[0101101001011010]

A

A=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

B=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

.5.5=.25.5.5=.25.5.5=.250

0

0ab0.25

(जैसा कि ttnphns बताते हैं, अपने आप में यह पर्याप्त नहीं है, क्योंकि शक्ति भी मायने रखती है। हम एक ही डबल सेंटरिंग कर सकते हैं, लेकिन अगर हम उन्हें क्वाडरेचर में जोड़ते हैं तो हम केवल और केवल संपत्ति खो देंगे।)


1
यदि आप इस उत्तर में मैट्रिसेस संपादित करते हैं तो क्या आप बुरा मानेंगे?
छायाकार

@ssdecontrol प्रस्ताव के लिए धन्यवाद! मैंने खुद को किया और इसे किया, लेकिन किसी भी अन्य स्वरूपण में बदलाव करने के लिए स्वतंत्र महसूस करें।
मैथ्यू ग्रेव्स

1
मैं काफी समझ में नहीं क्या आप इस मामले में से "एकल" मतलब (यह और क्या Mattew कहा है या?) क्या वास्तव में रहस्यमय / मेरे लिए महत्वपूर्ण है (जैसा कि मैं इसे अपने जवाब के अंत में व्यक्त) है क्यों ( सैद्धांतिक रूप से) जब हम बिना डबल केंद्रित प्रदर्शन बराबरी दूरी पहले हम dCov की सुविधा अपने अद्वितीय और उपयोगी गुण हैं।
tnnphns

1
@ttnphns: सिंगल सेंटरिंग से मेरा मतलब था कि प्रत्येक दूरी के मूल्य से भव्य माध्य घटाया जाए। किसी भी मामले में, मैं सहमत हूं कि दूरी सहसंयोजक रहस्यमय है।
अमीबा का कहना है कि मोनिका

1
@amoeba काश लेखक कुछ प्रकार के सहज स्पष्टीकरण के साथ अनुवर्ती लिखते हैं और चर के कई जोड़े के लिए एक कुशल कार्यान्वयन। यह एक दशक से बंद हो रहा है क्योंकि उनके मूल पेपर और डिस्टेंस कॉवरिएंसे अभी भी ज्यादातर ग्रेडेड छात्रों के लिए एक क्विक्सोटिक डायवर्सन है। एकमात्र बार जब मैंने इसे अभ्यास में इस्तेमाल किया है, तो एमसी चेन का निदान करने के लिए स्टेन में एक तत्कालीन-
गैर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.