क्या दो बूलियन वैक्टर के बीच पियर्सन या स्पीयरमैन सहसंबंध की गणना करना सार्थक है?


42

दो बूलियन वैक्टर हैं, जिनमें 0 और 1 ही हैं। यदि मैं पियरसन या स्पीयरमैन सहसंबंध की गणना करता हूं, तो क्या वे सार्थक या उचित हैं?


2
यदि दोनों चर द्विगुणित हैं, पियर्सन = स्पीयरमैन = केंडल के ताऊ। हाँ, इसमें सन्नाटा हो सकता है। सही मायने में बाइनरी (बूलियन) डेटा के साथ यह बिना सेंटरिंग के डेटा पर "पियरसन" की गणना करने के लिए भी सार बनाता है, जो कि कोसाइन होगा।
ttnphns

1
... और फ़ि (मानकीकृत ची-वर्ग) जो हमें पैमाने से आकस्मिक तालिका में लाता है।
tnnphns

जवाबों:


34

Pearson और Spearman सहसंबंध को तब तक परिभाषित किया जाता है जब तक आपके पास दो बाइनरी चर के लिए कुछ 0 s और कुछ 1 s, y और x कहते हैं । दो चरों के एक बिखरे हुए कथानक के बारे में सोचने से उन्हें एक अच्छा गुणात्मक विचार प्राप्त करना आसान है। स्पष्ट रूप से, केवल चार संभावनाएं हैं (0,0),(0,1),(1,0),(1,1)(ताकि विज़ुअलाइज़ेशन के लिए समान बिंदुओं को अलग करने के लिए घबराना एक अच्छा विचार है)। उदाहरण के लिए, किसी भी स्थिति में जहां दोनों वैक्टर समान हैं, प्रत्येक में कुछ 0s और कुछ 1s के अधीन हैं, तो परिभाषा y=x और सहसंबंध आवश्यक 1 । इसी तरह, यह संभव है कि y=1x और फिर सहसंबंध है 1

0101

01


1
क्या इस स्थिति में इसका मतलब है, इस दो बाइनरी वैक्टर के लिए पियर्सन या स्पीयरमैन सहसंबंध गुणांक एक अच्छा समानता मीट्रिक नहीं है?
Zhilong जिया

हां इस अर्थ में कि यह समानता को नहीं मापता है और वेक्टर के लिए सभी 0s या सभी 1s के लिए अपरिभाषित है।
निक कॉक्स

2 समान या 'विपरीत' वैक्टर मामला मेरे लिए स्पष्ट नहीं है। यदि x = c (1,1,1,1,1) और y = (0,0,0,0,0) तो y = 1-x और ऐसा लगता है कि आप कह रहे हैं कि यह परिभाषा के अनुसार होना चाहिए। , -1 का सहसंबंध। समान रूप से y = x-1 का +1 का सहसंबंध है। स्कैटरप्लॉट पर केवल 1 बिंदु (5 प्रतिकृति) है इसलिए इसके माध्यम से कोई भी सीधी रेखा खींची जा सकती है। ऐसा लगता है कि सहसंबंध इस उदाहरण में अपरिभाषित है। क्षमा करें यदि मुझे गलत समझ में आया कि आपका क्या मतलब है। @ नाइकॉक्स
पीएम।

2
नहीं; मैं यह नहीं कह रहा हूं, जैसा कि मैं अपने पहले वाक्य में इंगित करता हूं कि आपको सहसंबंध को परिभाषित करने के लिए 0s और 1s का मिश्रण होना चाहिए। अन्यथा यदि चर का एसडी 0 है तो सहसंबंध अपरिभाषित है। लेकिन मैंने अपने उत्तर को दो बार उल्लेख करने के लिए संपादित किया है।
निक कॉक्स

15

बाइनरी वैक्टर के लिए विशेष समानता मैट्रिक्स हैं, जैसे:

  • Jaccard-Needham
  • पासा
  • यूल
  • रसेल-राव
  • सोकल-Michener
  • रोजर्स-तानिमोटो
  • Kulzinsky

आदि।

जानकारी के लिए, यहां देखें ।


5
निश्चित रूप से कई और अधिक विश्वसनीय और व्यापक संदर्भ हैं। यहां तक ​​कि लेखकों के नाम सही होने के स्तर पर, कुलसीज़ी और तनिमोटो पर ध्यान दें। उदाहरण देखें हबेल, जेड 1982. द्विआधारी (उपस्थिति-अनुपस्थिति) डेटा के आधार पर एसोसिएशन और समानता के गुणांक: एक मूल्यांकन। जैविक समीक्षा 57: 669–689।
निक कॉक्स

5
उन्होंने स्पष्ट रूप से 'तनीमोतो' को याद किया है, लेकिन 'कुलज़िंस्की' को जानबूझकर सरल बना दिया गया है। आपका संदर्भ संदेह के बिना अधिक विश्वसनीय है लेकिन यह हर किसी के लिए सुलभ नहीं है।
डिगियो जूल

0

मैं बाइनरी डेटा के लिए पियर्सन के सहसंबंध गुणांक का उपयोग करने की सलाह नहीं दूंगा, निम्नलिखित काउंटर-उदाहरण देखें:

set.seed(10) 
a = rbinom(n=100, size=1, prob=0.9) 
b = rbinom(n=100, size=1, prob=0.9)

ज्यादातर मामलों में दोनों एक 1 देते हैं

table(a,b)

> table(a,b)
   b
a    0  1
  0  0  3
  1  9 88

लेकिन सहसंबंध यह प्रदर्शित नहीं करता है

cor(a, b, method="pearson")

> cor(a, b, method="pearson")
[1] -0.05530639

एक बाइनरी समानता माप जैसे कि जैकार्ड इंडेक्स हालांकि अधिक उच्च संघ दिखाता है:

install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")

> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966

ऐसा क्यों है? यहां देखें सरल बिवरिएट रिग्रेशन

plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))

नीचे प्लॉट (छोटे शोर को अंकों की संख्या को स्पष्ट करने के लिए जोड़ा गया) बिवरिएट रिग्रेशन लाइन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.