दो बूलियन वैक्टर हैं, जिनमें 0 और 1 ही हैं। यदि मैं पियरसन या स्पीयरमैन सहसंबंध की गणना करता हूं, तो क्या वे सार्थक या उचित हैं?
दो बूलियन वैक्टर हैं, जिनमें 0 और 1 ही हैं। यदि मैं पियरसन या स्पीयरमैन सहसंबंध की गणना करता हूं, तो क्या वे सार्थक या उचित हैं?
जवाबों:
Pearson और Spearman सहसंबंध को तब तक परिभाषित किया जाता है जब तक आपके पास दो बाइनरी चर के लिए कुछ s और कुछ s, और कहते हैं । दो चरों के एक बिखरे हुए कथानक के बारे में सोचने से उन्हें एक अच्छा गुणात्मक विचार प्राप्त करना आसान है। स्पष्ट रूप से, केवल चार संभावनाएं हैं (ताकि विज़ुअलाइज़ेशन के लिए समान बिंदुओं को अलग करने के लिए घबराना एक अच्छा विचार है)। उदाहरण के लिए, किसी भी स्थिति में जहां दोनों वैक्टर समान हैं, प्रत्येक में कुछ 0s और कुछ 1s के अधीन हैं, तो परिभाषा और सहसंबंध आवश्यक । इसी तरह, यह संभव है कि और फिर सहसंबंध है ।
बाइनरी वैक्टर के लिए विशेष समानता मैट्रिक्स हैं, जैसे:
आदि।
जानकारी के लिए, यहां देखें ।
मैं बाइनरी डेटा के लिए पियर्सन के सहसंबंध गुणांक का उपयोग करने की सलाह नहीं दूंगा, निम्नलिखित काउंटर-उदाहरण देखें:
set.seed(10)
a = rbinom(n=100, size=1, prob=0.9)
b = rbinom(n=100, size=1, prob=0.9)
ज्यादातर मामलों में दोनों एक 1 देते हैं
table(a,b)
> table(a,b)
b
a 0 1
0 0 3
1 9 88
लेकिन सहसंबंध यह प्रदर्शित नहीं करता है
cor(a, b, method="pearson")
> cor(a, b, method="pearson")
[1] -0.05530639
एक बाइनरी समानता माप जैसे कि जैकार्ड इंडेक्स हालांकि अधिक उच्च संघ दिखाता है:
install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")
> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966
ऐसा क्यों है? यहां देखें सरल बिवरिएट रिग्रेशन
plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))
नीचे प्लॉट (छोटे शोर को अंकों की संख्या को स्पष्ट करने के लिए जोड़ा गया)