किसी दिए गए डेटासेट के लिए पियर्सन और स्पीयरमैन के सहसंबंध के बीच सहसंबंध गुणांक में बड़ा अंतर क्या हो सकता है?

दो चर के बीच पियर्सन का गुणांक काफी अधिक है (r = .65)। लेकिन जब मैं चर मानों को रैंक करता हूं और एक स्पीयरमैन के सहसंबंध को चलाता हूं, तो कॉफ़िशिएंसी मूल्य बहुत कम है (आर = 30)।

इसकी व्याख्या क्या है?

correlation spearman-rho

— user3671
स्रोत

सहसंबंध गुणांक की व्याख्या करने से पहले डेटा का स्कैप्लेट को दिखाना आमतौर पर एक अच्छा विचार है।

— CHL

आपका नमूना आकार क्या है?

— जेरोमे एंग्लीम

क्यों बड़ा अंतर है

यदि आपका डेटा सामान्य रूप से वितरित या समान रूप से वितरित किया जाता है, तो मुझे लगता है कि स्पीयरमैन और पियर्सन का सहसंबंध काफी हद तक समान होना चाहिए।
यदि वे आपके मामले में (.65 बनाम .30) के अनुसार बहुत भिन्न परिणाम दे रहे हैं, तो मेरा अनुमान है कि आपके पास तिरछा डेटा या आउटलेयर हैं, और यह कि आउटलेयर पियर्सन के सहसंबंध को स्पीयरमैन के सहसंबंध से बड़ा बना रहे हैं। I, X पर बहुत उच्च मान Y पर बहुत उच्च मान के साथ सह-हो सकता है।
@chl पर हाजिर है। तितर बितर भूखंड को देखने के लिए आपका पहला कदम होना चाहिए।
सामान्य तौर पर, पियर्सन और स्पीयरमैन के बीच इतना बड़ा अंतर एक लाल झंडा है जो सुझाव देता है
- पियर्सन सहसंबंध आपके दो चर के बीच संघ का एक उपयोगी सारांश नहीं हो सकता है, या
- आपको पियर्सन के सहसंबंध का उपयोग करने से पहले एक या दोनों चर को बदलना चाहिए, या
- आपको पियर्सन के सहसंबंध का उपयोग करने से पहले आउटलेर्स को हटा देना या समायोजित करना चाहिए।

सरल आर उदाहरण

निम्नलिखित यह कैसे हो सकता है का एक सरल अनुकरण है। ध्यान दें कि नीचे दिए गए मामले में एक ही आउटलुक शामिल है, लेकिन आप कई आउटलेर्स या तिरछी डेटा के साथ समान प्रभाव उत्पन्न कर सकते हैं।

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

जिससे यह आउटपुट मिलता है

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

सहसंबंध विश्लेषण से पता चलता है कि आउटलाइन के बिना स्पीयरमैन और पीयरसन काफी समान हैं, और बल्कि अत्यधिक आउटलाइन के साथ, सहसंबंध काफी अलग है।

नीचे दिए गए कथानक से पता चलता है कि रैंकों के रूप में डेटा का उपचार कैसे किया जाता है, जो बाहरी के अत्यधिक प्रभाव को दूर करता है, इस प्रकार स्पीयरमैन को बाहरी के साथ और बिना दोनों के समान होने की ओर अग्रसर करता है जबकि पीयरसन को अलग किया जाता है जब आउटलीयर जोड़ा जाता है। इस पर प्रकाश डाला गया कि क्यों स्पीयरमैन को अक्सर मजबूत कहा जाता है।

यहां छवि विवरण दर्ज करें

— जेरोमी एंग्लिम
स्रोत

किसी दिए गए डेटासेट के लिए पियर्सन और स्पीयरमैन के सहसंबंध के बीच सहसंबंध गुणांक में बड़ा अंतर क्या हो सकता है?

क्यों बड़ा अंतर है

संबंधित सवाल

सरल आर उदाहरण