मुझे कैसे पता चलेगा कि कब स्पीयरमैन के और पियर्सन के बीच चयन करना है ? मेरे चर में संतुष्टि शामिल है और अंकों के योग का उपयोग करके स्कोर की व्याख्या की गई थी। हालांकि, इन अंकों को भी स्थान दिया जा सकता है।आर
मुझे कैसे पता चलेगा कि कब स्पीयरमैन के और पियर्सन के बीच चयन करना है ? मेरे चर में संतुष्टि शामिल है और अंकों के योग का उपयोग करके स्कोर की व्याख्या की गई थी। हालांकि, इन अंकों को भी स्थान दिया जा सकता है।आर
जवाबों:
यदि आप अपने डेटा का पता लगाना चाहते हैं तो दोनों की गणना करना सबसे अच्छा है, क्योंकि स्पीयरमैन (एस) और पीयरसन (पी) के बीच संबंध कुछ जानकारी देंगे। संक्षेप में, S की गणना रैंकों पर की जाती है और इसलिए मोनोटोनिक रिश्तों को दर्शाया गया है जबकि P सच्चे मूल्यों पर है और रेखीय संबंधों को चित्रित करता है।
उदाहरण के लिए, यदि आप सेट करते हैं:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
ऐसा इसलिए है क्योंकि साथ एक-दूसरे से एकतरफा बढ़ता है इसलिए स्पीयरमैन सहसंबंध परिपूर्ण है, लेकिन रैखिक रूप से नहीं, इसलिए पियर्सन सहसंबंध अपूर्ण है। x य
corr(x,log(y),'type','Pearson'); % will equal 1
दोनों करना दिलचस्प है क्योंकि अगर आपके पास एस> पी है, तो इसका मतलब है कि आपके पास एक सहसंबंध है जो कि मोनोटोनिक है लेकिन रैखिक नहीं है। चूंकि आंकड़ों में रैखिकता होना अच्छा है (यह आसान है) आप (ऐसे लॉग) पर परिवर्तन लागू करने का प्रयास कर सकते हैं ।
मुझे उम्मीद है कि यह सहसंबंधों के प्रकारों के बीच अंतर को समझने में आसान बनाने में मदद करता है।
सबसे छोटा और अधिकतर सही उत्तर है:
पियरसन बेंचमार्क लीनियर रिलेशनशिप, स्पीयरमैन बेंचमार्क मोनोटोनिक रिलेशनशिप (कुछ इनफिनिटीज नॉर्मल केस, लेकिन कुछ पॉवरफुल के लिए)।
इसलिए यदि आप मानते हैं / सोचते हैं कि संबंध रैखिक है (या, एक विशेष मामले के रूप में, कि वे एक ही चीज़ के दो उपाय हैं, इसलिए संबंध ) और स्थिति बहुत अधिक नहीं है (विवरण के लिए अन्य उत्तरों की जांच करें), पीयरसन के साथ जाएं। अन्यथा स्पीयरमैन का उपयोग करें।
यह अक्सर आंकड़ों में होता है: विभिन्न प्रकार के तरीके हैं जो आपकी स्थिति में लागू किए जा सकते हैं, और आपको नहीं पता कि किसको चुनना है। आपको अपने फैसले को विचाराधीन विधियों के पेशेवरों और विपक्षों और आपकी समस्या की बारीकियों को आधार बनाना चाहिए, लेकिन फिर भी निर्णय आम तौर पर बिना किसी सहमति के "सही" उत्तर के साथ व्यक्तिपरक होता है। आमतौर पर यह एक अच्छा विचार है कि उतने ही तरीके आजमाए जाएं जो आपके लिए उचित हों और आपके धैर्य की अनुमति देंगे और देखेंगे कि कौन सा आपको अंत में सबसे अच्छा परिणाम देता है।
पियर्सन सहसंबंध और स्पीयरमैन सहसंबंध के बीच का अंतर यह है कि पियर्सन एक अंतराल पैमाने से लिए गए माप के लिए सबसे उपयुक्त है , जबकि स्पीयरमैन क्रमिक पैमानों से लिए गए माप के लिए अधिक उपयुक्त है । अंतराल तराजू के उदाहरणों में "फारेनहाइट में तापमान" और "इंच में लंबाई" शामिल हैं, जिसमें व्यक्तिगत इकाइयां (1 डिग्री एफ, 1 इन) सार्थक हैं। "संतुष्टि स्कोर" जैसी चीजें सामान्य प्रकार की हैं, क्योंकि यह स्पष्ट है कि "5 खुशी" "3 खुशी" की तुलना में अधिक खुश है, यह स्पष्ट नहीं है कि क्या आप "1 खुशी की इकाई" की सार्थक व्याख्या दे सकते हैं। लेकिन जब आप जोड़ते हैं ऑर्डिनल प्रकार के कई माप, जो आपके मामले में आपके पास हैं, आप एक माप के साथ समाप्त होते हैं जो वास्तव में न तो सामान्य है और न ही अंतराल, और व्याख्या करना मुश्किल है।
मैं आपको सलाह दूंगा कि आप अपने संतुष्टि स्कोर को मात्रात्मक स्कोर में परिवर्तित करें और फिर उन लोगों के साथ काम करें, क्योंकि इससे आपको डेटा मिलेगा जो व्याख्या के लिए थोड़ा अधिक उत्तरदायी है। लेकिन इस मामले में भी यह स्पष्ट नहीं है कि पियर्सन या स्पीयरमैन अधिक उपयुक्त होंगे या नहीं।
मैं आज एक दिलचस्प कोने के मामले में भाग गया।
यदि हम बहुत कम संख्या में नमूनों को देख रहे हैं, तो स्पीयरमैन और पियर्सन के बीच का अंतर नाटकीय हो सकता है।
नीचे दिए गए मामले में, दो विधियां एक विपरीत सहसंबंध की रिपोर्ट करती हैं ।
स्पीयरमैन बनाम पियर्सन पर निर्णय लेने के लिए अंगूठे के कुछ त्वरित नियम:
ps यहाँ ग्राफ ऊपर पुन: पेश करने के लिए R कोड है:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
चार्ट के उत्तर से सहमत होते हुए, मैं सुझाव दूंगा (सख्ती से व्यावहारिक स्तर पर) कि आप दोनों गुणांकों की गणना करें और मतभेदों को देखें। कई मामलों में, वे बिल्कुल समान होंगे, इसलिए आपको चिंता करने की आवश्यकता नहीं है।
यदि फिर भी, वे अलग-अलग हैं, तो आपको यह देखने की जरूरत है कि क्या आप पियर्सन (निरंतर विचरण और रैखिकता) की धारणाओं से मिले थे या नहीं और अगर ये नहीं मिले हैं, तो आप शायद स्पीयरमैन्स का उपयोग करके बेहतर हैं।