पियर्सन और स्पीयरमैन सहसंबंध के बीच चयन कैसे करें?


119

मुझे कैसे पता चलेगा कि कब स्पीयरमैन के और पियर्सन के बीच चयन करना है ? मेरे चर में संतुष्टि शामिल है और अंकों के योग का उपयोग करके स्कोर की व्याख्या की गई थी। हालांकि, इन अंकों को भी स्थान दिया जा सकता है।आरρr


2
गैर-सामान्य डेटा के लिए पीयरसन बनाम स्पीयरमैन पर भी इस प्रश्न को देखें ।stackexchange.com
जेरोमी एंग्लीम

1
सामान्य डेटा के मामले में, नाशपाती का उत्पादन। गैर-सामान्य डेटा के मामले में, स्पीयरमैन का उत्पादन करें।

जवाबों:


137

यदि आप अपने डेटा का पता लगाना चाहते हैं तो दोनों की गणना करना सबसे अच्छा है, क्योंकि स्पीयरमैन (एस) और पीयरसन (पी) के बीच संबंध कुछ जानकारी देंगे। संक्षेप में, S की गणना रैंकों पर की जाती है और इसलिए मोनोटोनिक रिश्तों को दर्शाया गया है जबकि P सच्चे मूल्यों पर है और रेखीय संबंधों को चित्रित करता है।

उदाहरण के लिए, यदि आप सेट करते हैं:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

ऐसा इसलिए है क्योंकि साथ एक-दूसरे से एकतरफा बढ़ता है इसलिए स्पीयरमैन सहसंबंध परिपूर्ण है, लेकिन रैखिक रूप से नहीं, इसलिए पियर्सन सहसंबंध अपूर्ण है। x yx

corr(x,log(y),'type','Pearson');  % will equal 1

दोनों करना दिलचस्प है क्योंकि अगर आपके पास एस> पी है, तो इसका मतलब है कि आपके पास एक सहसंबंध है जो कि मोनोटोनिक है लेकिन रैखिक नहीं है। चूंकि आंकड़ों में रैखिकता होना अच्छा है (यह आसान है) आप (ऐसे लॉग) पर परिवर्तन लागू करने का प्रयास कर सकते हैं ।y

मुझे उम्मीद है कि यह सहसंबंधों के प्रकारों के बीच अंतर को समझने में आसान बनाने में मदद करता है।


2
मैं अनुमान लगा रहा हूं कि यह एक दिया गया है जो आपने पहले ही कहा है, लेकिन मैं सिर्फ यह पुष्टि करना चाहता हूं कि एस <पी के लिए यह संभव नहीं है।
जोनाथन थिएल

9
@JonathanThiele S <P का होना पूरी तरह संभव है। उदाहरण के लिए, Anscombe के चौकड़ी से सेट II और IV इस व्यवहार को प्रदर्शित करता है। : इसके अलावा, इस सवाल को देखने stats.stackexchange.com/questions/27127/...
atomicules

1
@atomicules जानकारी के लिए धन्यवाद। मैंने बस Anscombe की चौकड़ी में सहसंबंधों की जाँच की, और आपकी कड़ी मददगार रही।
जोनाथन थिएले

आप एक कॉरग्राम प्रस्तुति में पियर्सन और स्पीयरसन सहसंबंध कैसे शामिल कर सकते हैं? - - मैं यहाँ सोच रहा हूँ कि मामला stackoverflow.com/a/40523080/54964 - - मेरे पास मल्टीफ़ॉर्मल प्रॉब्लम है इसलिए मुझे लगता है कि Spearson को शामिल करना मान्य होगा और मैं केवल Pearson के साथ नहीं जा सकता।
लेओ लेपोल्ड हर्ट्ज़ '

यह आमतौर पर मेरे द्वारा लिया जाने वाला दृष्टिकोण है, क्योंकि इसमें एक परीक्षण बनाम एक और के औचित्य को दरकिनार करने का अतिरिक्त लाभ है, खासकर जब कई चर के बीच सहसंबंध का परीक्षण। प्रत्येक चर की जांच करने के बजाय यह देखने के लिए कि क्या पियर्सन या स्पीयरमैन सहसंबंध की धारणाएं पूरी होती हैं, बस सब कुछ दोनों पर चलें। कई व्यावहारिक अनुप्रयोगों में, वे संघ के महत्व के समान उपाय देंगे, इसलिए आपको केवल अपेक्षाकृत कम उदाहरणों पर गहराई से खुदाई करने की आवश्यकता है जहां उनके परिणाम बहुत भिन्न होते हैं, और वैसे भी अधिक जानने के लिए दिलचस्प मामले हैं।
परमाणु वांग

50

सबसे छोटा और अधिकतर सही उत्तर है:

पियरसन बेंचमार्क लीनियर रिलेशनशिप, स्पीयरमैन बेंचमार्क मोनोटोनिक रिलेशनशिप (कुछ इनफिनिटीज नॉर्मल केस, लेकिन कुछ पॉवरफुल के लिए)।

इसलिए यदि आप मानते हैं / सोचते हैं कि संबंध रैखिक है (या, एक विशेष मामले के रूप में, कि वे एक ही चीज़ के दो उपाय हैं, इसलिए संबंध ) और स्थिति बहुत अधिक नहीं है (विवरण के लिए अन्य उत्तरों की जांच करें), पीयरसन के साथ जाएं। अन्यथा स्पीयरमैन का उपयोग करें।y=1x+0


35

यह अक्सर आंकड़ों में होता है: विभिन्न प्रकार के तरीके हैं जो आपकी स्थिति में लागू किए जा सकते हैं, और आपको नहीं पता कि किसको चुनना है। आपको अपने फैसले को विचाराधीन विधियों के पेशेवरों और विपक्षों और आपकी समस्या की बारीकियों को आधार बनाना चाहिए, लेकिन फिर भी निर्णय आम तौर पर बिना किसी सहमति के "सही" उत्तर के साथ व्यक्तिपरक होता है। आमतौर पर यह एक अच्छा विचार है कि उतने ही तरीके आजमाए जाएं जो आपके लिए उचित हों और आपके धैर्य की अनुमति देंगे और देखेंगे कि कौन सा आपको अंत में सबसे अच्छा परिणाम देता है।

पियर्सन सहसंबंध और स्पीयरमैन सहसंबंध के बीच का अंतर यह है कि पियर्सन एक अंतराल पैमाने से लिए गए माप के लिए सबसे उपयुक्त है , जबकि स्पीयरमैन क्रमिक पैमानों से लिए गए माप के लिए अधिक उपयुक्त है । अंतराल तराजू के उदाहरणों में "फारेनहाइट में तापमान" और "इंच में लंबाई" शामिल हैं, जिसमें व्यक्तिगत इकाइयां (1 डिग्री एफ, 1 इन) सार्थक हैं। "संतुष्टि स्कोर" जैसी चीजें सामान्य प्रकार की हैं, क्योंकि यह स्पष्ट है कि "5 खुशी" "3 खुशी" की तुलना में अधिक खुश है, यह स्पष्ट नहीं है कि क्या आप "1 खुशी की इकाई" की सार्थक व्याख्या दे सकते हैं। लेकिन जब आप जोड़ते हैं ऑर्डिनल प्रकार के कई माप, जो आपके मामले में आपके पास हैं, आप एक माप के साथ समाप्त होते हैं जो वास्तव में न तो सामान्य है और न ही अंतराल, और व्याख्या करना मुश्किल है।

मैं आपको सलाह दूंगा कि आप अपने संतुष्टि स्कोर को मात्रात्मक स्कोर में परिवर्तित करें और फिर उन लोगों के साथ काम करें, क्योंकि इससे आपको डेटा मिलेगा जो व्याख्या के लिए थोड़ा अधिक उत्तरदायी है। लेकिन इस मामले में भी यह स्पष्ट नहीं है कि पियर्सन या स्पीयरमैन अधिक उपयुक्त होंगे या नहीं।


2
उदाहरण के लिए कैसे ... संचार आशंका? एक उच्च आशंका का बहुत उच्च आशंका के साथ कोई निश्चित अंतर नहीं है, है ना? लेकिन मैंने देखा है कि Pearson's r का उपयोग करके चर को अन्य चर के साथ सहसंबद्ध किया गया है। क्या यह पूरी तरह से ठीक है? धन्यवाद!

28

मैं आज एक दिलचस्प कोने के मामले में भाग गया।

यदि हम बहुत कम संख्या में नमूनों को देख रहे हैं, तो स्पीयरमैन और पियर्सन के बीच का अंतर नाटकीय हो सकता है।

नीचे दिए गए मामले में, दो विधियां एक विपरीत सहसंबंध की रिपोर्ट करती हैं ।

यहां छवि विवरण दर्ज करें

स्पीयरमैन बनाम पियर्सन पर निर्णय लेने के लिए अंगूठे के कुछ त्वरित नियम:

  • पियर्सन की धारणाएं निरंतर विचरण और रैखिकता (या कुछ यथोचित रूप से करीब) हैं, और यदि ये पूरी नहीं होती हैं, तो यह स्पीयरमैन की कोशिश करने के लायक हो सकता है।
  • ऊपर दिया गया उदाहरण एक कोने का मामला है जो केवल तभी पॉप अप होता है जब डेटाफॉइंट का एक मुट्ठी भर (<5) होता है। अगर वहाँ> 100 डेटा बिंदु है, और डेटा रैखिक या इसके करीब है, तो पियर्सन स्पीयरमैन के समान होगा।
  • यदि आपको लगता है कि रेखीय प्रतिगमन आपके डेटा का विश्लेषण करने के लिए एक उपयुक्त विधि है, तो पियर्सन का उत्पादन एक रैखिक प्रतिगमन ढलान के संकेत और परिमाण से मेल खाएगा (यदि चर मानकीकृत हैं)।
  • यदि आपके डेटा में कुछ गैर-रेखीय घटक हैं जो रैखिक प्रतिगमन नहीं उठाएंगे, तो पहले एक परिवर्तन (शायद लॉग ई) को लागू करके डेटा को रैखिक रूप में सीधा करने का प्रयास करें। यदि वह काम नहीं करता है, तो स्पीयरमैन उपयुक्त हो सकता है।
  • मैं हमेशा पियर्सन की पहली कोशिश करता हूं, और अगर वह काम नहीं करता है, तो मैं स्पीयरमैन की कोशिश करता हूं।
  • क्या आप अंगूठे के किसी और नियम को जोड़ सकते हैं या जो मैंने अभी-अभी काटे हैं उन्हें सही कर सकते हैं? मैंने इस प्रश्न को एक समुदाय विकी बनाया है ताकि आप ऐसा कर सकें।

ps यहाँ ग्राफ ऊपर पुन: पेश करने के लिए R कोड है:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))

7

चार्ट के उत्तर से सहमत होते हुए, मैं सुझाव दूंगा (सख्ती से व्यावहारिक स्तर पर) कि आप दोनों गुणांकों की गणना करें और मतभेदों को देखें। कई मामलों में, वे बिल्कुल समान होंगे, इसलिए आपको चिंता करने की आवश्यकता नहीं है।

यदि फिर भी, वे अलग-अलग हैं, तो आपको यह देखने की जरूरत है कि क्या आप पियर्सन (निरंतर विचरण और रैखिकता) की धारणाओं से मिले थे या नहीं और अगर ये नहीं मिले हैं, तो आप शायद स्पीयरमैन्स का उपयोग करके बेहतर हैं।


3
मशीन सीखने वाले के रूप में मैं निश्चित रूप से सांख्यिकीय शुद्धता के बारे में एक संत नहीं हूं, लेकिन परीक्षाओं के बाद मान्यताओं की जांच करने से मुझे यह लगता है कि यह मेरे लिए विधर्म है।
स्टीफेन

7
@ मुझे लगता है कि यह ठीक है। प्रतिगमन की एक धारणा यह है कि अवशेषों को सामान्य रूप से वितरित किया जाता है। प्रतिगमन को चलाने से पहले आप कैसे जाँचेंगे?
Glen

1
@ गलेन: इस मामले में मैं नहीं कर सकता। लेकिन जब मैं विभिन्न मॉडलों की गुणवत्ता की तुलना करता हूं, तो मैं आम तौर पर कुछ परीक्षण परिणामों के पक्ष में मान्यताओं को आराम करने की प्रवृत्ति को कम करने के लिए परीक्षण करने से पहले धारणा (जैसे लगभग सामान्य रूप से वितरित) की जांच करना पसंद करता हूं। इसे मन की चाल की रोकथाम कहें। मुझे लगता है कि यह सिर्फ मुझे है;)।
स्टेफेन

1
@ स्टेफेन: आप विधर्मियों के बारे में सही हैं, लेकिन अगर दो प्रक्रियाएं एक ही परिणाम देती हैं तो इसका स्वाद का मामला है जिसका उपयोग करना है, लेकिन अगर वे न तो जांच कर रहे हैं और जहां वे विफल होते हैं, वे अक्सर डेटा में उपयोगी जानकारी दे सकते हैं। निजी तौर पर, मैं जहाँ भी संभव हो, भाला का उपयोग करता हूँ, लेकिन यह मेरे क्षेत्र में आम बात नहीं है।
रिचमीमोर्रोसियो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.