गैर-सामान्य डेटा के साथ पियर्सन या स्पीयरमैन का सहसंबंध


113

मुझे यह सवाल मेरे आँकड़े परामर्श कार्य में अक्सर पर्याप्त मिलता है, मैंने सोचा कि मैं इसे यहाँ पोस्ट करूँगा। मेरे पास एक उत्तर है, जो नीचे पोस्ट किया गया है, लेकिन मैं यह सुनने के लिए उत्सुक था कि दूसरों को क्या कहना है।

प्रश्न: यदि आपके पास दो चर हैं जो सामान्य रूप से वितरित नहीं होते हैं, तो क्या आपको सहसंबंध के लिए स्पीयरमैन के आरएचओ का उपयोग करना चाहिए?


1
क्यों नहीं गणना और दोनों की रिपोर्ट (पियर्सन की आर और स्पीयरमैन की ρ)? उनका अंतर (या उसकी कमी) अतिरिक्त जानकारी प्रदान करेगा।

एक प्रश्न जब हम एक साधारण प्रतिगमन गुणांक बीटा के महत्व के लिए परीक्षण करते हैं और जब हम पियरसन सहसंबंध गुणांक (बीटा के लिए संख्यात्मक रूप से eual) का परीक्षण करते हैं, तो आँकड़े .stackexchange.com/q-181043/3277 का परीक्षण करते हैं
ttnphns

जवाबों:


77

पियर्सन का सहसंबंध दो निरंतर यादृच्छिक चर के बीच रैखिक संबंध का एक उपाय है। यह सामान्यता नहीं मानता है, हालांकि यह परिमित भिन्नताओं और परिमित कोवरिनेस को मान लेता है। जब चर सामान्य से द्विभाजित होते हैं, तो पियर्सन का सहसंबंध एसोसिएशन का पूरा विवरण प्रदान करता है।

स्पीयरमैन का सहसंबंध रैंकों पर लागू होता है और इसलिए दो निरंतर यादृच्छिक चर के बीच एक मोनोटोनिक संबंध का एक उपाय प्रदान करता है। यह ऑर्डिनल डेटा के साथ भी उपयोगी है और आउटलेर्स (पियर्सन के सहसंबंध के विपरीत) के लिए मजबूत है।

या तो सहसंबंध गुणांक का वितरण अंतर्निहित वितरण पर निर्भर करेगा, हालांकि दोनों केंद्रीय सीमा निर्धारण के कारण विषम रूप से सामान्य हैं।


12
पियर्सन की सामान्यता को नहीं मानती है, लेकिन केवल संघ का एक विस्तृत उपाय है यदि संयुक्त वितरण बहुभिन्नरूपी सामान्य है। इस भेद को देखते हुए भ्रम की स्थिति को देखते हुए, आप इसे अपने उत्तर में जोड़ना चाह सकते हैं। ρ
उपयोगकर्ता 603

3
क्या कोई स्रोत है जिसे उपरोक्त कथन का समर्थन करने के लिए उद्धृत किया जा सकता है (व्यक्ति की आर सामान्यता नहीं मानता है)? इस समय हमारे विभाग में एक ही तर्क दिया जा रहा है।

5
"जब चर सामान्य रूप से द्विभाजित होते हैं, तो पियर्सन का सहसंबंध एसोसिएशन का पूरा विवरण प्रदान करता है।" और जब चर सामान्य नहीं होते हैं, तो पियर्सन का सहसंबंध कितना उपयोगी है?
लैंडरोनी

2
यह उत्तर अप्रत्यक्ष लगता है। "जब चर सामान्य रूप से द्विभाजित होते हैं ..." और कब नहीं? इस तरह का स्पष्टीकरण है कि मुझे कभी आंकड़े क्यों नहीं मिले। "रोब, आपको मेरी नई ड्रेस कैसी लगी?" "गहरा रंग आपकी हल्की त्वचा पर जोर देता है।" "ज़रूर, रोब, लेकिन क्या आपको यह पसंद है कि यह मेरी त्वचा पर कैसे ज़ोर देता है?" "हल्की त्वचा को कई संस्कृतियों में सुंदर माना जाता है।" "मुझे पता है, रोब, लेकिन क्या आप इसे पसंद करते हैं?" "मुझे लगता है कि पोशाक सुंदर है।" "मुझे ऐसा लगता है, भी, रोब, लेकिन क्या यह मुझ पर सुंदर है ?" "तुम हमेशा मुझे सुंदर लगते हो, मधु।" sigh

1
यदि आप उससे पहले दो वाक्य पढ़ते हैं, तो आपको उत्तर मिल जाएगा।
रोब हंडमैन

49

केंडल के ताऊ को मत भूलना ! रोजर Newson केंडल की श्रेष्ठता के लिए तर्क दिया है τ एक स्पीयरमैन की सह-संबंध से अधिक आर एस एक कागज जिसका पूरा टेक्स्ट अब स्वतंत्र रूप से उपलब्ध ऑनलाइन है में सहसंबंध की एक रैंक के आधार पर उपाय के रूप में:

न्यूज़ॉन आर। पैरामीटर्स "नॉनपैरेमेट्रिक" आँकड़ों के पीछे: केंडल के ताऊ, सोमरस डी और मंझला अंतरस्टाटा जर्नल 2002; 2 (1): 45-64।

वह (P47 पर) का संदर्भ केंडल और गिबन्स (1990) के रूप में उनका तर्क है कि "... स्पीयरमैन की के लिए विश्वास के अंतराल आर एस कम विश्वसनीय और केंडल के लिए विश्वास के अंतराल से कम व्याख्या कर रहे हैं τ -parameters, लेकिन नमूना स्पीयरमैन की आर एस और अधिक आसानी से है कंप्यूटर के बिना गणना की गई है "(जो पाठ्यक्रम के बहुत अधिक महत्व नहीं है)। दुर्भाग्य से मुझे उनकी पुस्तक की एक प्रति उपलब्ध नहीं है:

केंडल, एमजी और जेडी गिबन्स। 1990. रैंक सहसंबंध तरीके । 5 वां संस्करण। लंदन: ग्रिफिन।


2
मैं केंडल के ताऊ का बहुत बड़ा प्रशंसक भी हूं। पियरसन मेरे स्वाद के लिए प्रभावशाली बिंदुओं / आउटलेयर के प्रति बहुत संवेदनशील है, और जबकि स्पीयरमैन इस समस्या से ग्रस्त नहीं है, मैं व्यक्तिगत रूप से केंडल को स्पीयरमैन की तुलना में समझने, व्याख्या करने और समझाने में आसान लगता हूं। बेशक, आपका माइलेज भिन्न हो सकता हैं।
Stephan Kolassa

अनुभव से मेरा स्मरण है कि केंडल के ताऊ अभी भी स्पीयरमैन की तुलना में बहुत धीमी गति से (आर में) दौड़ते हैं। यदि आपका डेटासेट बड़ा है तो यह महत्वपूर्ण हो सकता है।
शब्दफिरवाइज

35

एक लागू दृष्टिकोण से, मैं एक ऐसे दृष्टिकोण को चुनने से अधिक चिंतित हूं जो दो चर के बीच संबंध को इस तरह से सारांशित करता है जो आपके शोध प्रश्न के साथ संरेखित करता है। मुझे लगता है कि सटीक मानक त्रुटियों और पी-मूल्यों को प्राप्त करने के लिए एक विधि का निर्धारण एक सवाल है जिसे दूसरा आना चाहिए। यहां तक ​​कि अगर आपने स्पर्शोन्मुख दवाओं पर भरोसा नहीं करना चुना है, तो हमेशा बूटस्ट्रैप या वितरण संबंधी मान्यताओं को बदलने का विकल्प होता है।

एक सामान्य नियम के रूप में, मैं पियर्सन के सहसंबंध को पसंद करता हूं क्योंकि (ए) यह आम तौर पर मेरे सैद्धांतिक हितों के साथ अधिक संरेखित करता है; (ख) यह अध्ययनों में निष्कर्षों की अधिक प्रत्यक्ष तुलना करने में सक्षम बनाता है, क्योंकि मेरे क्षेत्र के अधिकांश अध्ययन पियर्सन के सहसंबंध की रिपोर्ट करते हैं; और (सी) कई सेटिंग्स में पियर्सन और स्पीयरमैन सहसंबंध गुणांक के बीच न्यूनतम अंतर है।

हालाँकि, ऐसी परिस्थितियाँ हैं जहाँ मुझे लगता है कि कच्चे चरों पर पियर्सन का संबंध भ्रामक है।

  • आउटलेयर: आउटलेयर का पियर्सन के सहसंबंधों पर बहुत प्रभाव हो सकता है। लागू सेटिंग्स में कई आउटलेरर्स माप विफलताओं या अन्य कारकों को दर्शाते हैं जो मॉडल को सामान्य करने का इरादा नहीं है। एक विकल्प इस तरह के आउटलेर्स को हटाने का है। Univariate के आउटलेयर Spearman के rho के साथ मौजूद नहीं हैं क्योंकि सब कुछ रैंक में बदल जाता है। इस प्रकार, स्पीयरमैन अधिक मजबूत है।
  • अत्यधिक तिरछा चर: जब तिरछे तिरछे चर, विशेष रूप से अत्यधिक तिरछे चर, एक लॉग या कुछ अन्य परिवर्तन अक्सर दो चर स्पष्ट (जैसे, जानवरों के शरीर के वजन द्वारा मस्तिष्क के आकार) के बीच अंतर्निहित संबंध बनाते हैं। ऐसी सेटिंग्स में यह हो सकता है कि कच्ची मीट्रिक वैसे भी सबसे सार्थक मीट्रिक नहीं है। स्पीयरमैन का आरएचओ दोनों चर को रैंक में परिवर्तित करके परिवर्तन के समान प्रभाव डालता है। इस दृष्टिकोण से, स्पीयरमैन के आरएचओ को एक त्वरित-और-गंदे दृष्टिकोण (या अधिक सकारात्मक रूप से, यह कम व्यक्तिपरक है) के रूप में देखा जा सकता है, जिससे आपको इष्टतम परिवर्तनों के बारे में सोचने की ज़रूरत नहीं है।

उपरोक्त दोनों मामलों में, मैं शोधकर्ताओं को सलाह दूंगा कि वे पियरसन के सहसंबंध को लागू करने से पहले समायोजन रणनीतियों (उदाहरण के लिए, रूपांतर, अतिरिक्त निष्कासन / समायोजन) पर विचार करें या स्पीयरमैन के आरएचओ का उपयोग करें।


परिवर्तन के साथ समस्या यह है कि, सामान्य रूप से, यह प्रत्येक बिंदु से जुड़ी त्रुटियों को भी बदल देता है, और इस प्रकार वजन। और यह बाहरी समस्या को हल नहीं करता है।
स्केन

11

अपडेट किया गया

सवाल यह है कि जब सामान्यता पर सवाल उठाया जाता है, तो हम पियर्सन और स्पीयरमैन की विधि के बीच चयन करते हैं । इस चिंता के लिए प्रतिबंधित, मुझे लगता है कि निम्नलिखित कागज में किसी के निर्णय को सूचित करना चाहिए:

यह काफी अच्छा है और इस विषय पर, दशकों से फैले हुए, काफी साहित्य का एक सर्वेक्षण प्रदान करता है - पियर्सन की "उत्परिवर्तित और विकृत सतहों" से शुरू और के वितरण की मजबूती । "तथ्यों" के विरोधाभासी प्रकृति का कम से कम हिस्सा यह है कि यह काम कंप्यूटिंग शक्ति के आगमन से पहले किया गया था - जो जटिल चीजें हैं क्योंकि गैर-सामान्यता के प्रकार पर विचार करना था और सिमुलेशन के बिना जांच करना कठिन था।r

कोवाल्स्की के विश्लेषण का निष्कर्ष है कि का वितरण गैर-सामान्यता की उपस्थिति में मजबूत नहीं है और वैकल्पिक प्रक्रियाओं की सिफारिश करता है। पूरा पेपर काफी जानकारीपूर्ण है और पढ़ने की सिफारिश की गई है, लेकिन सारांश के लिए कागज के अंत में बहुत कम निष्कर्ष पर जाएं।r

यदि सामान्यता का उल्लंघन होने पर स्पीयरमैन और पीयरसन में से किसी एक को चुनने के लिए कहा जाए, तो वितरण मुफ्त विकल्प वकालत करने के लायक है, यानी स्पीयरमैन विधि।


पहले ..

स्पीयरमैन का सहसंबंध एक रैंक आधारित सहसंबंध उपाय है; यह गैर-पैरामीट्रिक है और सामान्यता की धारणा पर आराम नहीं करता है।

पियर्सन के सहसंबंध के लिए नमूना वितरण सामान्यता ग्रहण करता है; विशेष रूप से इसका मतलब यह है कि यद्यपि आप इसकी गणना कर सकते हैं, लेकिन महत्व परीक्षण के आधार पर निष्कर्ष ध्वनि नहीं हो सकता है।

जैसा कि रोब टिप्पणियों में बताते हैं, बड़े नमूने के साथ यह एक मुद्दा नहीं है। हालांकि छोटे नमूनों के साथ, जहां सामान्यता का उल्लंघन किया जाता है, स्पीयरमैन के सहसंबंध को प्राथमिकता दी जानी चाहिए।

टिप्पणियों और उत्तरों पर मुलिंग अपडेट करें , यह मुझे लगता है कि यह सामान्य गैर-पैरामीट्रिक बनाम पैरामीट्रिक परीक्षण बहस को उबालता है। बहुत से साहित्य, उदाहरण के लिए, जीवविज्ञान में, बड़े नमूनों के साथ सौदा नहीं करता है। मैं आमतौर पर asymptotics पर भरोसा करने के साथ अश्वारोही नहीं हूँ। शायद यह इस मामले में उचित है, लेकिन यह मेरे लिए स्पष्ट रूप से स्पष्ट नहीं है।


1
नहीं, पियर्सन का संबंध सामान्यता नहीं मानता है। यह किसी भी दो निरंतर यादृच्छिक चर के बीच संबंध का अनुमान है और अपेक्षाकृत सामान्य परिस्थितियों में एक सुसंगत अनुमानक है। यहां तक ​​कि पियर्सन के सहसंबंध पर आधारित परीक्षणों को सामान्यता की आवश्यकता नहीं है अगर नमूने CLT के कारण काफी बड़े हैं।
रोब हाइंडमैन

2
मैं इस धारणा के तहत हूं कि पीयरसन को तब तक परिभाषित किया जाता है जब तक अंतर्निहित वितरणों में परिमित संस्करण और सहसंयोजक होते हैं। तो, सामान्यता की आवश्यकता नहीं है। यदि अंतर्निहित वितरण सामान्य नहीं हैं, तो परीक्षण-आँकड़ा का एक अलग वितरण हो सकता है लेकिन यह एक माध्यमिक मुद्दा है और हाथ से सवाल के लिए प्रासंगिक नहीं है। क्या ऐसा नहीं है?

2
@ रब: हाँ, हम हमेशा वर्कअराउंड के साथ आ सकते हैं ताकि चीजें लगभग समान रूप से काम कर सकें। बस स्पीयरमैन की पद्धति से बचने के लिए - जो कि अधिकांश गैर-सांख्यिकीविद् मानक कमांड के साथ संभाल सकते हैं। मुझे लगता है कि मेरी सलाह छोटे नमूनों के लिए स्पीयरमैन की विधि का उपयोग करने के लिए बनी हुई है जहां सामान्यता संदिग्ध है। यकीन नहीं होता कि यहां विवाद है या नहीं।
ars

1
@ars। अगर मैं रैखिक संगठन के बजाय मोनोटोनिक में रुचि रखता था, या यदि आउटलेयर या उच्च स्तर के स्किनेस थे, तो मैं स्पीयरमैन का उपयोग करूंगा। मैं रैखिक संबंधों के लिए पियरसन का उपयोग करूंगा बशर्ते कि कोई आउटलेयर न हों। मुझे नहीं लगता कि विकल्प बनाने में नमूना आकार प्रासंगिक है।
रोब हंडमैन

3
@ रोब: ठीक है, चर्चा के लिए धन्यवाद। मैं पहले भाग से सहमत हूं, लेकिन अंतिम पर संदेह करता हूं, और इसमें वह आकार शामिल होगा जो केवल एक भूमिका निभाता है क्योंकि सामान्य स्पर्शोन्मुखता लागू नहीं होती है। उदाहरण के लिए, कोवाल्स्की 1972 में इस इतिहास का एक बहुत अच्छा सर्वेक्षण है, और निष्कर्ष निकालता है कि पियर्सन का संबंध उतना मजबूत नहीं है जितना सोचा जा सकता है। देखें: jstor.org/pss/2346598
ars
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.