सामान्य धारणा के बावजूद रैंक का पियर्सन सहसंबंध वैध क्यों है?


9

मैं वर्तमान में पियर्सन सहसंबंधों के लिए मान्यताओं पर पढ़ रहा हूं। आगामी टी-टेस्ट के लिए एक महत्वपूर्ण धारणा यह प्रतीत होती है कि दोनों चर सामान्य वितरण से आते हैं; यदि वे नहीं करते हैं, तो Spearman rho जैसे वैकल्पिक उपायों के उपयोग की वकालत की जाती है। स्पीयरमैन सहसंबंध की गणना पियरसन सहसंबंध की तरह की जाती है, केवल एक्स और वाई के स्थान पर एक्स और वाई के रैंक का उपयोग करते हुए, स्वयं?

मेरा प्रश्न है: यदि पियर्सन सहसंबंध में इनपुट चर को सामान्य रूप से वितरित करने की आवश्यकता होती है, तो इनपुट चर के रैंक होते हुए भी एक स्पीयरमैन सहसंबंध की गणना क्यों मान्य है? मेरी रैंक निश्चित रूप से सामान्य वितरण से नहीं आती है ...

अब तक मैं केवल यही व्याख्या करता आया हूं कि आरएच के महत्व को पियरसन सहसंबंध टी-टेस्ट (एक तरह से जिसमें सामान्यता की आवश्यकता नहीं है) से अलग तरीके से परीक्षण किया जा सकता है, लेकिन अभी तक मुझे कोई सूत्र नहीं मिला है। हालाँकि, जब मैंने कुछ उदाहरण दिए, तो rho के लिए p-मान और रैंक के पियर्सन सहसंबंध के टी-परीक्षण के लिए हमेशा मेल खाते थे, पिछले कुछ अंकों के लिए सहेजें। मेरे लिए यह एक अलग अलग प्रक्रिया की तरह नहीं दिखता है।

किसी भी स्पष्टीकरण और विचारों की आपने सराहना की होगी!

जवाबों:


7

पियरसन सहसंबंध की गणना करने के लिए सामान्यता की आवश्यकता नहीं है; यह सिर्फ इतना है कि संबंधित जनसंख्या मात्रा के बारे में अनुमान के कुछ रूप सामान्य मान्यताओं (CIs और परिकल्पना परीक्षणों) पर आधारित हैं।

यदि आपके पास सामान्यता नहीं है, तो उस विशेष प्रकार के अनुमान के निहित गुण धारण नहीं करेंगे।

स्पीयरमैन सहसंबंध के मामले में, आपके पास सामान्यता नहीं है, लेकिन यह ठीक है क्योंकि स्पीयरमैन सहसंबंध (जैसे कि परिकल्पना परीक्षण) के लिए अनुमान गणना एक सामान्य धारणा पर आधारित नहीं हैं।

वे निरंतर द्विवार्षिक वितरण से युग्मित रैंकों का एक सेट होने पर आधारित हैं; इस मामले में परिकल्पना परीक्षण रैंकों के आधार पर परीक्षण सांख्यिकीय के क्रमपरिवर्तन वितरण का उपयोग करता है।

जब पियर्सन सहसंबंध पकड़ (द्विभाजक सामान्यता) के साथ अनुमान के लिए सामान्य धारणाएं होती हैं, तो स्पीयरमैन सहसंबंध आमतौर पर बहुत करीब होता है (हालांकि औसतन थोड़ा 0 के करीब)।

(इसलिए जब आप पियर्सन का उपयोग कर सकते हैं, तो स्पीयरमैन अक्सर काफी अच्छी तरह से करता है। यदि आपके पास लगभग किसी अन्य प्रक्रिया के साथ संदूषण के अलावा सामान्य डेटा होता है (जो आउटलेर्स के कारण होता है), तो स्पीयरमैन सहसंबंध का अनुमान लगाने के लिए अधिक मजबूत तरीका होगा। निर्विरोध वितरण।)


धन्यवाद, क्रमपरिवर्तन वितरण का संदर्भ सहायक है!
GST95

"स्पीयरमैन सहसंबंध का अनुमान लगाने के लिए एक अधिक मजबूत तरीका होगा" नाइटपिक के लिए, स्पीयरमैन एसोसिएशन का अनुमान लगाएगा , न कि रैखिक संबंध।
लैंडरोनी

1
@landroni अगर मैं आमतौर पर स्पीयरमैन के बारे में बात कर रहा था, तो आप सही ढंग से वर्णन करते हैं कि स्पीयरमैन क्या करता है - लेकिन उस वाक्य में मैं स्पष्ट रूप से संदूषण के तहत जनसंख्या सहसंबंध के दो अनुमानों की तुलना करने के बारे में बात कर रहा हूं, और मेरा मतलब है कि मैं वास्तव में काफी मायने रखता हूं। सहसंबंध के साथ एक द्विभाजित सामान्य की कल्पना करेंρऔर फिर एक अति चरम जोड़ें। अगर मैं अनुमान लगाना चाहता हूंρ उस स्थिति में, स्पीयरमैन अधिक मजबूत अनुमानक है ρपीयरसन सहसंबंध से।
Glen_b -Reinstate Monica

1
@landroni ... ऐसी स्थिति हो सकती है जहां आपके पास मुख्य प्रक्रिया है जो अच्छी तरह से व्यवहार की जाती है और कुछ दूषित प्रक्रिया होती है जो बहुत चरम हो सकती है लेकिन केवल कभी-कभी होती है। यदि आप असंबद्ध प्रक्रिया के सहसंबंध का अनुमान लगाने में रुचि रखते हैं, तो स्पीयरमैन की तुलना में पियर्सन सहसंबंध बहुत अधिक हद तक संदूषण के लिए अतिसंवेदनशील है।
Glen_b -Reinstate Monica

2

जब मैंने कुछ उदाहरणों को चलाया, तो rho के लिए p-मान और रैंक के पियर्सन सहसंबंध के टी-टेस्ट के लिए हमेशा मिलान किया, पिछले कुछ अंकों के लिए सहेजें

अच्छा तो आप गलत उदाहरण चला रहे हैं!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

वैक्टर aऔर bएक अच्छा है, लेकिन सही रैखिक (पियर्सन) सहसंबंध से दूर है। हालांकि, उनके पास सही रैंक सहसंबंध है। देखें - स्पीयरमैन के लिएρइस मामले में, यह मायने नहीं रखता कि अंतिम अंक b8.1, 9, 90 या 9000 है (इसे आज़माएं!), यह तभी मायने रखता है जब यह 8 से बड़ा हो । यही कारण है कि एक अंतर सहसंबद्ध रैंक बनाता है।

इसके विपरीत, जबकि aऔर bसही रैंक सहसंबंध है, उनका पियर्सन सहसंबंध गुणांक 1 से छोटा है। यह दर्शाता है कि पियर्सन सहसंबंध रैंक को प्रतिबिंबित नहीं कर रहा है।
एक पियर्सन सहसंबंध एक रेखीय कार्य को दर्शाता है, एक रैंक सहसंबंध बस एक मोनोटोनिक फ़ंक्शन। सामान्य डेटा के मामले में, दोनों दृढ़ता से एक दूसरे से मिलते जुलते होंगे, और मुझे इस बात पर संदेह है कि आपके डेटा में स्पीयरमैन और पीयरसन के बीच बड़े अंतर नहीं दिखाई देते हैं।

एक व्यावहारिक उदाहरण के लिए, निम्नलिखित पर विचार करें; आप देखना चाहते हैं कि क्या लम्बे लोग अधिक वजन करते हैं। हां, यह एक मूर्खतापूर्ण सवाल है ... लेकिन यह मानकर चलिए कि आपको क्या परवाह है। अब, द्रव्यमान वजन के साथ रैखिक रूप से पैमाने पर नहीं होता है, क्योंकि छोटे लोगों की तुलना में लंबे लोग भी व्यापक होते हैं; इतना वजन ऊंचाई का एक रैखिक कार्य नहीं है । कोई है जो आप की तुलना में 10% लंबा है (औसतन) 10% से अधिक भारी है। यही कारण है कि शरीर / द्रव्यमान सूचकांक घन का उपयोग भाजक में करता है।
नतीजतन, आप एक रैखिक संबंध को गलत तरीके से ऊंचाई / वजन संबंध को प्रतिबिंबित करेंगे। इसके विपरीत, रैंक सहसंबंध इस मामले में भौतिकी और जीव विज्ञान के कष्टप्रद कानूनों के प्रति असंवेदनशील है; यह प्रतिबिंबित नहीं करता है कि लोग ऊंचाई में बड़े पैमाने पर रैखिक रूप से बढ़ते हैं, यह केवल यह दर्शाता है कि यदि लम्बे लोग (एक पैमाने पर रैंक में उच्च) भारी हैं (दूसरे पैमाने पर रैंक में उच्च)।

एक और अधिक विशिष्ट उदाहरण हो सकता है कि लाइकर्ट जैसी प्रश्नावली रैंकिंग, जैसे कि लोग "पूर्ण / अच्छा / सभ्य / औसत दर्जे का / बुरा / भयानक" के रूप में कुछ रेटिंग देते हैं। "परिपूर्ण" "सभ्य" से उतना ही दूर है जितना "सभ्य" पैमाने पर "बुरा" से है , लेकिन क्या हम वास्तव में कह सकते हैं कि दोनों के बीच की दूरी समान है? एक रैखिक सहसंबंध आवश्यक रूप से उचित नहीं है। रैंक सहसंबंध अधिक स्वाभाविक है।

अपने प्रश्न को सीधे संबोधित करने के लिए: नहीं, Pearson और Spearman सहसंबंधों के लिए p मानों की गणना अलग-अलग नहीं की जानी चाहिए । दोनों के बारे में बहुत अलग है, वैचारिक रूप से और साथ ही संख्यात्मक रूप से, लेकिन अगर परीक्षण सांख्यिकीय समान है, तो पी मूल्य बराबर होगा।

पियर्सन सहसंबंध में सामान्य की धारणा के सवाल पर, देखना यह
अधिक आम तौर पर, अन्य लोगों ने मैं पैरामीट्रिक बनाम गैर पैरामीट्रिक सहसंबंधों ( यहां भी देखें ) के विषय के बारे में बहुत कुछ बेहतर समझा है , और वितरण की धारणाओं के बारे में इसका मतलब क्या है।


धन्यवाद! अगली बार मैं उदाहरणों के साथ अधिक प्रयोग करना सुनिश्चित करूँगा। :)
GST95

1
नहीं, रुको, वास्तव में यह मेरा सवाल नहीं था। मैंने विधि = "पीयरसन" की विधि = "स्पीयरमैन" x और y के संस्करण के साथ तुलना नहीं की। मैं तुलना cor.test(x, y, method = "spearman")के साथ cor.test(rank(x), rank(y), method = "pearson")। ये अनुमान समान होंगे चाहे कोई भी डेटा चुने। फिर भी धन्यवाद! :)
GST95

@ GST95, स्पीयरमैन का सहसंबंध वास्तव में पियरसन का सहसंबंध है जो रैंक-रूपांतरित डेटा पर किया गया है। आपके दो "तरीके" वास्तव में एक ही विधि हैं।
डेनिस

@ डेनिस, वास्तव में, मैं (समान) आरएच गुणांक की तुलना नहीं कर रहा था, लेकिन पी-मान यह देखने के लिए कि क्या वे दोनों एक टी-टेस्ट के साथ प्राप्त किए गए थे।
GST95
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.