गुडमैन-क्रुस्ल गामा और केंडल ताऊ या स्पीयरमैन रो सहसंबंध की तुलना कैसे करते हैं?


31

मेरे काम में, हम डेटा के कुछ सेटों के लिए अनुमानित रैंकिंग बनाम वास्तविक रैंकिंग की तुलना कर रहे हैं। हाल तक तक, हम अकेले केंडल-ताऊ का उपयोग कर रहे हैं। इसी तरह की परियोजना पर काम करने वाले एक समूह ने सुझाव दिया कि हम इसके बजाय गुडमैन-क्रुस्ल गामा का उपयोग करने का प्रयास करते हैं , और उन्होंने इसे पसंद किया। मैं सोच रहा था कि विभिन्न रैंक सहसंबंध एल्गोरिदम के बीच अंतर क्या थे।

मुझे जो सबसे अच्छा लगा वह यह उत्तर था , जो दावा करता है कि स्पीयरमैन का उपयोग सामान्य रैखिक सहसंबंधों के स्थान पर किया जाता है, और यह कि केंडल-ताऊ गुडमैन-क्रुस्सल गामा से कम प्रत्यक्ष और अधिक निकटता जैसा है। जिस डेटा के साथ मैं काम कर रहा हूं, उसमें कोई स्पष्ट रैखिक सहसंबंध नहीं है, और डेटा भारी तिरछा और गैर-सामान्य है।

साथ ही, स्पीयरमैन आमतौर पर हमारे डेटा के लिए केंडल-ताऊ की तुलना में उच्च सहसंबंध की रिपोर्ट करते हैं, और मैं सोच रहा था कि विशेष रूप से डेटा के बारे में क्या कहता है। मैं एक सांख्यिकीविद् नहीं हूं, इसलिए इन पत्रों में से कुछ पत्र मैं इन चीजों पर पढ़ रहा हूं, मेरे लिए शब्दजाल की तरह लग रहे हैं, क्षमा करें।


3
" स्पीयरमैन आमतौर पर हमारे डेटा के लिए केंडल-ताऊ की तुलना में बेहतर सहसंबंध की रिपोर्ट करता है, और मैं सोच रहा था कि विशेष रूप से डेटा के बारे में क्या कहता है " ... संभवतः कुछ भी नहीं; केंडल अक्सर स्पीयरमैन के की तुलना में लगभग 0 होता है , जब सहसंबंध वास्तव में या करीब नहीं होते हैं - यह एसोसिएशन को अलग तरीके से मापता है; तथ्य यह है कि यह आमतौर पर परिमाण में छोटा होता है इसका मतलब यह नहीं है कि स्पीयरमैन सहसंबंध 'बेहतर' है; वे केवल डेटा के बारे में विभिन्न चीजों को माप रहे हैं। क्या आप 'बेहतर सहसंबंध' कहने के लिए नेतृत्व करेंगे? τρ0±1
Glen_b -Reinstate Monica

1
यह अप्रत्यक्ष रूप से मेरे प्रश्न के समान था, @Glen_b; सिवाय, मैं पूछ रहा था कि एल्गोरिदम ने उच्च सहसंबंध क्यों बताया और इसका कारण क्या होगा। मैं "बेहतर" को "उच्च" में बदल दूंगा ताकि मेरा अर्थ थोड़ा और स्पष्ट हो सके। आप सही हैं कि वे विभिन्न चीजों को मापते हैं, और यह कि संख्याओं का वास्तव में एक-दूसरे के साथ बहुत अधिक संबंध नहीं है, लेकिन मैं जानना चाहता था कि वास्तव में संख्याओं का क्या मतलब है, जो नीचे विस्तार से उत्तर दिया गया है।
पोक ऑग

जवाबों:


29

स्पीयरमैन रो बनाम केंडल ताऊ । ये दोनों इतने अधिक कम्प्यूटेशनल रूप से भिन्न हैं कि आप सीधे उनके परिमाण की तुलना नहीं कर सकते हैं । स्पीयरमैन आमतौर पर 1/4 से 1/3 तक अधिक होता है और इससे एक गलत निष्कर्ष निकलता है कि स्पीयरमैन किसी विशेष डेटासेट के लिए "बेहतर" है। रो और ताऊ के बीच अंतर उनकी विचारधारा में है, अनुपात के लिए भिन्नता और ताऊ के लिए संभावना । आरएचओ एक सामान्य पियरसन आर है जिसे रैंक किए गए डेटा के लिए लागू किया जाता है, और आर की तरह, बड़े क्षणों (यानी क्लाउड सेंटर से विचलन) के साथ छोटे क्षणों के बिंदुओं के लिए अधिक संवेदनशील होता है। इसलिए rho रैंकिंग के बाद बादल के आकार के प्रति काफी संवेदनशील हैकिया जाता है: एक आयताकार प्रकंद मेघ के लिए गुणांक एक आयताकार डंबल क्लाउड के लिए गुणांक से अधिक होगा (क्योंकि पहले के तेज किनारे बड़े क्षण होते हैं)। ताऊ गामा का एक विस्तार है और सभी डेटा बिंदुओं के लिए समान रूप से संवेदनशील है , इसलिए यह क्रमबद्ध बादल के आकार में विशिष्टताओं के प्रति कम संवेदनशील है। Rho की तुलना में ताऊ अधिक "सामान्य" होते हैं, क्योंकि जब आप विश्वास करते हैं कि rho के लिए वारंट किया जाता है (चर, मॉडल या जनसंख्या में कार्यात्मक) चर के बीच संबंध सख्ती से एकरस है। जबकि ताऊ नॉनमोनॉटोनिक अंतर्निहित वक्र और उपायों की अनुमति देता है, जो कि मोनोटोनिक "प्रवृत्ति", सकारात्मक या नकारात्मक, समग्र रूप से प्रबल होता है। Rho परिमाण में r के साथ तुलनीय है; ताऊ नहीं है।

गेंदा के रूप में केंडल ताऊ । ताऊ गामा का सिर्फ एक मानकीकृत रूप है। कई संबंधित उपायों में सभी अंशदाता लेकिन हर को सामान्य बनाने में भिन्न हैं :PQ

  • गामा:P+Q
  • सोमरस डी ("x आश्रित"):P+Q+Tx
  • सोमरस डी ("y आश्रित"):P+Q+Ty
  • सोमरस डी ("सममित"): उपरोक्त दो का अंकगणितीय माध्य
  • केंडल के ताऊ-बी गल। (वर्ग तालिकाओं के लिए सबसे उपयुक्त): उन दो का ज्यामितीय मतलब
  • केंडल का ताऊ-सी गली। (आयताकार तालिकाओं के लिए सबसे उपयुक्त):N2(k1)/(2k)
  • केंडल का ताऊ-एक मार्ग। (संबंधों के लिए n समायोजन बनाता है):N(N1)/2=P+Q+Tx+Ty+Txy

जहां - "समरूपता" के साथ टिप्पणियों के जोड़े की संख्या, - "उलटा" के साथ; - चर X, - चर Y, - दोनों चर द्वारा संबंधों की संख्या ; - टिप्पणियों की संख्या, - उस चर में भिन्न मानों की संख्या जहां यह संख्या कम है।क्यू टी एक्स टी वाई टी एक्स वाई एन केPQTxTyTxyNk

इस प्रकार, ताऊ गामा के साथ सिद्धांत और परिमाण में सीधे तुलनीय है। Rho, Pearson साथ सिद्धांत और परिमाण में प्रत्यक्ष रूप से तुलनीय है । निक स्टैनर का अच्छा जवाब यहां बताता है कि रो और ताऊ की तुलना परोक्ष रूप से कैसे संभव है।r

ताऊ और रो के बारे में भी देखें


14

यहाँ एंड्रयू Gilpin से एक उद्धरण (1993) मौरिस केंडल की वकालत है स्पीयरमैन की अधिक सैद्धांतिक कारणों के लिए:τρ

[केंडल ] एक सामान्य वितरण अधिक तेजी से दृष्टिकोण , के रूप में , नमूने का आकार, बढ़ जाती है; और भी गणितीय अधिक विनयशील है, खासकर जब संबंधों मौजूद हैं। τρNτ

मैं बहुत गुडमैन-Kruskal के बारे में नहीं जोड़ सकते , यह केंडल से कभी तो थोड़ा बड़ा अनुमान तैयार करने लगता है कि अन्य की तुलना में सर्वेक्षण डेटा का एक नमूना मैं के साथ हाल ही में काम कर रहा हूँ में ... और हां, काफ़ी स्पीयरमैन की से कम अनुमान । हालांकि, मैं भी एक जोड़े को आंशिक की गणना करने की कोशिश की अनुमान (Foraita और Sobotka, 2012), और उन आंशिक के करीब बाहर आया आंशिक से ... यह, प्रसंस्करण समय यद्यपि भी पर्याप्त मात्रा में ले लिया तो मैं छोड़ देंगे सिमुलेशन परीक्षण या किसी और के लिए गणितीय तुलना ... (जो उन्हें कैसे करना है पता होगा ...)γτργρτ

के रूप में ttnphns का तात्पर्य है, तो आप यह निष्कर्ष नहीं निकाल सकते हैं कि आपके अनुमान आपके से बेहतर हैं अकेले परिमाण से अनुमान, क्योंकि उनके तराजू अलग (भले ही सीमा नहीं है)। Gilpin के अनुपात वर्णन के रूप में केंडल (1962) का हवाला देते के लिए लगभग 1.5 से अधिक मानों की श्रेणी के सबसे किया जाना है। जैसे-जैसे उनका परिमाण बढ़ता जाता है, वे धीरे-धीरे करीब आते जाते हैं, इसलिए जैसे ही दोनों 1 (या -1) पास होते हैं, अंतर असीम हो जाता है। Gilpin के बराबर मूल्यों का एक अच्छा बड़ा तालिका देता है , , , डी , और के लिए तीसरे अंकों के लिए बाहरρτρτρrr2Zrτअपनी सीमा के भीतर .01 की हर वृद्धि पर, जैसे आप एक इंट्रो आँकड़े पाठ्यपुस्तक के कवर के अंदर देखने की अपेक्षा करेंगे। उन्होंने केंडल के विशिष्ट सूत्रों पर उन मूल्यों को आधारित किया, जो इस प्रकार हैं: (मैं से इस सूत्र को सरल हूं जिस रूप में गिलपिन ने लिखा, जो पियर्सन के संदर्भ में था ।)

r=sin(τπ2)ρ=6π(τarcsin(sin(τπ2)2))
ρr

शायद यह आपके को एक में बदलने केτρ लिए समझ में आता है और देखें कि कम्प्यूटेशनल परिवर्तन आपके प्रभाव के आकार के अनुमान को कैसे प्रभावित करता है। लगता है कि तुलना इस बात का कुछ संकेत देती है कि स्पीयरमैन की उन समस्याओं के लिए अधिक संवेदनशील है जो आपके डेटा में मौजूद हैं, अगर बिल्कुल भी। व्यक्तिगत रूप से प्रत्येक विशिष्ट समस्या की पहचान के लिए अधिक प्रत्यक्ष तरीके निश्चित रूप से मौजूद हैं; मेरा सुझाव उन समस्याओं के लिए एक त्वरित और गंदे सर्वग्राही प्रभाव आकार का अधिक उत्पादन करेगा। यदि कोई अंतर नहीं है (पैमाने में अंतर के लिए सही होने के बाद), तो कोई तर्क दे सकता है कि समस्याओं के लिए आगे देखने की आवश्यकता नहीं है जो केवल लागू होती हैρρ। यदि पर्याप्त अंतर है, तो संभवतः यह निर्धारित करने के लिए आवर्धक लेंस को तोड़ने का समय है कि क्या जिम्मेदार है।

मुझे यकीन नहीं है कि केंडल के का उपयोग करते समय लोग आमतौर पर प्रभाव के आकार की रिपोर्ट कैसे करते हैं (दुर्भाग्य से सीमित सीमा तक कि लोग सामान्य रूप से प्रभाव के आकार की रिपोर्टिंग के बारे में चिंता करते हैं), लेकिन चूंकि यह संभावना है कि अपरिचित पाठक इसे पियर्सन के पैमाने पर व्याख्या करने की कोशिश करेंगे। , उपरोक्त रूपांतरण सूत्र का उपयोग करते हुए के पैमाने पर आपके स्टेटिस्टिक और उसके प्रभाव आकार दोनों की रिपोर्ट करना समझदारी हो सकता है ... या कम से कम पैमाने के अंतर को इंगित करें और अपने आसान रूपांतरण तालिका के लिए गिलपिन को एक चिल्लाहट दें। ।τrτr

संदर्भ

फोराटा, आर।, और सोबोटका, एफ। (2012)। चित्रमय मॉडल की मान्यता। gmvalid पैकेज, v1.23। व्यापक आर पुरालेख नेटवर्क। URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

गिलपिन, एआर (1993)। मेटा-विश्लेषण के लिए प्रभाव के परिमाण के संदर्भ उपायों के भीतर कैंडल के ताऊ को स्पीयरमैन की रो में परिवर्तित करने की तालिका। शैक्षिक और मनोवैज्ञानिक मापन, 53 (1), 87-92।

केंडल, एमजी (1962)। रैंक सहसंबंध विधियाँ (तीसरा संस्करण)। लंदन: ग्रिफिन।


9

ये सभी मोनोटोनिक संघ के अच्छे सूचकांक हैं। Spearman का टिप्पणियों के यादृच्छिक त्रिगुणों के बीच बहुसंख्यक संगोष्ठी की संभावना से संबंधित है, और (केंडल) और (गुडमैन-क्रुस्कल) जोड़ो के संगति से संबंधित हैं। बनाम चुनने का मुख्य निर्णय यह है कि क्या आप और / या में संबंधों के लिए दंड देना चाहते हैं । या तो में संबंधों के लिए दंडित नहीं करता है, ताकि भविष्य कहनेवाला क्षमता की तुलना और की भविष्यवाणी में में से एक इनाम नहीं होगाρτγγτXYγX1X2YXऔर अधिक निरंतर होने के लिए। प्रतिफल की यह कमी इसे मॉडल आधारित संभावना अनुपात परीक्षणों के साथ थोड़ा असंगत बनाती है। एक जो भारी रूप से बंधा हुआ है (एक बाइनरी कहते हैं ) में उच्च ।XXγ


2
फ्रैंक, क्या आप इसे Spearman's ρ is related to the probability of majority concordance among random triplets of observationsअधिक विवरण में समझा सकते हैं , बहुत गणितीय रूप से कठिन नहीं, यदि संभव हो तो? धन्यवाद।
ttnphns

1
मैंने पढ़ा कि कई साल पहले, शायद एक गैर-समरूप सांख्यिकी पाठ में। मैं संदर्भ खोजने में असमर्थ रहा हूं।
फ्रैंक हरेल

1
दुर्भाग्यपूर्ण ... :-( क्योंकि बयान अपने आप में बहुत पेचीदा है।
ttnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.