देखो और तुम पाओगे (सहसंबंध)

66

मेरे पास कई सौ माप हैं। अब, मैं हर उपाय के साथ हर उपाय को सहसंबद्ध करने के लिए कुछ प्रकार के सॉफ्टवेयर का उपयोग करने पर विचार कर रहा हूं। इसका मतलब है कि हजारों सहसंबंध हैं। इनमें (सांख्यिकीय रूप से) एक उच्च सहसंबंध होना चाहिए, भले ही डेटा पूरी तरह से यादृच्छिक हो (प्रत्येक उपाय में केवल लगभग 100 डेटा पॉइंट हैं)।

जब मैं एक सहसंबंध खोजता हूं, तो मैं इस बारे में जानकारी कैसे शामिल करूं कि मैंने एक सहसंबंध के लिए कितनी मेहनत की है, उसमें क्या है?

मैं आंकड़ों में उच्च स्तर पर नहीं हूं, इसलिए कृपया मेरे साथ रहें।

correlation multiple-comparisons permutation-test

— डेविड
स्रोत

5

यह एक महान उदाहरण है कि किसी को कई परिकल्पना परीक्षण की आवश्यकता क्यों है।

संभवतः सबसे बड़ी सहसंबंध के लिए महत्व थ्रेसहोल्ड के लिए एक अशक्त वितरण उत्पन्न करने के लिए क्रमपरिवर्तन प्रक्रिया का उपयोग कर सकते हैं, दूसरा सबसे बड़ा सहसंबंध के लिए एक अलग सीमा, और इसी तरह। उम्मीद है कि पाइथन या आर। (हा! प्रसिद्ध अंतिम शब्द।) में कुछ ही घंटे लगेंगे, लेकिन निश्चित रूप से किसी ने पहले से ही ऐसा किया होगा और कोड को कहीं बचाया होगा?

4

@tmo Rइस मशीन पर 18 सेकंड लेता है एक मैट्रिक्स 100 से 300 के लिए अधिकतम सहसंबंध गुणांक का अशक्त क्रमचय वितरण के 1000 प्रतीति प्राप्त करने के लिए x:

correl <- function(x, k=1) {   n <- dim(x)[2] * (dim(x)[2]-1) / 2;   v <- cor(x);    sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))

— whuber

74

यह एक उत्कृष्ट प्रश्न है, किसी के योग्य है जो एक स्पष्ट सांख्यिकीय विचारक है, क्योंकि यह कई परीक्षणों के एक सूक्ष्म लेकिन महत्वपूर्ण पहलू को पहचानता है।

कई सहसंबंध गुणांक के पी-मूल्यों को समायोजित करने के लिए मानक तरीके हैं (या, उनके आत्मविश्वास अंतराल को व्यापक बनाने के लिए, जैसे बोनफर्रानी और सिडक तरीके ( क्यूवी )। हालाँकि, ये अभी तक अंतर्निहित गणितीय संबंधों के कारण बड़े सह-संबंध मैट्रिसेस के साथ बहुत अधिक रूढ़िवादी हैं जो सामान्य रूप से सहसंबंध गुणांक के बीच धारण करना चाहिए। (इस तरह के रिश्तों के कुछ उदाहरणों के लिए हालिया प्रश्न और आगामी थ्रेड देखें ।) इस स्थिति से निपटने के लिए सबसे अच्छे तरीकों में से एक है एक क्रमपरिवर्तन (या फिर से शुरू करना) परीक्षण। सहसंबंधों के साथ ऐसा करना आसान है: परीक्षण के प्रत्येक पुनरावृत्ति में, प्रत्येक क्षेत्र के मूल्यों के क्रम को यादृच्छिक रूप से परिमार्जन करना (जिससे किसी भी अंतर्निहित सहसंबंध को नष्ट करना) और पूर्ण सहसंबंध मैट्रिक्स को पुन: प्राप्त करना। कई हज़ार पुनरावृत्तियों (या अधिक) के लिए ऐसा करें, फिर सहसंबंध मैट्रिक्स के प्रविष्टियों के वितरण को संक्षेप में कहें, उदाहरण के लिए, उनके 97.5 और 2.5 प्रतिशत दिए गए: ये शून्य के तहत आपसी सममित दो तरफा 95% विश्वास अंतराल के रूप में काम करेंगे कोई संबंध नहीं की परिकल्पना। (पहली बार जब आप इसे बड़ी संख्या में चर के साथ करते हैं तो आप आश्चर्यचकित रह जाएंगे कि कुछ सहसंबंध गुणांक कितने उच्च स्तर के हो सकते हैं जब कोई अंतर्निहित सहसंबंध नहीं होता है।)

परिणामों की रिपोर्ट करते समय, कोई फर्क नहीं पड़ता कि आप क्या गणना करते हैं, आपको निम्नलिखित शामिल करना चाहिए:

सहसंबंध मैट्रिक्स का आकार ( यानी , आपने कितने चर देखे हैं)।
आपने सहसंबंध गुणांकों में से किसी के पी-मूल्यों या "महत्व" को कैसे निर्धारित किया ( जैसे , उन्हें छोड़ दिया-जैसा है, एक बोनफेरोनी सुधार लागू किया, एक क्रमपरिवर्तन परीक्षण किया, या जो भी)।
चाहे आपने सहसंबंध के वैकल्पिक उपायों को देखा हो, जैसे कि स्पीयरमैन रैंक सहसंबंध । यदि आपने किया है, तो यह भी इंगित करें कि आपने उस पद्धति को क्यों चुना है जिसे आप वास्तव में रिपोर्ट कर रहे हैं और उपयोग कर रहे हैं।

— व्हीबर
स्रोत

1

यह पी-वैल्यू एडजस्टमेंट मेथड्स का बहुत अच्छा विवरण है लेकिन जो अनकहा है वह एडजस्टमेंट का मापदंड है। परंपरागत रूप से यह पारिवारिक रूप से त्रुटि दर रही है। लेकिन यह एक सख्त मापदंड है और जब आप हजारों तुलनाओं को देख रहे हैं तो यह उपयोगी नहीं है। उस मामले में पहले बेनजामिनी द्वारा सुझाई गई झूठी खोज दर अब आमतौर पर उपयोग की जाती है।

— माइकल चेरिक

c o r r (x_{1}, y_{1})

$corr(x_1,y_1)$

c o r r (x_{n}, y_{n})

$corr(x_n,y_n)$

x_{i}

$x_i$

y_{i}

$y_i$

c o r r (x_{i}, y_{j})

$corr(x_i,y_j)$

\forall i \neq j

$\forall i \not= j$ )? क्या हमें अभी भी एक सुधार की आवश्यकता है?

— जस १६'१२ को

@ जसे हाँ, तुम करो। सुधार की मात्रा चर के बीच अंतर्संबंधों पर निर्भर करती है। सिमुलेशन-आधारित विधियाँ इन सुधारों को निर्धारित करने के एकमात्र व्यावहारिक तरीके के बारे में हैं।

— whuber

वाह, बहुत अच्छा। क्या इस पद्धति पर चर्चा की गई है जो सीरियल सहसंबंध और विषमलैंगिकता के मुद्दों के लिए मानक त्रुटियों को भी ठीक करेगी?

— जस १६'१२ को

@ जेजे एक विषम मॉडल में सहसंबंध गुणांक की व्याख्या करना मुश्किल होगा। आपकी टिप्पणी मल्टीवेरिएट सहसंबंध गुणांक के अनुमान के बजाय एक समय श्रृंखला सेटिंग में एक रेखीय मॉडल को संदर्भित करती है।

— whuber

10

पीटर फ्लॉम के सवाल के जवाब में आपकी अनुवर्ती प्रतिक्रिया से, ऐसा लगता है कि आप बेहतर तरीके से उन तकनीकों द्वारा सेवा कर सकते हैं जो आपके सहसंबंध मैट्रिक्स में उच्च स्तर की संरचना को देखते हैं।

कारक विश्लेषण, पीसीए, बहुआयामी स्केलिंग और चर के क्लस्टर विश्लेषण जैसी तकनीकों का उपयोग अपेक्षाकृत अधिक संबंधित चर के सेट में अपने चर को समूह में करने के लिए किया जा सकता है।

इसके अलावा, आप इस बारे में सैद्धांतिक रूप से सोचना चाहते हैं कि किस तरह की संरचना मौजूद होनी चाहिए। जब आपके चर की संख्या बड़ी होती है और अवलोकनों की संख्या छोटी होती है, तो आप अक्सर पूर्व की अपेक्षाओं पर अधिक भरोसा करते हैं।

— जेरोमी एंग्लिम
स्रोत

1

(+1) ओपी की टिप्पणी के प्रकाश में @Peter Flom की प्रतिक्रिया के लिए अच्छी सलाह।

— व्हीबर

7

यह कई तुलनाओं का एक उदाहरण है। इस पर एक बड़ा साहित्य है।

यदि आपके पास, 100 चर कहे, तो आपके पास 100 * 99/2 = 4950 सहसंबंध होंगे।

यदि डेटा सिर्फ शोर है, तो आप इन 20 में से 1 को p = .05 पर महत्वपूर्ण होने की उम्मीद करेंगे। वह 247.5 है

हालांकि, आगे जाने से पहले, यह अच्छा होगा यदि आप कह सकते हैं कि आप ऐसा क्यों कर रहे हैं। ये चर क्या हैं, आप उन्हें क्यों सहसंबंधित कर रहे हैं, आपका ठोस विचार क्या है?

या, आप सिर्फ उच्च सहसंबंधों के लिए मछली पकड़ रहे हैं?

— पीटर फ्लॉम
स्रोत

3

इसका कारण यह है कि मैं ऐसा करना चाहता था, मेरे डेटा को समझने के लिए एक खुला दिमाग होना चाहिए, इसलिए शायद एक तरह से मैं सहसंबंधों के लिए मछली पकड़ रहा हूं, जो मैंने पहले कभी नहीं सोचा था, प्रबुद्ध होने के उद्देश्य से। मैं निश्चित रूप से अपने बॉस या कुछ को संतुष्ट करने के लिए ऐसा नहीं कर रहा हूं। मैं डेटा की बारीकियों में नहीं जाना चाहता, क्योंकि मैं इस प्रश्न का सामान्य उत्तर चाहता हूं, इसलिए मैं भविष्य में सभी स्थितियों में इसका उपयोग कर सकता हूं।

— डेविड

7

शायद आप परिकल्पना बनाने के लिए डेटा के यादृच्छिक सबसेट पर एक प्रारंभिक विश्लेषण कर सकते हैं, और फिर शेष डेटा का उपयोग करके ब्याज की उन कुछ परिकल्पनाओं का परीक्षण कर सकते हैं। इस तरह से आपको लगभग कई परीक्षणों के लिए सही नहीं करना पड़ेगा। (मुझे लगता है...)

बेशक, यदि आप ऐसी प्रक्रिया का उपयोग करते हैं तो आप अंतिम विश्लेषण के लिए उपयोग किए जाने वाले डेटासेट के आकार को कम कर देंगे और इसलिए वास्तविक प्रभावों को खोजने के लिए अपनी शक्ति कम कर देंगे। हालाँकि, कई तुलनाओं के लिए सुधार शक्ति को कम करते हैं और इसलिए मुझे यकीन नहीं है कि आप जरूरी कुछ भी खो देंगे।

— माइकल ल्यू
स्रोत

5

(+1) यह आम तौर पर एक महान विचार है। बड़े सहसंबंध वाले मैट्रिसेस के लिए, हालांकि, बहुत सारे आंकड़े हैं और उनमें से कई एक साथ बड़े पैमाने पर बड़े हो सकते हैं जो आमतौर पर समायोजित करने के लिए भुगतान करते हैं। अन्यथा आप भ्रामक "महत्वपूर्ण" सहसंबंधों की एक बड़ी संख्या का पीछा करते हुए हवा निकालते हैं जो केवल होल्ड-आउट डेटा में गायब हो जाते हैं। (एक अनुकार चलाएं, कहते हैं, 50 असंबंधित मानक सामान्य चर से कुछ सौ ड्रॉ। यह एक आंख खोलने वाला है।)

— whuber