पियर्सन का सहसंबंध गुणांक सामान्यता के उल्लंघन के लिए कितना मजबूत है?


20

विशेष प्रकार की आबादी (जैसे कि मेजर डिप्रेसिव डिसऑर्डर वाले लोगों की आबादी में अवसाद के स्तर) में मापा जाने पर कुछ प्रकार के चर के लिए डेटा गैर-सामान्य हो जाता है। यह देखते हुए कि पियर्सन की सामान्यता मान ली गई है, गैर-सामान्यता की शर्तों के तहत परीक्षण सांख्यिकीय कितना मजबूत है?

मेरे पास कई चर हैं जिन्हें मैं सहसंबंध गुणांक के लिए चाहूंगा, लेकिन उनमें से कुछ चर के लिए Z- तिरछा होना p <.001 पर महत्वपूर्ण है (और यह अपेक्षाकृत छोटे नमूने के लिए है)। मैंने कुछ परिवर्तनों की कोशिश की है, लेकिन वितरण में सुधार केवल सबसे अच्छा है।

क्या मुझे गैर-पैरामीट्रिक विश्लेषण के साथ रहना होगा? और न केवल सहसंबंधों के लिए, बल्कि अन्य प्रकार के विश्लेषण के लिए भी?


रुको, पियर्सन के सहसंबंध गुणांक सामान्यता मानता है? मुझे नहीं लगता कि यह करता है, और मैं इसे गैर-सामान्य डेटा पर उपयोग कर रहा हूं। यह सिर्फ कुछ चीजों के लिए मजबूत नहीं है जो कुछ गैर-सामान्य स्थितियों में अधिक बार होता है, लेकिन बहुत सारी गैर-सामान्य परिस्थितियां हैं जहां मुझे पियर्सन के सहसंबंध गुणांक का उपयोग करने में कोई समस्या नहीं है।
डगलस ज़ारे

1
पियर्सन का सहसंबंध सामान्यता मानता है जो कई आँकड़े ग्रंथों का दावा है। मैंने कहीं और सुना है कि पियर्सन के आर के लिए सामान्यता एक अनावश्यक धारणा है। जब मैं विश्लेषण चलाता हूं, तो पियर्सन और स्पीयरमैन दोनों अपेक्षाकृत समान परिणाम देते हैं।
आर्कियोप्टेरिक्स

स्पीयरमैन का रैंक सहसंबंध गुणांक पीयरसन का सहसंबंध गुणांक गैर-सामान्य रैंकिंग पर लागू होता है। मुझे अभी भी नहीं पता कि आप किस मायने में पियर्सन की सामान्यता की आवश्यकता मानते हैं। यदि आप इसे बहुभिन्नरूपी सामान्य वितरण पर उपयोग कर रहे हैं तो शायद आप कुछ अतिरिक्त बातें कह सकते हैं।
डगलस ज़ारे

मैं बस इसे सरल bivariate सहसंबंध के लिए उपयोग कर रहा हूँ। मुझे यकीन नहीं है कि यह क्यों दावा किया जाता है कि सामान्यता की आवश्यकता है। मैंने जिन आँकड़े ग्रंथों को पढ़ा है वे हमेशा पियर्सन के सहसंबंध की धारणा के रूप में सामान्यता को सूचीबद्ध करते हैं और स्पीयरमैन की उन स्थितियों के लिए उपयोग करने की सलाह देते हैं जिनमें गैर-सामान्यता निहित है।
आर्कियोप्टेरिक्स सिप

जवाबों:


20

संक्षिप्त उत्तर: बहुत गैर-मजबूत। सहसंबंध रैखिक निर्भरता का एक उपाय है , और जब एक चर को दूसरे के रैखिक कार्य के रूप में नहीं लिखा जा सकता है (और अभी भी दिए गए सीमांत वितरण हैं), तो आपके पास पूर्ण (सकारात्मक या नकारात्मक) सहसंबंध नहीं हो सकता है। वास्तव में, संभावित सहसंबंधों के मूल्यों को गंभीर रूप से प्रतिबंधित किया जा सकता है।

समस्या यह है कि जबकि जनसंख्या सहसंबंध हमेशा और 1 के बीच होता है , सटीक सीमा प्राप्य भारी मार्जिनल वितरण पर निर्भर करती है। एक त्वरित सबूत और प्रदर्शन:11

सहसंबंध की सुगम सीमा

अगर वितरण समारोह है एच और सीमांत वितरण कार्यों एफ और जी , वहाँ के लिए कुछ नहीं बल्कि अच्छा ऊपरी और निचले सीमा से मौजूद है एच , एच - ( एक्स , वाई ) एच ( एक्स , वाई ) एच + ( एक्स , वाई ) , फ्रेश बाउंड्स कहा जाता है। य़े हैं (X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
(इसे साबित करने की कोशिश करें; यह बहुत मुश्किल नहीं है।)
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

सीमाएँ स्वयं वितरण कार्य हैं। चलो एक समान वितरण की है। ऊपरी बाउंड , ( X , Y ) = ( F - ( U ) , G - ( U ) ) का वितरण कार्य है और निचला बाउंड, ( F - ( - U ) , G - (U(X,Y)=(F(U),G(U))(F(U),G(1U))

अब, सहप्रसरण के लिए सूत्र पर इस प्रकार का उपयोग कर, हम देखते हैं कि हम अधिकतम और न्यूनतम सहसंबंध प्राप्त जब एच के बराबर है एच + और एच - क्रमश: यानी, जब Y एक (सकारात्मक या नकारात्मक, क्रमशः) की एक लय समारोह है एक्स

Cov(X,Y)=H(x,y)F(x)G(y)dxdy,
HH+HYX

उदाहरण

यहां कुछ उदाहरण दिए गए हैं (बिना प्रमाण के):

  1. XY(X,Y)YX

    Y=μY+σYXμXσX.
    11XY
  2. XYYY=abXabYXY[1/e,1][0.37,1]

  3. XY

    ±1e10.76.

ध्यान दें कि सभी सीमाएं जनसंख्या सहसंबंध के लिए हैं। नमूना सहसंबंध आसानी से सीमा से बाहर का विस्तार कर सकता है, विशेष रूप से छोटे नमूनों के लिए (त्वरित उदाहरण: 2 का नमूना आकार)।

सहसंबंध सीमा का अनुमान लगाना

यदि आप सीमांत वितरण से अनुकरण कर सकते हैं, तो सहसंबंध पर ऊपरी और निचले सीमा का अनुमान लगाना काफी आसान है। उपरोक्त अंतिम उदाहरण के लिए, हम इस R कोड का उपयोग कर सकते हैं:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

यदि हमारे पास केवल वास्तविक डेटा है और सीमांत वितरण नहीं जानते हैं, तो भी हम उपरोक्त विधि का उपयोग कर सकते हैं। यह एक समस्या नहीं है कि चर तब तक निर्भर होते हैं जब तक कि अवलोकन जोड़े निर्भर होते हैं। लेकिन यह कई अवलोकन जोड़े रखने में मदद करता है ।

डेटा ट्रांसफ़ॉर्म कर रहा है

YX सामान्य रूप से वितरित किए जाने वाले , सहसंबंध की अच्छी व्याख्या है (इसका वर्ग एक चर का प्रसरण है जिसे दूसरे द्वारा समझाया गया है। )। यहां ऐसा मामला नहीं है।

आप वास्तव में यहां क्या कर रहे हैं, यह निर्भरता का एक नया उपाय पैदा कर रहा है जो सीमांत वितरण पर निर्भर नहीं करता है; यानी, आप निर्भरता का एक कोपेड- आधारित माप बना रहे हैं । पहले से ही कई तरह के उपाय, मौजूद है स्पीयरमैन की  ρ और केंडल  τ सबसे प्रसिद्ध जा रहा है। (यदि आप वास्तव में निर्भरता की अवधारणाओं में रुचि रखते हैं, तो इसे कोपलों में देखना बुरा नहीं है।)

निष्कर्ष के तौर पर

कुछ अंतिम विचार और सलाह: केवल सहसंबंध को देखना एक बड़ी समस्या है: यह आपको सोचना बंद कर देता है। दूसरी ओर, बिखरे हुए भूखंडों को देखकर, अक्सर आप सोचने लगते हैं । इसलिए मेरी मुख्य सलाह यह है कि तितर बितर भूखंडों की जांच की जाए और स्पष्ट रूप से निर्भरता का मॉडल तैयार किया जाए।

उस ने कहा, अगर आपको एक साधारण सहसंबंध-जैसे उपाय की आवश्यकता है, तो मैं सिर्फ स्पीयरमैन के ρ (और संबद्ध आत्मविश्वास अंतराल और परीक्षण) का उपयोग करूंगा  । इसकी सीमा प्रतिबंधित नहीं है। लेकिन गैर-मोनोटोन निर्भरता के बारे में बहुत जागरूक रहें। सहसंबंध पर विकिपीडिया लेख संभावित समस्याओं को दर्शाता हुआ अच्छा भूखंडों की एक जोड़ी है।


1
+1 यह बहुत अच्छा योगदान स्पष्ट रूप से सहसंबंधों से जुड़े कई आवर्ती मुद्दों को संबोधित करता है। मैं विशेष रूप से सोच को रोकने / शुरू करने के बारे में पहले समापन पैराग्राफ में टिप्पणियों की सराहना करता हूं।
whuber

क्या गैर-मजबूती भी असमान रूप से बनी रहेगी? यदि ऐसा है, तो विकी यह कहने में गलत है कि "[आर के एक साधारण परिवर्तन के लिए छात्र का वितरण] यह भी माना जाता है कि यदि देखे गए मान गैर-सामान्य हैं, तो भी नमूना आकार बहुत छोटा नहीं है"?
अधिकतम

5

इन चरों के वितरण क्या दिखते हैं (तिरछे होने के अलावा)? यदि केवल गैर-सामान्यता तिरछी है, तो किसी प्रकार के परिवर्तन में मदद करनी चाहिए। लेकिन अगर इन चरों में बहुत अधिक गांठ है, तो कोई भी परिवर्तन उन्हें सामान्यता में नहीं लाएगा। यदि चर निरंतर नहीं है, तो यह सच है।

उल्लंघन से संबंध कितना मजबूत है? Anscombe चौकड़ी पर एक नज़र डालें। यह कई समस्याओं को काफी अच्छी तरह से दिखाता है।

अन्य प्रकार के विश्लेषण के लिए, यह विश्लेषण पर निर्भर करता है। यदि एक प्रतिगमन में तिरछे चर स्वतंत्र चर हैं, उदाहरण के लिए, कोई समस्या नहीं हो सकती है - आपको अवशिष्टों को देखने की आवश्यकता है।


1
कुछ चरों में कुर्तोसिस की समस्या भी होती है, लेकिन तिरछापन सबसे बड़ी समस्या है। मैंने समस्या चर पर वर्गमूल और लॉग रूपांतरण की कोशिश की है, लेकिन वे बहुत सुधार नहीं करते हैं। वास्तव में, वितरण लगभग बिल्कुल समान दिखते हैं, लेकिन स्कोर के अधिक ढेर के साथ।
आर्कियोप्टेरिक्स सिप

1
यह बहुत ही अजीब लगता है। क्या आप प्रश्न में चर के माध्य, माध्य, तिरछा, कुरूपता पोस्ट कर सकते हैं? या (और भी बेहतर) इसका घनत्व प्लॉट?
पीटर Flom - को पुनः स्थापित मोनिका

6
भले ही (एक्स, वाई) का वितरण सामान्य रूप से द्विभाजित हो या नहीं, पियर्सन सहसंबंध रैखिकता की डिग्री का एक उपाय है। नमूना अनुमान के लिए संभावना वितरण सामान्यता पर निर्भर करेगा।
माइकल आर। चेरिक सिप

3
वे चर बहुत तिरछे नहीं हैं। आप उन्हें वैसे ही छोड़ सकते हैं।
पीटर Flom - को पुनः स्थापित मोनिका

3
यहाँ महत्व के बारे में चिंता मत करो। आमतौर पर, तिरछा और कुर्तो कि <-2 या> 2 माना जाता है शायद परिवर्तन की जरूरत है। बेहतर अभी तक रेखांकन जैसे कि सामान्य सामान्य प्लॉट और घनत्व प्लॉट w / कर्नेल को देखना है कि क्या चल रहा है।
पीटर Flom - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.