दो श्रेणीगत चर और एक श्रेणीगत चर और निरंतर चर के बीच सहसंबंध कैसे प्राप्त करें?


63

मैं एक प्रतिगमन मॉडल का निर्माण कर रहा हूं और मुझे सहसंबंधों की जांच करने के लिए नीचे की गणना करने की आवश्यकता है

  1. 2 बहु स्तरीय श्रेणीगत चर के बीच सहसंबंध
  2. बहु स्तरीय श्रेणीगत चर और निरंतर चर के बीच सहसंबंध
  3. एक बहु स्तरीय श्रेणीबद्ध चर के लिए VIF (विचरण मुद्रास्फीति कारक)

मेरा मानना ​​है कि उपरोक्त परिदृश्यों के लिए पियर्सन सहसंबंध गुणांक का उपयोग करना गलत है क्योंकि पियर्सन केवल 2 निरंतर चर के लिए काम करता है।

कृपया नीचे दिए गए प्रश्नों के उत्तर दें

  1. उपरोक्त मामलों के लिए कौन सा सहसंबंध गुणांक सबसे अच्छा काम करता है?
  2. VIF गणना केवल निरंतर डेटा के लिए काम करती है तो विकल्प क्या है?
  3. आपके द्वारा बताए गए सहसंबंध गुणांक का उपयोग करने से पहले मुझे किन मान्यताओं की जांच करने की आवश्यकता है?
  4. एसएएस एंड आर में उन्हें कैसे लागू किया जाए?

4
मैं कहता हूं कि CV.SE इस तरह के अधिक सैद्धांतिक आंकड़ों के बारे में सवालों के लिए एक बेहतर जगह है। यदि नहीं, तो मैं कहूंगा कि आपके प्रश्नों का उत्तर संदर्भ पर निर्भर करता है। कभी-कभी यह डमी चर में कई स्तरों को समतल करने के लिए समझ में आता है, दूसरी बार यह
बहुराष्ट्रीय

क्या आपके श्रेणीबद्ध चर आदेश दिए गए हैं? यदि हाँ, तो यह उस प्रकार के सहसंबंध को प्रभावित कर सकता है जिसे आप देखना चाहते हैं।
nassimhddd

मुझे अपने शोध में इसी समस्या का सामना करना पड़ रहा है। लेकिन मुझे इस समस्या को हल करने के लिए सही तरीका नहीं मिला। इसलिए यदि आप कृपया मुझे दिए गए संदर्भों को देने के लिए पर्याप्त दयालु हो सकते हैं।
user89797

क्या आपका मतलब पी-वैल्यू सहसंबंध गुणांक आर के समान है?
आयो एम्मा

श्रेणीबद्ध बनाम निरंतर के लिए एनोवा के साथ उपरोक्त समाधान अच्छा है। छोटी हिचकी। पी-मूल्य जितना छोटा होगा, दो चर के बीच "फिट" उतना ही बेहतर होगा। कोई और रास्ता नही।
म्युडेलसन 14

जवाबों:


73

दो श्रेणीगत चर

यह जाँच करना कि क्या दो श्रेणीगत चर स्वतंत्र हैं, को आज़ादी के ची-चुकता परीक्षण के साथ किया जा सकता है।

यह एक विशिष्ट ची-स्क्वायर परीक्षण है : अगर हम मानते हैं कि दो चर स्वतंत्र हैं, तो इन चरों के लिए आकस्मिक तालिका के मूल्यों को समान रूप से वितरित किया जाना चाहिए। और फिर हम जांचते हैं कि वास्तविक मूल्य समान हैं।

वहाँ एक क्रैमर वी भी मौजूद है जो सहसंबंध का एक माप है जो इस परीक्षण से आता है

उदाहरण

मान लीजिए हमारे पास दो चर हैं

  • लिंग: पुरुष और महिला
  • शहर: ब्लोइस एंड टूर्स

हमने निम्नलिखित डेटा देखा:

मूल्यों का अवलोकन किया

क्या लिंग और शहर स्वतंत्र हैं? चलिए ची-सिकर्ड टेस्ट करते हैं। अशक्त परिकल्पना: वे स्वतंत्र हैं, वैकल्पिक परिकल्पना यह है कि वे किसी तरह से संबंधित हैं।

नल की परिकल्पना के तहत, हम समान वितरण को मानते हैं। तो हमारे अपेक्षित मूल्य निम्नलिखित हैं

अपेक्षित मूल्य

इसलिए हम ची-स्क्वैयर परीक्षण चलाते हैं और यहां परिणामी पी-मूल्य को इन दो चर के बीच सहसंबंध के उपाय के रूप में देखा जा सकता है।

क्रैमर के V की गणना करने के लिए, हम पहले सामान्यीकरण कारक chi-squared-max का पता लगाते हैं जो आम तौर पर नमूने का आकार होता है, इसके द्वारा chi-square को विभाजित करें और एक वर्गमूल लें

crammers v

आर

tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

यहाँ p मान 0.08 है - काफी छोटा, लेकिन फिर भी स्वतंत्रता की परिकल्पना को अस्वीकार करने के लिए पर्याप्त नहीं है। तो हम कह सकते हैं कि यहाँ "सहसंबंध" 0.08 है

हम भी V की गणना करते हैं:

sqrt(chi2$statistic / sum(tbl))

और 0.14 (छोटा v, कम सहसंबंध) प्राप्त करें

एक और डेटासेट पर विचार करें

    Gender
City  M  F
   B 51 49
   T 24 26

इसके लिए, यह निम्नलिखित होगा

tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

sqrt(chi2$statistic / sum(tbl))

पी-मान 0.72 है जो 1 के करीब है, और v 0.03 है - 0 के बहुत करीब है

श्रेणीबद्ध बनाम संख्यात्मक चर

इस प्रकार के लिए हम आम तौर पर वन-वे एनोवा टेस्ट करते हैं : हम इन-ग्रुप वेरिएंट और इंट्रा-ग्रुप वेरिएंट की गणना करते हैं और फिर उनकी तुलना करते हैं।

उदाहरण

हम डोनट्स से अवशोषित वसा के बीच संबंध का अध्ययन करना चाहते हैं। डोनट्स का उत्पादन करने के लिए किस प्रकार के वसा का उपयोग किया जाता है (उदाहरण यहां से लिया गया है )

डोनट्स

क्या चर के बीच कोई निर्भरता है? उसके लिए हम एनोवा परीक्षण करते हैं और देखते हैं कि पी-वैल्यू सिर्फ 0.007 है - इन चरों के बीच कोई संबंध नहीं है।

आर

t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)

val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))

aov1 = aov(val ~ fac)
summary(aov1)

आउटपुट है

            Df Sum Sq Mean Sq F value  Pr(>F)   
fac          3   1636   545.5   5.406 0.00688 **
Residuals   20   2018   100.9                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

इसलिए हम यहाँ सहसंबंध के माप के रूप में पी-मान भी ले सकते हैं।

संदर्भ


1
विवरण के लिए धन्यवाद एलेक्सी। अधिक शोध के आधार पर मैंने पॉलीसेरियल और पॉलीक्लोरिक सहसंबंध के बारे में पाया। आपका दृष्टिकोण इनसे बेहतर कैसे है? कृपया समझाएं
जॉर्जऑफTheRF

1
मुझे इन बातों की जानकारी नहीं है, क्षमा करें।
एलेक्सी ग्रिगोर्व

Fasntastic उत्तर @Alexey द्वारा। मैं आपकी टिप्पणी पढ़ने के बाद ऑनलाइन पॉलीकोरिक / पॉलीसेरी सहसंबंधों को पढ़ता हूं। वे दो अव्यक्त चर से, दो अव्यक्त चर के बीच संबंध का अनुमान लगाने की तकनीक हैं। मुझे नहीं लगता कि आपने जो पूछा है, और यह एलेक्सी के जवाब के साथ तुलनीय नहीं है।
कार्तिक्स

1
आपका पहला उदाहरण श्रेणीबद्ध बनाम श्रेणीबद्ध के बारे में नहीं है, बल्कि यह श्रेणीबद्ध बनाम संख्यात्मक है, वास्तव में आप शहर को पुरुषों (महिलाओं, क्रमशः) की संख्या के खिलाफ देख रहे हैं, जो संख्यात्मक है। श्रेणीबद्ध बनाम श्रेणीबद्ध, कहा जाएगा, शहर बनाम आंखों का रंग या आकार या कुछ और, लेकिन किसी भी तरह से यह लिंग के प्रतिनिधि की संख्या नहीं होगी।
gented

1
@AlexeyGrigorev यदि हमारा डेटा सामान्य रूप से वितरित नहीं kruskal-wallicकिया जाता है, तो इसके बजाय उपयोग किया जाना चाहिए one-way anova? अग्रिम में धन्यवाद।
Ebrahimi
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.