दो श्रेणीगत चर
यह जाँच करना कि क्या दो श्रेणीगत चर स्वतंत्र हैं, को आज़ादी के ची-चुकता परीक्षण के साथ किया जा सकता है।
यह एक विशिष्ट ची-स्क्वायर परीक्षण है : अगर हम मानते हैं कि दो चर स्वतंत्र हैं, तो इन चरों के लिए आकस्मिक तालिका के मूल्यों को समान रूप से वितरित किया जाना चाहिए। और फिर हम जांचते हैं कि वास्तविक मूल्य समान हैं।
वहाँ एक क्रैमर वी भी मौजूद है जो सहसंबंध का एक माप है जो इस परीक्षण से आता है
उदाहरण
मान लीजिए हमारे पास दो चर हैं
- लिंग: पुरुष और महिला
- शहर: ब्लोइस एंड टूर्स
हमने निम्नलिखित डेटा देखा:
क्या लिंग और शहर स्वतंत्र हैं? चलिए ची-सिकर्ड टेस्ट करते हैं। अशक्त परिकल्पना: वे स्वतंत्र हैं, वैकल्पिक परिकल्पना यह है कि वे किसी तरह से संबंधित हैं।
नल की परिकल्पना के तहत, हम समान वितरण को मानते हैं। तो हमारे अपेक्षित मूल्य निम्नलिखित हैं
इसलिए हम ची-स्क्वैयर परीक्षण चलाते हैं और यहां परिणामी पी-मूल्य को इन दो चर के बीच सहसंबंध के उपाय के रूप में देखा जा सकता है।
क्रैमर के V की गणना करने के लिए, हम पहले सामान्यीकरण कारक chi-squared-max का पता लगाते हैं जो आम तौर पर नमूने का आकार होता है, इसके द्वारा chi-square को विभाजित करें और एक वर्गमूल लें
आर
tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
यहाँ p मान 0.08 है - काफी छोटा, लेकिन फिर भी स्वतंत्रता की परिकल्पना को अस्वीकार करने के लिए पर्याप्त नहीं है। तो हम कह सकते हैं कि यहाँ "सहसंबंध" 0.08 है
हम भी V की गणना करते हैं:
sqrt(chi2$statistic / sum(tbl))
और 0.14 (छोटा v, कम सहसंबंध) प्राप्त करें
एक और डेटासेट पर विचार करें
Gender
City M F
B 51 49
T 24 26
इसके लिए, यह निम्नलिखित होगा
tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
sqrt(chi2$statistic / sum(tbl))
पी-मान 0.72 है जो 1 के करीब है, और v 0.03 है - 0 के बहुत करीब है
श्रेणीबद्ध बनाम संख्यात्मक चर
इस प्रकार के लिए हम आम तौर पर वन-वे एनोवा टेस्ट करते हैं : हम इन-ग्रुप वेरिएंट और इंट्रा-ग्रुप वेरिएंट की गणना करते हैं और फिर उनकी तुलना करते हैं।
उदाहरण
हम डोनट्स से अवशोषित वसा के बीच संबंध का अध्ययन करना चाहते हैं। डोनट्स का उत्पादन करने के लिए किस प्रकार के वसा का उपयोग किया जाता है (उदाहरण यहां से लिया गया है )
क्या चर के बीच कोई निर्भरता है? उसके लिए हम एनोवा परीक्षण करते हैं और देखते हैं कि पी-वैल्यू सिर्फ 0.007 है - इन चरों के बीच कोई संबंध नहीं है।
आर
t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)
val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))
aov1 = aov(val ~ fac)
summary(aov1)
आउटपुट है
Df Sum Sq Mean Sq F value Pr(>F)
fac 3 1636 545.5 5.406 0.00688 **
Residuals 20 2018 100.9
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
इसलिए हम यहाँ सहसंबंध के माप के रूप में पी-मान भी ले सकते हैं।
संदर्भ