R - ची-स्क्वैयर सन्निकटन में चेतावनी गलत हो सकती है


40

मेरे पास फायर फाइटर प्रवेश परीक्षा परिणाम दिखाने वाला डेटा है। मैं इस परिकल्पना का परीक्षण कर रहा हूं कि परीक्षा परिणाम और जातीयता परस्पर स्वतंत्र नहीं हैं। इसे जांचने के लिए, मैंने आर में पियर्सन ची-स्क्वायर टेस्ट चलाया। परिणाम दिखाते हैं कि मुझे क्या उम्मीद थी, लेकिन इसने चेतावनी दी "" In chisq.test(a) : Chi-squared approximation may be incorrect

> a
       white black asian hispanic
pass       5     2     2        0
noShow     0     1     0        0
fail       0     2     3        4
> chisq.test(a)

    Pearson's Chi-squared test

data:  a
X-squared = 12.6667, df = 6, p-value = 0.04865

Warning message:
In chisq.test(a) : Chi-squared approximation may be incorrect

क्या किसी को पता है कि इसने चेतावनी क्यों दी? क्या इसलिए कि मैं गलत तरीके का इस्तेमाल कर रहा हूं?


2
इतने कम माप के साथ कभी भी परिणाम पर भरोसा न करें। जब आपके पास प्रत्येक कॉलम में सैकड़ों लोग होते हैं, तो आपको अपने परिणामों पर कुछ भरोसा हो सकता है। फिर भी, परिणाम रेस के मुकाबले पड़ोस या धन के कारण अधिक हो सकता है।
रोड्रिगो

जवाबों:


41

इसने चेतावनी दी क्योंकि कई अपेक्षित मूल्य बहुत छोटे होंगे और इसलिए पी के अनुमान सही नहीं हो सकते हैं।

में Rआप उपयोग कर सकते हैं chisq.test(a, simulate.p.value = TRUE)अनुकरण पी मूल्यों का उपयोग करने के लिए।

हालांकि, ऐसे छोटे सेल आकार के साथ, सभी अनुमान खराब होंगे। हो सकता है कि सिर्फ पास-फेल बनाम ("नो शो" डिलीट करना) टेस्ट करना अच्छा होगा, या तो ची-स्क्वायर या लॉजिस्टिक रिग्रेशन के साथ। दरअसल, चूंकि यह स्पष्ट है कि पास / फेल ग्रेड एक आश्रित चर है, इसलिए लॉजिस्टिक रिग्रेशन बेहतर हो सकता है।


simulate.p.value = TRUEजब वास्तव में क्या जोड़ा जाता है chisq.test?
11:14 पर Al14

1
यह सिमुलेशन का उपयोग करता है पी मूल्य को खोजने के लिए
पीटर Flom - को पुनः स्थापित मोनिका

1
ध्यान दें कि simulate.p.value = TRUEमार्जिन पर सिमुलेशन सशर्त का उपयोग करता है , इसलिए वास्तव में फिशर सटीक परीक्षण का एक संस्करण है।
kjetil b halvorsen

23

मुद्दा यह है कि परीक्षण सांख्यिकीय के वितरण के लिए ची-स्क्वायर सन्निकटन सामान्य रूप से वितरित की जा रही गणनाओं पर निर्भर करता है। यदि अपेक्षित संख्याओं में से कई बहुत छोटी हैं, तो अनुमान खराब हो सकता है।

ध्यान दें कि आकस्मिक तालिकाओं में स्वतंत्रता के लिए ची-स्क्वायर सांख्यिकीय का वास्तविक वितरण असतत है, निरंतर नहीं।

समस्या के लिए नोशो श्रेणी का बड़ा योगदान होगा; विचार करने के लिए एक बात noshow और असफल विलय है। आपको अभी भी चेतावनी मिलेगी, लेकिन यह लगभग इतने परिणामों को प्रभावित नहीं करेगा और वितरण काफी उचित होना चाहिए (चेतावनी दिए जाने से पहले लागू किया जाने वाला नियम बहुत सख्त है)।

लेकिन किसी भी मामले में, यदि आप हाशिये पर स्थिति के लिए तैयार हैं (जैसा कि आप फिशर के सटीक परीक्षण को चलाते समय करते हैं) तो आप आर में बहुत आसानी से समस्या से निपट सकते हैं ; करने के लिए simulate.p.valueतर्क सेट करें TRUE; तब आप परीक्षण सांख्यिकीय के वितरण के लिए ची-स्क्वायर सन्निकटन पर निर्भर नहीं होते हैं।


क्या आप मुझे समझा सकते हैं कि क्यों .. "ची-स्क्वायर अंकीयकरण परीक्षण के वितरण के लिए सांख्यिकीय रूप से गिना जाता है जो मोटे तौर पर वितरित किया जाता है"? मुझे समझ में नहीं आता है कि यह कैसे सच हो सकता है यदि उदाहरण के लिए एक 2x2 आकस्मिक तालिका है। कैसे गिना जा सकता है (लगभग) सामान्य रूप से वितरित? श्वेत, श्याम, वानस्पतिक और एशियाई गणना संभवत: सामान्य रूप से कैसे वितरित की जा सकती है? क्या आपका मतलब सिर्फ थोड़ा समान है? और यह इस प्रश्न से कैसे संबंधित है? : आंकड़े.stackexchange.com/questions/141407/…
इरोसिनिन

गिनती यादृच्छिक चर का बहुभिन्नरूपी वितरण लगभग सामान्य होने की आवश्यकता है (हालांकि यह पतित होगा)। मनाया मायने रखता है के सेट केवल एक है एकल इस मल्टीवेरिएट सामान्य से वेक्टर अवलोकन - आप एक अवलोकन से वितरण का न्याय नहीं कर सकते। मूल्यांकन करने के लिए मैं आपके बारे में बात कर रहा हूं जो मान्यताओं पर भरोसा करने की आवश्यकता है; व्यक्तिगत कोशिकाओं (यानी किसी दिए गए सेल के लिए सीमांत वितरण, शून्य के तहत) के लिए इसे करना काफी आसान है। आप कोशिकाओं में गिनती का संयोजन करते हैं, लेकिन इसका कोई मतलब नहीं है क्योंकि वे सभी अलग-अलग वितरणों से आते हैं
Glen_b

सबसे पहले, समय निकालने के लिए धन्यवाद! तो आप कह रहे हैं कि गणना "नीचे की ओर" आकस्मिक तालिका होनी चाहिए (पतले) बहुभिन्नरूपी सामान्य, अगर हमने कई टिप्पणियों को देखा? क्या इसका मतलब यह नहीं होगा कि प्रत्येक व्यक्ति कोशिका की गणना सामान्य होने के साथ-साथ आकस्मिक तालिका भी "बग़ल में" गिनाती है (मुझे लगता है कि इसका मतलब है कि आप 'आर-पार' के साथ हैं)? F.ex अपेक्षित मान 5 के साथ एक सेल, सामान्य रूप से 5 के आसपास वितरित किया जाना चाहिए, है ना? इसलिए यदि किसी सेल में 40 का मूल्य अपेक्षित है, तो इस सेल को सामान्य रूप से 40 के आसपास वितरित किया जाना चाहिए, और साथ में 5 और 40 के सामान्य मल्टीवेरेट सामान्य हैं, नहीं?
इरोसिनिन

1
r×crc(r1)(c1)
ग्लेन_ब

यह भारी है, और बहुत ही अंतरजामी है। यदि आपके पास कभी समय होता है, तो मैंने अपना पहला प्रश्न यहां रिपॉजिट किया : आंकड़े.स्टैकएक्सचेंज . com / questions / 142429/…
इरोसिनिन

12

ऐसी छोटी गणनाओं के लिए, आप फिशर के सटीक परीक्षण का उपयोग कर सकते हैं:

> fisher.test(a)

        Fisher's Exact Test for Count Data

data:  a 
p-value = 0.02618
alternative hypothesis: two.sided 

3

कृपया पियर्सन के ची-स्क्वेर्ड परीक्षण लेख के "अनुमान" अनुभाग देखें।

संक्षेप में, जब आपकी तालिका में से किसी भी कोशिका की संख्या 5 से कम होती है, तो मान्यताओं में से एक टूट जाती है। मुझे लगता है कि त्रुटि संदेश का जिक्र है। लिंक किए गए लेख में आप उस सुधार के बारे में भी जान सकते हैं जिसे लागू किया जा सकता है।


6
χ2

0

आपका मुख्य प्रश्न नमूना आकार के बारे में बात करता है, लेकिन मैं देखता हूं कि दो से अधिक समूहों की तुलना की जाती है। यदि परीक्षण से पी-मान 0.05 या उससे कम है, तो परिणामों की व्याख्या करना मुश्किल होगा। इसलिए, मैं एक संक्षिप्त स्क्रिप्ट साझा कर रहा हूं जिसका उपयोग मैं ऐसी स्थितियों में करता हूं:

# Load the required packages:
library(MASS) # for chisq
library(descr) # for crosstable

CrossTable(a$exam_result, a$ethnicity
       fisher = T, chisq = T, expected = T,
       prop.c = F, prop.t = F, prop.chisq = F, 
       sresid = T, format = 'SPSS')

यह कोड पियर्सन के ची-स्क्वायर और फिशर के ची स्क्वायर दोनों को उत्पन्न करेगा। यह तालिका प्रविष्टियों में से प्रत्येक के अनुपात के साथ-साथ मायने रखता है। मानकीकृत अवशिष्ट या z- मान स्कोर के आधार पर अर्थात

sresid

अगर यह सीमा के बाहर है | 1.96 | यानी, -1.96 से कम या 1.96 से अधिक, तो यह महत्वपूर्ण है पी <0.05। संकेत तब इंगित करेगा कि सकारात्मक रूप से संबंधित है या नकारात्मक।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.