एक्सेल बनाम आर में ची-चुकता की गणना का अजीब तरीका


9

मैं एक एक्सेल शीट देख रहा हूँ, जो दावा करती है कि मैं गणना कर रहा हूँ χ2, लेकिन मैं इसे करने के इस तरीके को नहीं पहचानता, और मैं सोच रहा था कि क्या मुझे कुछ याद आ रहा है।

यहां वह डेटा है जो इसका विश्लेषण कर रहा है:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

और यहाँ चाम वर्ग की गणना करने के लिए प्रत्येक समूह के लिए यह रकम है:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

इसलिए प्रत्येक समूह के लिए है:χ2

2.822793
2.822793
1.759359
4.136448

और कुल ची स्क्वायर है 11.54139:।

हालाँकि, हर उदाहरण जो मैंने देखा है कि की गणना इससे पूरी तरह अलग है। मैं प्रत्येक समूह के लिए करूंगा:χ2

chiSq = (Observed-Expected)^2 / Expected

और इसलिए ऊपर के उदाहरण के लिए मुझे कुल chi वर्ग मान मिलेगा 11.3538

मेरा सवाल है - एक्सेल शीट में वे इस तरह से गणना क्यों कर रहे हैं ? क्या यह एक मान्यताप्राप्त दृष्टिकोण है?χ2

अपडेट करें

यह जानने की मेरी इच्छा है कि मैं इन परिणामों को आर भाषा में दोहराने की कोशिश कर रहा हूं। मैं chisq.test फ़ंक्शन का उपयोग कर रहा हूं और यह एक्सेल शीट के समान संख्या के साथ नहीं आ रहा है। तो अगर किसी को पता है कि आर में यह दृष्टिकोण कैसे करना है तो यह बहुत मददगार होगा!

अद्यतन २

अगर किसी की दिलचस्पी है, तो यहां मैंने R में इसकी गणना कैसे की:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

आपके दूसरे अपडेट में दृष्टिकोण को सही आंकड़ा देना चाहिए। हालांकि, यदि आपकी उम्मीदें देखी गई राशि के आधार पर नहीं हैं, तो आपको समस्या हो सकती है क्योंकि पी-वैल्यू उस पर स्थितियां हैं। हालाँकि, मुझे लगता है कि उम्मीद है और देखा गया है कि कुल (संभावना से घटित होने की संभावना नहीं) तो यह सब ठीक है। आप इसे और अधिक आसानी से कर सकते हैं:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b -Reinstate Monica

@Glen_b एक्सेल शीट में मेरा मानना ​​है कि कुल जनसंख्या * 'P ’का मूल्य जो मैंने ऊपर काम किया है, उससे उम्मीद की जाती है। क्या यह कोई समस्या बनने जा रहा है? इसके अलावा कुल जनसंख्या भिन्न होती है - ज्यादातर समय यह 2000 है लेकिन यह वास्तव में कोई भी संख्या हो सकती है। एक्सेल शीट मैं यहाँ पुनः बनाने की कोशिश कर रहा हूँ, वास्तव में पी-मूल्य को ध्यान में नहीं रखता है, इसलिए यदि आँकड़ा इससे प्रभावित नहीं होगा, तो शायद यह कोई समस्या नहीं है ...
user1578653

प्रश्न उबलता है कि पी कहाँ से आते हैं। क्या वे कुल देखे गए गिनती को देख रहे हैं?
Glen_b -Reinstate मोनिका

वैसे मेरे लिए यह Ps की तरह दिखता है, और इसलिए अपेक्षित कुल देखे गए गिनती और कुल जनसंख्या दोनों पर आधारित है ... हालांकि सभी उदाहरणों में मुझे एक्सेल शीट में दिया गया है, अपेक्षित मूल्य भी मैच के लिए लगता है। कुल देखी गई संख्या / गिनती की संख्या।
user1578653

यदि p उस तरह से गणना पर आधारित हैं, तो निश्चित रूप से अपेक्षित अनुसरण करते हैं। यदि ऐसा है, तो यह स्वतंत्रता की डिग्री की तरह दिखता है और इसी तरह ठीक है जैसा आपने आर में किया था - लेकिन मेरे स्पष्टीकरण के कुछ शब्दों को बदलने की आवश्यकता हो सकती है।
Glen_b -Reinstate मोनिका

जवाबों:


13

यह काफी सीधा है।

यह स्पष्ट रूप से द्विपद नमूना है। इसे देखने के दो तरीके हैं।

विधि 1, स्प्रैडशीट की, यह देखी गई गणनाओं का इलाज करने के लिए है Xi जैसा Bin(Ni,pi), जिसका अनुमान लगाया जा सकता है N(μi=Nipi,σi2=Nipi(1pi))। जैसे की,Zi=(Xiμi)/σi लगभग मानक सामान्य हैं, और Zस्वतंत्र हैं, इसलिए (लगभग) Σमैंजेडमैं2~χ2

(यदि पी बंद मनाया मायने रखता है, तो कर रहे हैं जेडस्वतंत्र नहीं हैं, लेकिन यह अभी भी एक कम डिग्री के साथ ची-स्क्वायर है।]

विधि 2: आपका उपयोग (हे-)2/ची-स्क्वायर का रूप भी काम करता है, लेकिन इसके लिए यह आवश्यक है कि आप न केवल उस श्रेणी को ध्यान में रखें जिसे आपने 'अवलोकित' लेबल किया है, बल्कि उस श्रेणी में भी नहीं है:

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

जहां पहले कॉलम के लिए आप उनके जैसे हैं, और दूसरे कॉलम के लिए वे हैं एनमैं(1-पीमैं)

... और फिर राशि (हे-)2/ दोनों स्तंभों पर।

दो रूप बीजगणितीय रूप से समतुल्य हैं। ध्यान दें कि 1/p+1/(1p)=1/p(1p)। मैं पर विचार करेंth ची-वर्ग की पंक्ति:

(Xiμi)2σi2=(XiNipi)2Nipi(1pi)=(XiNipi)2Nipi+(XiNipi)2Ni(1pi)=(XiNipमैं)2एनमैंपीमैं+(एनमैं-एनमैं+एनमैंपीमैं-एक्समैं)2एनमैं(1-पीमैं)=(एक्समैं-एनमैंपीमैं)2एनमैंपीमैं+(एनमैं-एक्समैं-(एनमैं-एनमैंपीमैं))2एनमैं(1-पीमैं)=(एक्समैं-एनमैंपीमैं)2एनमैंपीमैं+((एनमैं-एक्समैं)-एनमैं(1-पीमैं))2एनमैं(1-पीमैं)=(हेमैं()-मैं())2मैं()+(हेमैं(¯)-मैं(¯))2मैं(¯)

जिसका अर्थ है कि आपको राउंडिंग त्रुटि तक दोनों तरह से एक ही उत्तर मिलना चाहिए।

चलो देखते हैं:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

ची-वर्ग = 11.353846 + 0.187548 = 11.54139

जो उनके उत्तर से मेल खाता है।


1
आपकी सहायताके लिए धन्यवाद! मैं गणितज्ञ / सांख्यिकीविद नहीं हूं, इसलिए इसने मुझे शुरुआत में भ्रमित किया, लेकिन आपकी व्याख्या को समझना बहुत आसान है।
user1578653
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.