वितरणों की समानता के लिए ची-स्क्वायर परीक्षण: इसे कितने शून्य सहन करते हैं?


10

मैं म्यूटेंट के दो समूहों की तुलना कर रहा हूं, जिनमें से प्रत्येक में 21 विभिन्न फेनोटाइप में से केवल एक हो सकता है। मैं यह देखना चाहूंगा कि क्या इन परिणामों का वितरण दो समूहों के बीच समान है। मैंने एक ऑनलाइन परीक्षण पाया जो "वितरणों की समानता के लिए ची-स्क्वायर परीक्षण" की गणना करता है और मुझे कुछ प्रशंसनीय परिणाम देता है। हालाँकि, इस तालिका में मेरे पास कुछ शून्य हैं, तो क्या मैं इस मामले में ची-स्क्वायर का उपयोग कर सकता हूं?

यहाँ विशेष समूहों के दो समूहों और मायने रखता तालिका है:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

तालिका सही नहीं निकली। हर विषम संख्या समूह 1 से एक गणना है और हर सम संख्या समूह 2 से संबंधित गिनती है
मेम्ब्रन

मैंने आपके प्रश्न को सुधार दिया है। क्या टेबल अब सही है?
15g पर csgillespie

जवाबों:


8

ऐसी मेज पर फिशर का 'सटीक' परीक्षण करने के लिए इन दिनों पूरी तरह से संभव है । मुझे सिर्फ P = 0.087 स्टाटा (( tabi 2 1 \ 2 3 \ .... , exactनिष्पादन में 0.19 सेकंड का समय लगा) का उपयोग करके मिला है ।

EDL chl की टिप्पणी के बाद नीचे (टिप्पणी के रूप में जोड़ने का प्रयास किया गया लेकिन प्रारूप नहीं कर सकता):

यह मेरे लिए R 2.12.0 में काम करता है, हालाँकि मुझे 200000 के डिफ़ॉल्ट मान पर 'कार्यक्षेत्र' विकल्प को बढ़ाना पड़ा:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(स्टैटा की तुलना में निष्पादन का समय थोड़ा तेज है, लेकिन यह संदिग्ध प्रासंगिकता है कि त्रुटि संदेश के अर्थ को बाहर निकालने के लिए समय दिया गया है, जो इस तथ्य के बावजूद कि आर के सामान्य अर्थ से कुछ अलग करने के लिए 'कार्यक्षेत्र' का उपयोग करता है। आर के मूल 'आँकड़े' पैकेज का हिस्सा है।)


1
दिलचस्प, फिशर का परीक्षण आर पर दुर्घटनाग्रस्त हो गया
CHL

माफ करना, अधिक नहीं कर सकते। ऐसा लगता है कि मैंने wksp को पर्याप्त नहीं बढ़ाया है :)
chl

क्या ऐसा नहीं है कि फिशर का "सटीक" परीक्षण वास्तव में थोड़ा अलग प्रश्न है: "... इसका उपयोग दो प्रकार के वर्गीकरण के बीच संघ (आकस्मिकता) के महत्व की जांच करने के लिए किया जाता है" (विकी पेज)। मेरे मामले में मैंने 2 समूहों के बीच फेनोटाइप्स के वितरण की परिकल्पना (या खंडन) की पुष्टि करने की मांग की (समान)। जब मैंने पाया कि ऑनलाइन टेस्ट (पहली पोस्ट देखें) नाम "ची-स्क्वायर टेस्ट ऑफ डिस्ट्रीब्यूशन ऑफ इक्विपमेंट्स" तो मुझे लगा कि यह मेरी समस्या के लिए ठीक है ...
मेमब्रन

इसके अलावा, अगर आपको लगता है कि फिशर के परीक्षण का उल्लेख किया गया संस्करण दो वितरणों की तुलना करने के लिए ठीक है, तो क्या इसका उपयोग वितरण की एकरूपता की जांच के लिए भी किया जा सकता है (यानी यह कहना कि एक समूह के भीतर फेनोटाइप को गैर-समान रूप से संभावित रूपांतरों के बीच वितरित किया गया था) ? एक CHITEST फ़ंक्शन का उपयोग करके Excel में भी ऐसा कर सकते हैं, लेकिन क्या होगा अगर मेरे पास ऊपर के समान वितरण है, जिसमें बहुत सारे फेनोटाइप 5 से कम बार देखे गए हैं?
मेम्बरन

@ मम्बरन # 1: यह मामूली अलग-अलग प्रश्न है क्योंकि फिशर के सीमांत योग के दोनों सेटों की सटीक परीक्षण की स्थिति है। यह मेरे लिए एक अकादमिक सांख्यिकीय अच्छाता के कुछ लगता है, और मैं शिक्षाविद में एक सांख्यिकीविद् हूँ। (BTW आप यह स्पष्ट कर सकते हैं कि आप किस विकी का उल्लेख करते हैं?) @ ममब्रन # 2: मैं वन-वे टेबल के मामले में सशर्त सटीक परीक्षण "फिशर का सटीक परीक्षण" नहीं कहूंगा, लेकिन ऐसा परीक्षण संभव होना चाहिए। और मैं एक तरफ़ा तालिकाओं के लिए और अधिक सरल सोचा होगा, लेकिन मैं वर्तमान में सहायता के लिए सॉफ़्टवेयर नहीं ढूंढ सकता और मेरे पास गणना करने के लिए समय नहीं है।
onestop

5

सामान्य दिशा-निर्देश हैं कि अपेक्षित गणना 5 से अधिक होनी चाहिए, लेकिन निम्नलिखित लेख में इस पर चर्चा की जा सकती है।

कैंपबेल, I, ची-स्क्वायर्ड और फिशर-इरविन परीक्षण दो-दो-दो तालिकाओं के साथ छोटे नमूना सिफारिशों , चिकित्सा में सांख्यिकी (2007) 26 (19): 3661-3675।

इयान कैम्पबेल का होमपेज भी देखें ।

pchisq.test(..., sim=TRUE)

आपके मामले में, ऐसा प्रतीत होता है कि लगभग 80% अपेक्षित गणना 5 से नीचे हैं, और 40% नीचे हैं। क्या यह कुछ देखे गए फेनोटाइप को एकत्र करने के लिए समझ में आएगा?


सुझाव के लिए धन्यवाद। तार्किक रूप से, फेनोटाइप को मर्ज करना काफी संभव नहीं है क्योंकि उनमें से प्रत्येक तीन रिकॉर्ड किए गए मापदंडों का एक अनूठा संयोजन है। चूंकि इन मापदंडों में से प्रत्येक "अप", "डाउन" या म्यूटेशन के परिणामस्वरूप "अपरिवर्तित" रह सकता है, इसलिए 3 ^ 3 = 27 अलग फ़ेनोटाइप हो सकते हैं। ऊपर के उदाहरण में मैंने उन फेनोटाइप को हटा दिया जिसके लिए दोनों समूहों ने "0" स्कोर किया, इसलिए उनमें से केवल 21 थे। मुझे कुछ फ़ेनोटाइप्स की व्यापकता दिखाई देती है, लेकिन मैं कुछ सांख्यिकीय प्रमाण देना चाहूंगा कि म्यूटेंट के विभिन्न समूहों में इस तरह के फ़ेनोटाइप का वितरण समान (या नहीं) समान है। धन्यवाद!
मेम्ब्रन

1
@ मेम्ब्रन एग्रीगेशन को सार्थक नहीं होना है: आप किसी भी तरह से कृपया कृपया बिन्स गठबंधन करने के लिए स्वतंत्र हैं। हालाँकि, एक सूक्ष्म समस्या यह है कि पोस्ट-फैक्टो एकत्रीकरण ने पी-मूल्यों को संदेह में डाल दिया है; एकत्रीकरण को डेटा से स्वतंत्र होना चाहिए।
व्हिबर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.