क्या ची वर्ग का उपयोग अनुपातों की तुलना करने के लिए किया जा सकता है?


13

मैंने पढ़ा है कि ची वर्ग परीक्षण यह देखने के लिए उपयोगी है कि क्या नमूना अपेक्षित मूल्यों के एक सेट से काफी अलग है।

उदाहरण के लिए, यहां लोगों के पसंदीदा रंगों (n = 15 + 13 + 10 + 17 = 55 कुल योग) के बारे में एक सर्वेक्षण के परिणामों की एक तालिका है:

red,blue,green,yellow

15,13,10,17

एक ची वर्ग परीक्षण मुझे बता सकता है कि क्या यह नमूना प्रत्येक रंग को पसंद करने वाले लोगों की समान संभावना की अशक्त परिकल्पना से काफी अलग है।

प्रश्न: क्या परीक्षण एक निश्चित रंग की तरह कुल उत्तरदाताओं के अनुपात पर चलाया जा सकता है? नीचे की तरह:

red,blue,green,yellow

0.273,0.236,0.182,0.309

जहां, निश्चित रूप से, 0.273 + 0.236 + 0.182 + 0.309 = 1।

यदि इस मामले में ची वर्ग परीक्षण उपयुक्त नहीं है, तो कौन सा परीक्षण होगा? धन्यवाद!

संपादित करें: मैंने नीचे @Roman Luštrik उत्तर की कोशिश की, और निम्नलिखित आउटपुट मिला, मुझे पी-मूल्य क्यों नहीं मिल रहा है और आर "ची-स्क्वेरेड सन्निकटन गलत हो सकता है" क्यों कहता है?

> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))

    Chi-squared test for given probabilities

data:  c(0, 0, 0, 8, 6, 2, 0, 0) 
X-squared = NaN, df = 7, p-value = NA

Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395,  :
  Chi-squared approximation may be incorrect

1
दूसरे मामले में, क्या आप मान रहे हैं कि आपको कुल नमूना आकार पता है? या नहीं?
कार्डिनल

@ कार्डिनल: हाँ मुझे कुल नमूना आकार पता है।
हापी

3
उसके बाद कुल नमूनों के आकार के अनुपात को गणना की तालिका में बदलने के लिए, और ची-वर्ग को लागू करें। विधि आपके पहले उदाहरण के अनुरूप।
आरोन

मुझे संदेह है कि आप "फिट की अच्छाई" परीक्षण (ची स्क्वायर का उपयोग करके) के बारे में पूछ रहे हैं। जिसके उपयोग के बारे में बताया गया। चीयर्स, ताल
ताल गैलिली

जवाबों:


7

अगर मैं गलत हूं तो मुझे सुधारें, लेकिन मुझे लगता है कि यह इस कमांड का उपयोग करके आर में किया जा सकता है

> chisq.test(c(15,13,10,17))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 1.9455, df = 3, p-value = 0.5838

यह प्रत्येक के अनुपात में 1/4 है। आप तर्क के माध्यम से अपेक्षित मूल्यों को संशोधित कर सकते हैं p। उदाहरण के लिए, आपको लगता है कि लोग (जो भी कारण के लिए) पसंद कर सकते हैं कि एक रंग दूसरे पर है।

> chisq.test(c(15,13,10,17), p = c(0.5, 0.3, 0.1, 0.1))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 34.1515, df = 3, p-value = 1.841e-07

2
मुझे संदेह है कि आप इसे कुछ कम सेल काउंट्स के कारण देख रहे हैं (कुछ किताबें जो मैंने पढ़ी हैं वे 5 मिनट प्रति सेल का सुझाव देते हैं)। हो सकता है कि इस विषय पर कोई और जानकार चिप लगा सकता हो?
रोमन लुसट्रिक

1
यह भी ध्यान दें कि यदि आप अपनी संभावना के अंतिम को शून्य से अधिक बनाते हैं (लेकिन चेतावनी अभी भी बनी हुई है) तो आप एपी मूल्य प्राप्त कर सकते हैं।
रोमन लुसट्रिक

1
ओट एंड लॉन्गनेकर (सांख्यिकीय विधियों और डेटा विश्लेषण, 5 वें संस्करण के लिए एक परिचय) राज्य, पृष्ठ 504 पर, कि प्रत्येक सेल कम से कम पांच होना चाहिए, आराम से सन्निकटन का उपयोग करने के लिए।
रोमन लुसट्रिक

1
@ प्रफ्यूएन: आपको उल्लेख करना चाहिए कि आपके पास कुछ शून्य गणनाएँ हैं। रोमन सही है, इस मामले में ची-स्क्वायर का उपयोग करना सिर्फ उन कारणों के लिए काम नहीं करता है जो उसने उल्लेख किया है।
जोरिस मेय्स

1
@penyuan: मैंने आपको कुछ विकल्प देते हुए एक जवाब जोड़ा।
जोरिस मेय्स

6

आपके द्वारा दी गई अतिरिक्त जानकारी का उपयोग करते हुए (कि मानों में से कुछ 0 हैं), यह बहुत स्पष्ट है कि आपका समाधान कुछ भी क्यों नहीं लौटाता है। एक के लिए, आपके पास एक संभावना है जो 0 है, इसलिए:

  • eiहेनरी के समाधान में कम से कम एक i के लिए 0 है
  • npi प्रायिकता के समाधान में कम से कम एक i के लिए 0 है

जो विभाजनों को असंभव बनाता है। अब यह कहना कि अर्थ है कि उस परिणाम का होना असंभव है। यदि हां, तो आप इसे केवल डेटा से मिटा सकते हैं (@cardinal की टिप्पणी देखें)। यदि आप अत्यधिक अनुचित मतलब है, एक पहले 'समाधान' एक बहुत कम संख्या के साथ उस 0 मौका बढ़ाने के लिए हो सकता है।p=0

दिया हुआ :

X <- c(0,0,0,8,6,2,0,0)
p <- c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)

तुम यह कर सकते थे :

> p2 <- p + 1e-6
> chisq.test(X,p2)

        Pearson's Chi-squared test

data:  X and p2 
X-squared = 24, df = 21, p-value = 0.2931

लेकिन यह एक सही परिणाम नहीं है। किसी भी स्थिति में, इन सीमावर्ती मामलों में ची-स्क्वायर परीक्षण का उपयोग करने से बचना चाहिए। एक बेहतर दृष्टिकोण बूटस्ट्रैप दृष्टिकोण का उपयोग कर रहा है, एक अनुकूलित परीक्षण सांख्यिकीय की गणना कर रहा है और बूटस्ट्रैप द्वारा प्राप्त वितरण के साथ नमूने की तुलना कर रहा है।

R कोड में यह (चरण दर चरण) हो सकता है:

# The function to calculate the adapted statistic.
# We add 0.5 to the expected value to avoid dividing by 0
Statistic <- function(o,e){
    e <- e+0.5
    sum(((o-e)^2)/e)
}

# Set up the bootstraps, based on the multinomial distribution
n <- 10000
bootstraps <- rmultinom(n,size=sum(X),p=p)

# calculate the expected values
expected <- p*sum(X)

# calculate the statistic for the sample and the bootstrap
ChisqSamp <- Statistic(X,expected)
ChisqDist <- apply(bootstraps,2,Statistic,expected)

# calculate the p-value
p.value <- sum(ChisqSamp < sort(ChisqDist))/n
p.value

यह 0 का पी-मूल्य देता है, जो कि प्रेक्षित और अपेक्षित के अंतर के अनुरूप है। ध्यान रहे, यह विधि मानती है कि आपका डेटा एक बहुराष्ट्रीय वितरण से लिया गया है। यदि यह धारणा धारण नहीं करती है, तो पी-मान या तो पकड़ में नहीं आता है।


1
आप अपने पहले कथन पर पुनर्विचार कर सकते हैं, जो मुझे नहीं लगता कि सही है। यदि कुछ लिए और देखे गए काउंट शून्य हैं (जो कि वे बेहतर हो सकते हैं), तो यह सिर्फ एक उप-मॉडल में कम हो जाता है। इसका प्रभाव यह है कि प्रत्येक लिए स्वतंत्रता की डिग्री की संख्या कम हो जाती है जैसे कि । उदाहरण के लिए, छह-पक्षीय मर की एकरूपता के लिए परीक्षण पर विचार करें (जो कि लिए )। लेकिन, मान लीजिए कि हम (अजीब तरह से) संख्या दिखाने के लिए कई बार रिकॉर्ड करने का निर्णय लेते हैं । फिर, ची-स्क्वायर परीक्षण अभी भी मान्य है; हम सिर्फ पहले छह मूल्यों पर योग करते हैं। मैं मैं पी मैं = 0 पी मैं = 1 / 6 मैं 6 1 , ... , 10pi=0iipi=0pi=1/6i61,,10
कार्डिनल

@ कार्डिनल: मैंने केवल डेटा का वर्णन किया है, जहां अपेक्षित मान 0 है, लेकिन देखा जाना जरूरी नहीं है। यह ओपी ने हमें दिया है (हालांकि दूसरे विचार पर यह वास्तव में अवास्तविक लगता है)। इसलिए असंभव के बजाय इसे अत्यधिक असंभव बनाने के लिए पी मूल्य में थोड़ा सा जोड़ने से मदद मिलेगी, लेकिन फिर भी ची-वर्ग इस मामले में अमान्य है, जिसमें 5 से कम की गणना के साथ टेबल कोशिकाओं की बड़ी मात्रा के कारण (जैसा कि सबसे पहले दिखाया गया है) कोड)। मैंने अपने उत्तर में विचार को जोड़ा, सूचक के लिए thx।
जोरिस मेय्स

हां, मैं कहूंगा कि अगर , लेकिन आप उस सेल के लिए एक गणना का निरीक्षण करते हैं, तो आपके हाथ, वैसे भी आपको अधिक गंभीर समस्याएं हैं। :)pi=0
कार्डिनल

4

ची-वर्ग परीक्षण अच्छा है जब तक कि अपेक्षित गिनती बड़ी न हो, आमतौर पर 10 से ऊपर ठीक है। इसके नीचे the हिस्सा परीक्षण पर हावी होता है। एक सटीक परीक्षण सांख्यिकीय द्वारा दिया जाता है:1E(xi)

ψ=ixilog(xinpi)

जहाँ श्रेणी में देखी गई गणना है । आपके उदाहरण में । आपका नमूना आकार, आपके उदाहरण में बराबर है । वह परिकल्पना है जिसे आप चाहते हैं - सबसे स्पष्ट है (सभी संभावनाएँ बराबर हैं)। आप यह दिखा सकते हैं कि ची-स्क्वायर आँकड़ा:xiii{red, blue, green, yellow}n55pipi=pj

χ2=i(xinpi)2npi2ψ

देखे गए आवृत्तियों के संदर्भ में हम प्राप्त करते हैं:fi=xin

ψ=nifilog(fipi)
χ2=ni(fipi)2pi

(ध्यान दें कि परिकल्पना और देखे गए मूल्यों के बीच प्रभावी रूप से केएल विचलन है)। आप सहज रूप से देख सकते हैं कि क्यों छोटे लिए बेहतर है , क्योंकि इसमें a लेकिन इसमें लॉग फ़ंक्शन भी है जो chi-square से अनुपस्थित है , यह "छोटे शासक की गणना के कारण चरम मूल्यों" में है। अब इस सांख्यिकीय की "सटीकता" एक सटीक ची-वर्ग वितरण के रूप में नहीं है - यह एक संभाव्यता अर्थ में सटीक है। जेनेस 2003 संभावना सिद्धांत: विज्ञान के तर्क से, निम्नलिखित तरीके के बारे में सटीकता आती है।ψψpi1piψ

यदि आपके पास दो परिकल्पना और (यानी मानों के दो सेट ) हैं, जिन्हें आप परीक्षण करना चाहते हैं, प्रत्येक में परीक्षण के आंकड़े और हैं, तो आपको पर लिए संभावना अनुपात देता है । इस संभावना अनुपात का एक अनुमान देता है ।H1H2piψ1ψ2exp(ψ1ψ2)H2H1exp(12χ1212χ22)

अब अगर आप को "सुनिश्चित चीज़" या "सही फिट" परिकल्पना हैं, तो हमारे पास , और इस तरह chi- वर्ग और साई सांख्यिकीय दोनों आपको बताते हैं कि "कितनी दूर" किसी भी एक परिकल्पना के लिए एकदम सही है, एक से जो कि देखे गए डेटा को बिल्कुल फिट करते हैं। ψ 2 = χ 2 2 = 0H2ψ2=χ22=0

अंतिम अनुशंसा: उपयोग करें जब अपेक्षित मायने रखता है बड़े, मुख्य रूप से क्योंकि अधिकांश सांख्यिकीय पैकेज आसानी से इस मूल्य की रिपोर्ट करेंगे। यदि कुछ अपेक्षित काउंट छोटे हैं, तो बारे में , फिर उपयोग करें , क्योंकि इस मामले में ची-स्क्वायर एक बुरा सन्निकटन है, ये छोटे सेल ची-स्क्वायर स्टेटिस्टिक पर हावी होंगे। एन पी मैं < 10 ψχ22npi<10ψ


1
मुझे पूरा यकीन है कि अपेक्षित आवृत्तियां 10. से बड़ी नहीं हो सकतीं :) :)
कार्डिनल

@कार्डिनल - खुशी है कि यह आपकी आपत्ति थी - इसका मतलब है कि मेरा बाकी जवाब अच्छा रहा होगा :)।
probabilityislogic

वाह, मुझे आशा है कि मैं इतना picky / क्रोधी होने के लिए एक प्रतिष्ठा नहीं मिल रहा है।
कार्डिनल

1
मैं काफी "सटीक" शब्दावली का पालन नहीं कर रहा हूँ। शायद यह विशेष रूप से जेनेस के काम के लिए है। आपका लॉग-लाइबिलिटी-अनुपात-अनुपात परीक्षण आँकड़ा है, और इसलिए asymptotically Wilks 'प्रमेय द्वारा वितरण के रूप में वितरित किया गया है। इसके अलावा, प्रायिकता में , जो कि स्लटस्की के प्रमेय द्वारा यह निष्कर्ष निकालने के लिए पर्याप्त है कि में के समान वितरण है । अंत में, यह पता चला है कि इस समस्या के रूप में अच्छी तरह से है, जो दो परीक्षण आँकड़ों के बीच एक और संबंध प्रदान करता है। 2 ψ χ 2 χ 2 - 2 ψ 0 χ 2 2 ψ χ 2ψ2ψχ2χ22ψ0χ22ψχ2
कार्डिनल

इसके अलावा, एगेस्टी ( श्रेणीबद्ध डेटा विश्लेषण , 2 एड।, पी। 80) का दावा है कि वास्तव में तुलना में तेजी से एक ची-वर्ग वितरण में परिवर्तित होता है , जो आपकी अनुशंसा के साथ बाधाओं पर लगता है। :) 2 ψχ22ψ
कार्डिनल

3

हाँ, आप अशक्त परिकल्पना का परीक्षण कर सकते हैं: "H0: प्रोप (लाल) = प्रोप (नीला) = प्रोप (हरा) = प्रोप (पीला) = 1/4" एक ची वर्ग परीक्षण का उपयोग करके जो सर्वेक्षण के अनुपात की तुलना करता है (0.333) , ...) अपेक्षित अनुपात में (1/4, 1/4, 1/4, 1/4)


बस पुष्टि करने के लिए, यह अपेक्षित अनुपातों के साथ भी काम करेगा जो एक दूसरे के लिए असमान हैं?
होपी

4
जब तक आप पूर्ण नमूना आकार नहीं जानते तब तक परीक्षण सार्थक नहीं होगा। 1.0 / 0.0 / 0.0 / 0.0 के अनुपात बहुत अलग चीजों का मतलब है यदि वे आकार 1 के नमूने से हैं तो आकार 100 के नमूने का विरोध किया जाता है।
हारून

हाँ, मुझे कुल नमूना आकार पता है।
14

2

पियरसन के ची-स्क्वायर परीक्षण के लिए परीक्षण आँकड़ा है

i=1n(OiEi)2Ei

अगर आप लिखते हैंoi=Oinei=Einn=i=1nOii=1nei=1

ni=1n(oiei)2ei

इसलिए देखे गए अनुपात के महत्व का एक परीक्षण नमूना आकार पर निर्भर करता है, जितना कोई उम्मीद करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.