चि-वर्ग परीक्षण विचरण के रूप में अपेक्षित गणना का उपयोग क्यों करता है?


18

में परीक्षण, सामान्य वितरण में से प्रत्येक के मानक विचलन (यानी उम्मीद मायने रखता है प्रसरण के रूप में) के रूप में की उम्मीद की गिनती का वर्गमूल का उपयोग कर के लिए आधार क्या है? केवल एक चीज जो मैं इस पर चर्चा कर सकता है वह है http://www.physics.csbsju.edu/stats/chi-square.html , और यह सिर्फ पॉइज़न वितरण का उल्लेख करता है।χ2

मेरे भ्रम के एक साधारण चित्रण के रूप में, अगर हम परीक्षण कर रहे थे कि क्या दो प्रक्रियाएं काफी भिन्न हैं, एक जो 500 As और 500 B को बहुत छोटे विचरण के साथ उत्पन्न करती है, और दूसरी जो 550 As और 450 B को बहुत छोटे विचरण के साथ उत्पन्न करती है (शायद ही कभी उत्पन्न होती है) 551 As और 449 Bs) है? क्या यहाँ विचरण स्पष्ट रूप से अपेक्षित मूल्य नहीं है?

(मैं एक सांख्यिकीविद् नहीं हूं, इसलिए वास्तव में एक उत्तर की तलाश में हूं जो गैर-विशेषज्ञ के लिए सुलभ है।)


यह शायद तथ्य यह है कि एक के विचरण के साथ कुछ करने के लिए है χk2 यादृच्छिक चर है 2k और भी सच है कि आंकड़ा सही वितरण (संभावना अनुपात परीक्षण के रूप में) के लिए 2 से गुणा किया जाना चाहिए के साथ। शायद किसी को इसके बारे में और अधिक औपचारिक रूप से पता है।
मैक्रो

जवाबों:


16

कई परीक्षण आँकड़ों के लिए सामान्य रूप है

observedexpectedstandarderror

एक सामान्य चर के मामले में मानक त्रुटि या तो ज्ञात जनसंख्या भिन्नता (z- आँकड़े) या नमूने (t-आँकड़ों) से अनुमान पर आधारित है। द्विपद के साथ मानक त्रुटि अनुपात (परीक्षणों के लिए परिकल्पित अनुपात) पर आधारित है।

एक आकस्मिक तालिका में प्रत्येक सेल में गणना एक पॉइसन वितरण से अपेक्षित मान के बराबर (शून्य के तहत) के साथ आने के रूप में माना जा सकता है। पोइसन वितरण के लिए विचरण माध्य के बराबर है, इसलिए हम मानक त्रुटि गणना के लिए भी अपेक्षित मूल्य का उपयोग करते हैं। मैं एक आंकड़ा बजाय मनाया का उपयोग करता है देखा है, लेकिन यह कम सैद्धांतिक औचित्य है और करने के साथ अभिसरण नहीं है वितरण।χ2


1
मैं पोइसन / समझ के साथ जुड़ाव पर अटक रहा हूं कि प्रत्येक सेल को पॉइसन से आने के बारे में क्यों सोचा जा सकता है। मैं पोइसन के माध्य / विचरण को जानता हूं, और मुझे पता है कि वे एक दर दी गई घटनाओं की संख्या का प्रतिनिधित्व करते हैं। मुझे यह भी पता है कि ची-वर्ग वितरण मानक (विचरण 1) मानदंडों के वर्गों के योग का प्रतिनिधित्व करते हैं। मैं सिर्फ प्रत्येक मानदंड के "प्रसार" की धारणा के रूप में अपेक्षित मूल्य का पुन: उपयोग करने के औचित्य के चारों ओर अपना सिर लपेटने की कोशिश कर रहा हूं। क्या यह सब कुछ ची-वर्ग के वितरण के अनुरूप / मानदंडों को "मानक-औंस" के अनुरूप बनाने के लिए है?
यांग

3
कुछ मुद्दे हैं, पॉसों का वितरण मायने रखता है जब चीजें काफी स्वतंत्र होती हैं। तालिका के बारे में सोचने के बजाय एक निश्चित कुल होने के नाते और आप तालिका की कोशिकाओं के बीच मानों को वितरित कर रहे हैं, तालिका के सिर्फ एक सेल के बारे में सोचें और आप एक निश्चित समय की प्रतीक्षा कर रहे हैं यह देखने के लिए कि उस सेल में कितनी प्रतिक्रियाएं हैं , यह पोइसन के सामान्य विचार के साथ फिट बैठता है। बड़े साधनों के लिए आप एक सामान्य वितरण के साथ एक पॉइसन का अनुमान लगा सकते हैं, इसलिए टेस्ट स्टेटिस्टिक पोइसन के लिए एक सामान्य सन्निकटन के रूप में समझ में आता है, फिर परिवर्तित करें । χ2
ग्रेग स्नो

1
(+1) मान लीजिए सेल की गिनती मतलब के साथ स्वतंत्र प्वासों यादृच्छिक परिवर्तनीय थे n π मैं । फिर, निश्चित रूप से, Σ k मैं = 1 ( एक्स मैं - n π मैं ) 2Xi,,Xknπi वितरण में। लेकिन, इसके साथ समस्या यह है किnएकपैरामीटर हैन कि वास्तविक देखे गए मायने रखता है। कुल मनाया मायने रखता हैंएन=Σ k मैं = 1 एक्समैं~पीमैं(एन)। यद्यपिN/n1लगभग निश्चित रूप से SLLN द्वारा, कुछ और अधिक काम करने के लिए किया जाता है। i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
कार्डिनल

मेरे भ्रम के एक साधारण चित्रण के रूप में, अगर हम परीक्षण कर रहे थे कि क्या दो प्रक्रियाएं काफी भिन्न हैं, एक जो 500 As और 500 B को बहुत छोटे विचरण के साथ उत्पन्न करती है, और दूसरी जो 550 As और 450 B को बहुत छोटे विचरण के साथ उत्पन्न करती है (शायद ही कभी उत्पन्न होती है) 551 As और 449 Bs) है? क्या यहाँ विचरण स्पष्ट रूप से अपेक्षित मूल्य नहीं है?
यांग

1
@ यंग: यह आपके डेटा की तरह लगता है --- जिसका आपने वर्णन नहीं किया है --- ची-स्क्विट स्टेटिस्टिक के उपयोग के अंतर्निहित मॉडल के अनुरूप नहीं है। मानक मॉडल बहुराष्ट्रीय नमूनाकरण में से एक है । कड़ाई से बोलना, यहां तक ​​कि (बिना शर्त) पॉइसन नमूना भी कवर नहीं किया गया है, जो कि ग्रेग का जवाब है। मैं अपनी पिछली टिप्पणी में इसका (शायद एक अप्रतिबंधित) संदर्भ देता हूं।
कार्डिनल

17

आइए सबसे सरल अंतर्ज्ञान प्रदान करने का प्रयास करने के लिए सबसे सरल मामले को संभालें। चलो के साथ एक असतत वितरण का एक आईआईडी नमूना हो कश्मीर परिणामों। चलो π 1 , ... , π कश्मीर प्रत्येक विशेष परिणाम की संभावनाओं हो। हम ची-वर्ग आंकड़े के (asymptotic) वितरण में रुचि रखने वाले कर रहे हैं एक्स 2 = कश्मीर Σ मैं = 1 ( एस में π मैं ) 2X1,X2,,Xnkπ1,,πk यहाँ n π मैं की गिनती की उम्मीद संख्या है मैं वें परिणाम।

X2=i=1k(Sinπi)2nπi.
nπii

एक विचारोत्तेजक अनुमानी

परिभाषित , ताकिएक्स2=Σमैंयू 2 मैं =यू 2 2 जहांयू=(यू1,...,यूकश्मीर)Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

के बाद से है बी मैं n ( n , π मैं ) , तब तक केन्द्रीय सीमा प्रमेय , टी मैं = यू मैंSiBin(n,πi) इसलिए, हम भी है कि है, यू मैं d एन ( 0 , 1 - π मैं )

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

अब, अगर थे (asymptotically) स्वतंत्र (जो वे नहीं कर रहे हैं), तो हम बहस कर सकते हैं कि Σ मैं टी 2 मैं asymptotically था χ 2 कश्मीर वितरित किए। लेकिन, ध्यान दें कि T k एक नियतात्मक कार्य है ( T 1 , , T k - 1 ) और इसलिए T i वैरिएबल संभवतः स्वतंत्र नहीं हो सकता है।TiiTi2χk2Tk(T1,,Tk1)Ti

इसलिए, हमें उनके बीच किसी तरह के सहसंबंध को ध्यान में रखना चाहिए। यह पता चला है कि ऐसा करने का "सही" तरीका है कि मैं इसके बजाय का उपयोग करता हूं , और यू के घटकों के बीच सहसंयोजक भी हम क्या सोचा हो सकता है से asymptotic वितरण बदल जाता है χ 2 k क्या है, वास्तव में, एक χ 2 k - 1UiUχk2χk12

इस पर कुछ विवरण।

एक अधिक कठोर उपचार

ऐसा नहीं है कि जाँच करने के लिए, वास्तव में, कठिन नहीं है Cov(Ui,Uj)=πiπjij

U

A=IππT,
π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

U0A

UAZX2=UTUZTATAZ=ZTAZ

Arank(A)AA=QDQTQDrank(A)

ZTAZχk12Ak1

अन्य कनेक्शन

ची-स्क्वायर आँकड़ा भी संभावना अनुपात के आँकड़ों से निकटता से संबंधित है। वास्तव में, यह एक राव स्कोर स्टेटिस्टिक है और इसे एक टेलर-सीरीज़ के रूप में देखा जा सकता है जो कि समानुपातिक अनुपात का अनुमान है।

संदर्भ

यह अनुभव के आधार पर मेरा अपना विकास है, लेकिन जाहिर है कि यह शास्त्रीय ग्रंथों से प्रभावित है। अधिक जानने के लिए देखने के लिए अच्छी जगहें हैं

  1. जीएएफ सेबर और एजे ली (2003), रैखिक प्रतिगमन विश्लेषण , 2 एड।, विली।
  2. ई। लेहमन और जे। रोमानो (2005), परीक्षण सांख्यिकीय परिकल्पना , तीसरा संस्करण।, स्प्रिंगर। विशेष रूप से धारा 14.3
  3. डीआर कॉक्स और डीवी हिंकले (1979), सैद्धांतिक सांख्यिकी , चैपमैन और हॉल।

(+1) मुझे लगता है कि एग्रेस्टी, ए (2002) जैसे मानक श्रेणीबद्ध डेटा विश्लेषण ग्रंथों में इस प्रमाण को खोजना कठिन है। श्रेणीबद्ध डेटा विश्लेषण। जॉन-विले।
सनकूलसु

टिप्पणी के लिए धन्यवाद। मुझे पता है कि एगेस्टी में ची-स्क्वायड स्टैटिस्टिक का कुछ इलाज है, लेकिन याद नहीं है कि वह इसे कितनी दूर ले जाता है। वह सिर्फ संभावना अनुपात सांख्यिकीय के साथ स्पर्शोन्मुख तुल्यता के लिए अपील कर सकते हैं।
कार्डिनल

k1

XS
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.