यह एक अच्छा सवाल है, लेकिन एक बड़ा सवाल है। मुझे नहीं लगता कि मैं एक पूर्ण उत्तर प्रदान कर सकता हूं, लेकिन मैं विचार के लिए कुछ भोजन बाहर फेंक दूंगा।
सबसे पहले, अपने शीर्ष बुलेट बिंदु के तहत, आप जिस सुधार का उल्लेख कर रहे हैं , उसे निरंतरता के लिए येट्स के सुधार के रूप में जाना जाता है । समस्या यह है कि हम एक असतत हीन सांख्यिकीय की गणना करते हैं:
(यह असतत है, क्योंकि एक आकस्मिक तालिका में प्रतिनिधित्व किए गए उदाहरणों की केवल एक सीमित संख्या के साथ, वहां संभावित एहसास मूल्यों की एक सीमित संख्या है कि यह आँकड़ा आगे बढ़ सकता है।) इस तथ्य के बावजूद, यह एक सतत संदर्भ वितरण ( अर्थात , स्वतंत्रता की डिग्री साथ वितरण की तुलना है ।
χ2=∑(O−E)2E
χ2 (r−1)(c−1))। यह आवश्यक रूप से कुछ स्तर पर एक बेमेल की ओर जाता है। एक विशेष रूप से छोटे डेटा सेट के साथ, और यदि कुछ कोशिकाओं ने 5 से कम मूल्यों की उम्मीद की है, तो संभव है कि पी-मूल्य बहुत छोटा हो सकता है। इसके लिए येट्स का करेक्शन एडजस्ट होता है।
विडंबना यह है कि एक ही अंतर्निहित समस्या (असतत-निरंतर बेमेल) पी-मूल्यों को जन्म दे सकती है जो बहुत अधिक हैं । विशेष रूप से, पी-मूल्य को पारंपरिक रूप से डेटा प्राप्त करने की संभावना के रूप में परिभाषित किया जाता है जो कि चरम या अधिक हैदेखे गए आंकड़ों की तुलना में। निरंतर डेटा के साथ, यह समझा जाता है कि किसी भी सटीक मूल्य को प्राप्त करने की संभावना गायब है, और इस प्रकार हमारे पास वास्तव में डेटा की संभावना अधिक चरम है। हालांकि, असतत डेटा के साथ आपके जैसे डेटा प्राप्त करने की एक सीमित संभावना है। केवल डेटा को प्राप्त करने की संभावना की तुलना में आप की तुलना में अधिक चरम है कि नाममात्र पी-मानों की पैदावार होती है जो बहुत कम हैं (बढ़ी हुई प्रकार की त्रुटियों के लिए अग्रणी), लेकिन डेटा प्राप्त करने की संभावना सहित आपके लिए नाममात्र पी-मूल्यों की ओर जाता है जो बहुत अधिक हैं (जो कि टाइप II त्रुटियों को बढ़ाएगा)। ये तथ्य मध्य पी-मूल्य के विचार को प्रेरित करते हैं । इस दृष्टिकोण के तहत, पी-वैल्यू आपके प्लस आधे से अधिक डेटा की संभावना है डेटा की संभावना सिर्फ तुम्हारी जैसी है।
जैसा कि आप बताते हैं, आकस्मिक टेबल डेटा के परीक्षण के लिए कई संभावनाएं हैं। विभिन्न दृष्टिकोणों के पेशेवरों और विपक्षों का सबसे व्यापक उपचार यहां है । वह कागज 2x2 तालिकाओं के लिए विशिष्ट है, लेकिन आप इसे पढ़कर भी आकस्मिक तालिका डेटा के विकल्पों के बारे में बहुत कुछ जान सकते हैं।
मुझे भी लगता है कि यह गंभीरता से मॉडल पर विचार करने के लायक है। ची-स्क्वॉयर जैसे पुराने परीक्षण कई लोगों द्वारा त्वरित, आसान और समझ में आते हैं, लेकिन अपने डेटा की व्यापक समझ के साथ आपको नहीं छोड़ते हैं क्योंकि आप एक उपयुक्त मॉडल का निर्माण करते हैं। यदि यह आपकी आकस्मिक तालिका की पंक्तियों [स्तंभों] को प्रतिक्रिया चर के रूप में सोचने के लिए उचित है, और स्तंभों [पंक्तियों] को एक व्याख्यात्मक / भविष्य कहनेवाला चर के रूप में, एक मॉडलिंग दृष्टिकोण काफी आसानी से अनुसरण करता है। उदाहरण के लिए, यदि आपके पास सिर्फ दो पंक्तियाँ थीं, तो आप लॉजिस्टिक रिग्रेशन मॉडल बना सकते हैं ; यदि कई कॉलम हैं, तो आप ANOVA- प्रकार का मॉडल बनाने के लिए संदर्भ सेल कोडिंग (डमी कोडिंग) का उपयोग कर सकते हैं। दूसरी ओर, यदि आपके पास दो से अधिक पंक्तियाँ हैं, तो बहुराष्ट्रीय लॉजिस्टिक प्रतिगमनएक ही तरीके से इस्तेमाल किया जा सकता है। क्या आपकी पंक्तियों में आंतरिक क्रम है, क्रमिक लॉजिस्टिक प्रतिगमन बहुराष्ट्रीय के लिए बेहतर प्रदर्शन करेगा। लॉग-लीनियर मॉडल (पॉइसन रिग्रेशन) शायद कम प्रासंगिक है जब तक कि आपके विचार में दो से अधिक आयामों वाली आकस्मिक तालियाँ न हों।
इन जैसे विषयों के व्यापक उपचार के लिए, एगेस्टी द्वारा सर्वश्रेष्ठ स्रोत हैं: या तो उनका पूर्ण पैमाने पर उपचार (अधिक कठोर), उनकी इंट्रो पुस्तक (आसान लेकिन अभी भी व्यापक और बहुत अच्छी), या संभवतः उनकी क्रमिक पुस्तक भी ।
अद्यतन: बस संभावित परीक्षणों की सूची की पूर्णता के लिए, यह मेरे लिए होता है कि हम संभावना अनुपात परीक्षण (अक्सर इसे ' ' कहते हैं) जोड़ सकते हैं । यह है:
यह भी चि-वर्ग के रूप में वितरित किया जाता है, और लगभग हमेशा एक ही निर्णय प्राप्त करेगा। दो आँकड़ों के वास्तविक मूल्य समान रूप से समान होंगे, लेकिन थोड़े अलग। किसी भी स्थिति में अधिक शक्तिशाली होगा का प्रश्न काफी सूक्ष्म है। मैं इकट्ठा करता हूं कि यह कुछ क्षेत्रों में परंपरा के अनुसार डिफ़ॉल्ट विकल्प है। मैं जरूरी नहीं कि यह पारंपरिक परीक्षण पर उपयोग की वकालत करता हूं; मैं केवल इसे पूर्णता के लिए सूचीबद्ध कर रहा हूं, जैसा कि मैं कहता हूं। G2-test
G2=∑O⋅ln(OE)