अगर मैंने सही तरीके से गणना की है, तो लॉजिस्टिक रिगमेंटमेंट एसिम्पोटिकली टी-टेस्ट की समान शक्ति है। इसे देखने के लिए, इसकी लॉग लाइबिलिटी को लिखिए और इसके हेसियन की अपेक्षा इसकी वैश्विक अधिकतम पर गणना करें (इसका नकारात्मक अनुमान एमएल समाधान के भिन्नता-सहसंयोजक मैट्रिक्स है)। सामान्य लॉजिस्टिक पैरामीटर के साथ परेशान न करें: यह प्रश्न में दो संभावनाओं के साथ इसे सरल बनाने के लिए सरल है। विवरण इस बात पर निर्भर करेगा कि आप लॉजिस्टिक रिग्रेशन गुणांक के महत्व का परीक्षण कैसे करते हैं (कई विधियाँ हैं)।
इन परीक्षणों में समान शक्तियां भी आश्चर्यजनक नहीं होनी चाहिए, क्योंकि एमएल अनुमानों के लिए ची-स्क्वायर सिद्धांत लॉग संभावना के लिए एक सामान्य सन्निकटन पर आधारित है, और टी-टेस्ट अनुपात के वितरण के लिए एक सामान्य सन्निकटन पर आधारित है। इस मामले की जड़ यह है कि दोनों विधियां दो अनुपातों के समान अनुमान बनाती हैं और दोनों अनुमानों में समान मानक त्रुटियां हैं।
एक वास्तविक विश्लेषण अधिक ठोस हो सकता है। आइए किसी दिए गए समूह (A या B) के मानों के लिए कुछ सामान्य शब्दावली अपनाएँ:
- p , 1 की संभावना है।
- n ड्रॉ के प्रत्येक सेट का आकार है।
- m ड्रॉ के सेट की संख्या है।
- डेटा की मात्रा है।N=mn
- (बराबर 0 या 1 )ड्राके i वें सेटमें j th परिणामका मानहै।kij01jthith
- , ड्रॉके i वें सेटमें कुल लोगों की संख्या है।kiith
- k लोगों की कुल संख्या है।
लॉजिस्टिक रिग्रेशन अनिवार्य रूप से p का ML अनुमानक हैp । इसका लघुगणक द्वारा दिया गया है
log(L)=klog(p)+(N−k)log(1−p).
पैरामीटर संबंध में इसके डेरिवेटिव हैंp
∂log(L)∂p=kp−N−k1−p and
−∂2log(L)∂p2=kp2+N−k(1−p)2.
पहले शून्य पैदावार एमएल अनुमान स्थापना पी = कश्मीर / एनp^=k/N और प्लग है कि दूसरी अभिव्यक्ति की पारस्परिक में विचरण पैदावार पी ( 1 - पी ) / एन , जो मानक त्रुटि का वर्ग है।p^(1−p^)/N
टी आंकड़ा डेटा ड्रॉ के सेट के आधार पर वर्गीकृत के आधार पर आकलनकर्ता से प्राप्त किया जाएगा; अर्थात्, अंतर का अंतर (समूह ए से और समूह बी से दूसरे) उस अंतर की मानक त्रुटि से विभाजित होता है, जो कि साधनों के मानक विचलन से प्राप्त होता है। आइए किसी दिए गए समूह के लिए औसत और मानक विचलन को देखें। माध्य k / के बराबर है , जो एमएल आकलनकर्ता के समान है पी । प्रश्न मेंमानक विचलन ड्रा साधनों का मानक विचलन है; अर्थात्, यह k i / n के सेट का मानक विचलन है। यहाँ इस मामले की जड़ है, तो आइए कुछ संभावनाओं का पता लगाएं।k/Np^ki/n
मान लीजिए डेटा समूहबद्ध नहीं हैं में सब पर ड्रॉ: यह है कि, और मीटर = एन । कश्मीर मैं ड्रा साधन हैं। उनका नमूना प्रसरण एन / ( एन - 1 ) बार के बराबर होता हैn=1m=NkiN/(N−1)। इस से यह इस प्रकार है कि मानक त्रुटि के अलावा का एक पहलू से एमएल मानक त्रुटि के समान है√p^(1−p^) , जो अनिवार्य रूप से1 हैजबएन=1800। इसलिए - इस छोटे अंतर के अलावा - लॉजिस्टिक प्रतिगमन पर आधारित कोई भी परीक्षण एक टी-टेस्ट के समान होगा और हम अनिवार्य रूप से समान शक्ति प्राप्त करेंगे।N/(N−1)−−−−−−−−−√1N=1800
जब डेटा को समूहीकृत किया जाता है, तो बराबर (असली) p ( 1 - p ) / n का वेरिएंट होता है क्योंकि आंकड़े k i n n बर्नौली ( p ) वेरिएबल के योग का प्रतिनिधित्व करते हैं , जिनमें से प्रत्येक वेरिएशन p ( 1 / p ) के साथ होता है।ki/np(1−p)/nkinp । इसलिएइन मानोंके मा केमाध्य कीअपेक्षितमानक त्रुटि p ( 1 - p ) / n / mवर्गमूल हैp(1−p)m , पहले की तरह।p(1−p)/n/m=p(1−p)/N
नंबर 2 इंगित करता है कि परीक्षण की शक्ति सराहनीय रूप से भिन्न नहीं होनी चाहिए कि ड्रॉ को कैसे लागू किया जाता है (यह है कि कैसे और n के साथ m n = N के लिए विविध विषय हैं ), इसके अलावा शायद नमूने में समायोजन से काफी छोटे प्रभाव से। विचरण (जब तक आप इतने मूर्ख नहीं थे कि प्रत्येक समूह के भीतर ड्रॉ के बहुत कम सेट का उपयोग करें)।mnmn=N
सीमित सिमुलेशन की तुलना में से p = 0.74 (10,000 पुनरावृत्तियों के साथ) में m = 900 , n = 1 (अनिवार्य रूप से लॉजिस्टिक प्रतिगमन) शामिल है; m = n = 30 ; और m = 2 , n = 450 (नमूना प्रसरण समायोजन को अधिकतम करते हुए) इसे सहन करते हैं: शक्ति ( α = 0.05 पर)p=0.70p=0.74m=900,n=1m=n=30m=2,n=450α=0.05पहले दो मामलों में एकतरफा) 0.59 है जबकि तीसरे में, जहां समायोजन कारक एक सामग्री परिवर्तन करता है (1798 या 58 के बजाय अब सिर्फ दो डिग्री की स्वतंत्रता है), यह 0.36 तक गिर जाता है। से p = 0.52 की तुलना में एक और परीक्षण क्रमशः 0.22, 0.21, और 0.15 की शक्तियां देता है: फिर से, हम बिना किसी समूह से ड्रॉ (= लॉजिस्टिक रिग्रेशन) के 30 समूहों में समूहीकरण करने के लिए एक मामूली बूंद का निरीक्षण करते हैं और एक महत्वपूर्ण गिरावट होती है। सिर्फ दो समूहों के लिए।p=0.50p=0.52
इस विश्लेषण के नैतिक हैं:
- तुम हार ज्यादा है जब आप अपने विभाजन नहीं है एक बड़ी संख्या में डेटा मानों मीटर "ड्रॉ" के अपेक्षाकृत छोटे समूहों में से।Nm
- आप पर्याप्त शक्ति समूहों की कम संख्या (का उपयोग कर खो सकते हैं छोटा है, एन - बड़ी है समूह प्रति डेटा की --The राशि)।mn
- आप अपने डेटा मूल्यों को "ड्रॉ" में बिल्कुल भी समूहबद्ध नहीं कर रहे हैं । बस उन्हें विश्लेषण के रूप में (किसी भी उचित परीक्षण का उपयोग करके, लॉजिस्टिक प्रतिगमन और टी-परीक्षण सहित)।N