हम अनुपात के लिए एक विश्वास अंतराल के निर्माण के लिए टी-वितरण का उपयोग क्यों नहीं करते हैं?


18

अज्ञात जनसंख्या मानक विचलन (sd) के साथ माध्य के लिए विश्वास-अंतराल (CI) की गणना करने के लिए हम t-वितरण को नियोजित करके जनसंख्या मानक विचलन का अनुमान लगाते हैं। विशेष रूप से, जहां । लेकिन क्योंकि, हमारे पास जनसंख्या के मानक विचलन का बिंदु अनुमान नहीं है, हम अनुमान लगाते हैं कि जहांCI=X¯±Z95%σX¯σX¯=σnCI=X¯±t95%(se)se=sn

कंट्रास्ट के अनुसार, जनसंख्या अनुपात के लिए, CI की गणना करने के लिए, हम रूप में अनुमानित करते हैं, जहां प्रदान की गई औरCI=p^±Z95%(se)se=p^(1p^)nnp^15n(1p^)15

मेरा प्रश्न यह है कि हम जनसंख्या अनुपात के लिए मानक वितरण से क्यों संतुष्ट हैं?


1
मेरे अंतर्ज्ञान का कहना है इस वजह से आप दूसरे अज्ञात है, मतलब की मानक त्रुटि प्राप्त करने के लिए σ , जो नमूना से गणना को पूरा करने का अनुमान है। अनुपात के लिए मानक त्रुटि में कोई अतिरिक्त अज्ञात नहीं है।
मोनिका को बहाल करें - जी। सिम्पसन

@GavinSimpson कायल है। वास्तव में हमने टी वितरण शुरू करने का कारण मानक विचलन सन्निकटन की भरपाई के लिए शुरू की गई त्रुटि की भरपाई करना है।
अभिजीत

3
मुझे यह आंशिक रूप से समझाने से कम लगता है क्योंकि t वितरण नमूना विचरण की स्वतंत्रता से उत्पन्न होता है और नमूना सामान्य वितरण से नमूने में होता है, जबकि एक द्विपद वितरण से नमूने के लिए दो मात्राएं स्वतंत्र नहीं होती हैं।
whuber

@ अभिजीत कुछ पाठ्यपुस्तकें इस सांख्यिकीय (कुछ शर्तों के तहत) के लिए एक सन्निकटन के रूप में एक टी-वितरण का उपयोग करती हैं - वे d-1 के रूप में n-1 का उपयोग करती हैं। हालांकि मुझे इसके लिए एक अच्छा औपचारिक तर्क देखना बाकी है, लेकिन यह अनुमान अक्सर काफी अच्छा काम करता है; मैंने जिन मामलों की जाँच की है, वह आम तौर पर सामान्य सन्निकटन की तुलना में थोड़ा बेहतर है (लेकिन इसके लिए एक ठोस स्पर्शोन्मुख तर्क है जिसमें टी-सन्निकटन की कमी है)। [संपादित करें: मेरे स्वयं के चेक उन व्हीबर शो के समान अधिक-या-कम थे; Z और t के बीच का अंतर सांख्यिकीय से उनकी विसंगति से बहुत छोटा है]
Glen_b -Reinstate Monica

1
यह हो सकता है कि एक संभावित तर्क है (शायद उदाहरण के लिए एक श्रृंखला विस्तार की प्रारंभिक शर्तों पर आधारित) जो यह स्थापित कर सकता है कि टी लगभग हमेशा बेहतर होने की उम्मीद की जानी चाहिए, या शायद यह कुछ विशिष्ट परिस्थितियों में बेहतर होना चाहिए, लेकिन मैं इस तरह का कोई तर्क नहीं देखा है। व्यक्तिगत रूप से मैं आम तौर पर z से चिपका रहता हूं लेकिन मुझे चिंता नहीं है कि कोई टी का उपयोग करता है।
Glen_b -Reinstate मोनिका

जवाबों:


20

मानक नॉर्मल और स्टूडेंट टी डिस्ट्रीब्यूशन दोनों के वितरण के बजाय खराब अनुमान हैं

Z=p^pp^(1p^)/n

छोटे n, इतना गरीब कि त्रुटि इन दो वितरणों के बीच के अंतर को बौना कर देती है।

यहाँ तीनों वितरण (मामलों में जहां छोड़ते हुए की तुलना है पी या 1 - पी शून्य है, जहां अनुपात अपरिभाषित है) के लिए n = 10 , पी = 1 / 2 :p^1p^n=10,p=1/2:

आकृति 1

"अनुभवजन्य" वितरण है कि Z, जो असतत होना चाहिए, क्योंकि अनुमान पी परिमित सेट तक ही सीमित हैं { 0 , 1 / n , 2 / n , ... , n / n } p^{0,1/n,2/n,,n/n}.

t वितरण सन्निकटन का एक बेहतर काम करने के लिए प्रकट होता है।

के लिए n=30 और p=1/2, आप देख सकते हैं मानक सामान्य और छात्र टी वितरण के बीच अंतर को पूरी तरह से नगण्य है:

चित्र 2

क्योंकि छात्र t वितरण मानक सामान्य से अधिक जटिल है (यह वास्तव में "स्वतंत्रता की डिग्री," पूर्व में एक ही पृष्ठ के बजाय तालिकाओं के पूरे अध्याय की आवश्यकता वाले अनुक्रमित वितरण का एक पूरा परिवार है), मानक सामान्य का उपयोग लगभग सभी के लिए किया जाता है अनुमानों।


2
गुणवत्ता का जवाब। +1
डेमेट्री पैनानोस

10

एक मतलब के लिए विश्वास अंतराल में टी वितरण का उपयोग कर के लिए औचित्य धारणा है कि अंतर्निहित डेटा एक सामान्य वितरण, एक ची-वर्ग वितरण के लिए जो सुराग जब मानक विचलन का आकलन है, और इस प्रकार पर निर्भर करता है इस प्रकार x¯μs/ntn1। यह इस धारणा के तहत एक सटीक परिणाम है कि डेटा बिल्कुल सामान्य है जो किtका उपयोग करते समय बिल्कुल 95% कवरेज के साथ आत्मविश्वास अंतराल की ओर जाता है, और यदिzका उपयोग करते हुए 95% से कम कवरेज है।

अनुपात के लिए वाल्ड अंतराल के मामले में, आप केवल के लिए asymptotic सामान्य मिल पी - पीp^pp^(1p^)/nजब n बड़ा पर्याप्त है, जो पी पर निर्भर करता है। प्रक्रिया की वास्तविक कवरेज संभावना, चूंकि सफलताओं के अंतर्निहित मायने असतत हैं, कभी-कभी नीचे और कभी-कभी अज्ञातpआधार पर 95% की नाममात्र कवरेज संभावना से ऊपर होता है। इसलिए,tका उपयोग करने का कोई सैद्धांतिक औचित्य नहींहै, और इस बात की कोई गारंटी नहीं है कि व्यावहारिक दृष्टिकोण से जोकेवल अंतराल को व्यापक बनाने के लिएtका उपयोग कर रहाहै, वास्तव में 95% के नाममात्र कवरेज को प्राप्त करने में मदद करेगा।

कवरेज संभावना की गणना ठीक से की जा सकती है, हालांकि इसे अनुकरण करने के लिए यह बिल्कुल सीधा है। निम्न उदाहरण n = 35 होने पर सिम्युलेटेड कवरेज संभावना को दर्शाता है। यह दर्शाता है कि z- अंतराल का उपयोग करने के लिए कवरेज संभावना आमतौर पर .95 की तुलना में थोड़ी छोटी है, जबकि टी-अंतराल के लिए कवरेज संभावना आमतौर पर पी के प्रशंसनीय मूल्यों पर आपके पूर्व विश्वासों के आधार पर .95 के करीब औसतन कम हो सकती है। ।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें


3
+1 विद्यार्थी टी और नॉर्मल सीआई की सापेक्षिक सटीकता के बारे में मेरे द्वारा किए गए दावों के उत्कृष्ट चित्रण हैं (केवल सीडीएफ के रेखांकन का निरीक्षण, कठोर प्रदर्शनों के आधार पर)।
whuber

6

एडमो और जेएससी दोनों एक शानदार जवाब देते हैं।

मैं सादे अंग्रेजी के साथ उनकी बातों को दोहराने की कोशिश करूंगा:

जब अंतर्निहित वितरण सामान्य है, तो आप जानते हैं कि दो पैरामीटर हैं: माध्य और विचरण । टी वितरण भिन्नताओं के सटीक मूल्य को जाने बिना मतलब पर अनुमान लगाने का एक तरीका प्रदान करता है। वास्तविक संस्करण का उपयोग करने के बजाय, केवल नमूना साधन और नमूना संस्करण की आवश्यकता होती है। क्योंकि यह एक सटीक वितरण है, आप ठीक-ठीक जानते हैं कि आपको क्या मिल रहा है। दूसरे शब्दों में, कवरेज संभावना सही है। टी का उपयोग केवल अज्ञात पॉपुलुलेशन विचरण के आसपास प्राप्त करने की इच्छा को दर्शाता है।

जब हम अनुपात पर अनुमान लगाते हैं, तब भी, अंतर्निहित वितरण द्विपद है। सटीक वितरण प्राप्त करने के लिए, आपको क्लोपर-पियर्सन आत्मविश्वास अंतराल को देखने की जरूरत है। आपके द्वारा प्रदान किया जाने वाला सूत्र वाल्ड विश्वास अंतराल के लिए सूत्र है। यह द्विपद वितरण को अनुमानित करने के लिए सामान्य वितरण का उपयोग करता है , क्योंकि सामान्य वितरण द्विपद वितरण का सीमित वितरण है। इस मामले में, क्योंकि आप केवल अनुमान लगा रहे हैं, टी आंकड़ों का उपयोग करने से सटीकता का अतिरिक्त स्तर अनावश्यक हो जाता है, यह सभी अनुभवजन्य प्रदर्शन के लिए नीचे आता है। जैसा कि ब्रूस के उत्तर में सुझाव दिया गया है, एगेस्टी-कूप इस तरह के सन्निकटन के लिए आजकल सरल और मानक सूत्र है।

टेक्सास ए एंड एम के मेरे प्रोफेसर डॉ। लॉन्गनेकर ने यह बताने के लिए एक सरल अनुकरण किया है कि द्विपद आधारित सीआई की तुलना में विभिन्न सन्निकटन कैसे काम करते हैं।

अनुपात के लिए विभिन्न 95% सीआई की तुलना

अधिक जानकारी सांख्यिकीय विज्ञान , खंड में एक द्विपद अनुपात के लिए अंतराल अनुमान के लेख में पाया जा सकता है । 16, पीपी.101-133, एल। ब्राउन, टी। काई और ए। दासगुप्ता द्वारा। मूल रूप से, AC CI को n> = 40 के लिए अनुशंसित किया जाता है।

यहाँ छवि विवरण दर्ज करें


3

X1,X2,XnμσH0:μ=μ0Ha:μμ0Z=X¯μ0σ/n.H0ZNorm(0,1),H0|Z|1.96.

μμ0μ.X¯±1.96σ/n,±1.96

σS,T=X¯μ0S/n.TnSσ.

TT(ν=n1),n1σX¯±tS/n,±tT(n1).

n>30,t21.96.Sσσn>30,

Xnp^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,ZaprxNorm(0,1).H0|Z|1.96.

p,p^±1.96p(1p)n.pn,p^p.p^±1.96p^(1p^)n.n

nˇ=n+4pˇ=(X+2)/nˇpˇ±1.96pˇ(1pˇ)nˇ.

μp

Sσσ

p^pp^p.pn.


2

σ

σ

σ

σ

इसके अलावा, यह ध्यान दिया जाना चाहिए कि इस सवाल का जवाब दर्पण से मांगा इस सवाल का


2
के तहत प्रकाशित छद्म नाम "स्टूडेंट" नहीं "स्टूडेंट-टी" था। वह वास्तव में स्वयं मानक टी-वितरण के साथ नहीं आया था, और न ही वह सांख्यिकीय था जिसे उसने वास्तव में टी-स्टेटिस्टिक के साथ निपटाया था (वह समकक्ष चीजें करता था, अनिवार्य रूप से स्केल किए गए टी के साथ काम करता है, लेकिन लगभग सभी औपचारिकताएं जो अब हमारे पास आती हैं। फिशर के काम से)। फिशर ने जिस तरह से हम इसे लिखते हैं वैसा ही लिखा। फिशर ने इसे टी कहा। फिशर ने औपचारिक रूप से आँकड़ों के वितरण का
पता लगाया

1
यहाँ देखें गॉसेट का 1908 का पेपर: आर्काइव.ऑर्ग / डीटेल्स / नीमेट्रिका619081909pear/page/ n13 - यहाँ लाटेक्स में पेपर रीडोन का एक अच्छा पठनीय पीडीएफ भी है । ध्यान दें कि यह कॉपीराइट से बाहर है क्योंकि यह स्टीमबोट विली से कुछ साल पहले आता है ।
Glen_b -Reinstate मोनिका

@Glen_b धन्यवाद! मैंने इतिहास में स्पष्ट रूप से गलत उपाख्यानों को हटा दिया।
एडम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.