केवल नमूना आकार, नमूना औसत और जनसंख्या औसत वाले छात्र के टी-टेस्ट को कैसे किया जाता है?


28

छात्र के -est को नमूना मानक विचलन आवश्यकता होती है । हालाँकि, मैं कैसे लिए गणना करता हूं जब केवल नमूना आकार और नमूना औसत ज्ञात होता है?टीरोंरों

उदाहरण के लिए, यदि नमूना आकार और नमूना औसत , तो मैं प्रत्येक मूल्यों के साथ समान नमूनों की सूची बनाने का प्रयास करूंगा । अपेक्षित रूप से, नमूना मानक विचलन । यह परीक्षण में एक विभाजन-दर-शून्य समस्या पैदा करेगा ।49112491120टी

अतिरिक्त डेटा:
ACME उत्तरी कारखाने के श्रमिकों की औसत आय । यह सूचना दी है कि ACME साउथ फैक्टरी में श्रमिकों के एक यादृच्छिक नमूने की वार्षिक आय । क्या यह अंतर सांख्यिकीय रूप से महत्वपूर्ण है?$20049$112

क्या मैं यह कहने में सही हूं कि जनसंख्या का मतलब ?$200


आप कौनसी समस्याएं हल करने की कोशिश कर रहे हैं? यदि आपने हमें अधिक बताया तो यह आपकी मदद करेगा।
pmgjones

ज़रूर। मैंने एक नमूना समस्या को जोड़ा।
किट

जवाबों:


32

यह कई हैरान कर सकते हैं, लेकिन इस समस्या को आप जरूरी अनुमान की जरूरत नहीं है हल करने के लिए रों । वास्तव में, आपको डेटा के प्रसार के बारे में कुछ भी जानने की आवश्यकता नहीं है (हालांकि यह उपयोगी होगा, निश्चित रूप से)। उदाहरण के लिए, 2001 के एक लेख में वाल, बोवेन और ट्वीडि ने वर्णन किया है कि कैसे एक एकल ड्रा के आधार पर किसी भी असमान वितरण के माध्यम के लिए एक महीन विश्वास अंतराल की खोज की जाए ।

वर्तमान मामले में, हमारे पास लगभग सामान्य वितरण (अर्थात्, 49 वेतन के साधारण यादृच्छिक नमूने के औसत का नमूना वितरण) से ड्रा के रूप में 112 का नमूना मतलब देखने के लिए कुछ आधार हैं। हम स्पष्ट रूप से मान रहे हैं कि कारखाने के श्रमिकों की एक बड़ी संख्या है और केंद्रीय वेतन प्रमेय को निष्क्रिय करने के लिए उनका वेतन वितरण इतना कम या बहुविध नहीं है। तब मतलब के लिए एक रूढ़िवादी 90% सीआई ऊपर की ओर फैली हुई है

112+5.84 |112|,

स्पष्ट रूप से 200 का वास्तविक अर्थ कवर करना। (वॉल एट अल फॉर्मूला 3 देखें ।) यहां उपलब्ध सीमित जानकारी और मान्यताओं को देखते हुए, इसलिए हम यह निष्कर्ष नहीं निकाल सकते कि 112 200 से "महत्वपूर्ण रूप से" भिन्न है।

संदर्भ: "एक आकार और दो के नमूने के साथ एक प्रभावी आत्मविश्वास अंतराल।" अमेरिकी सांख्यिकीविद्, मई 2001, वॉल्यूम। 55, नंबर 2: पीपी 102-105। ( pdf )


4
हाँ यही है! इसलिए यह अच्छी तरह से अध्ययन के लायक है: हमारे अंतर्ज्ञान के लिए चुनौतियां असाधारण रूप से शैक्षिक हैं। मैंने पहली बार कार्लोस रोड्रिगेज (SUNY अल्बानी) वेब पेज पर एक स्पष्ट पेपर से यह सीखा लेकिन मैं इसे आज सुबह नहीं पा सका: ऐसा प्रतीत होता है कि सर्वर डाउन है। Googling की कोशिश करें "बाद में कार्गोस रॉग्रिट्ज़ आँकड़े"। (उनके कागज पर माना जाता है omega.albany.edu/8008/confint.html , लेकिन यह एक पुराने यूआरएल हो सकता है।)
whuber

4
गजब का। मुझे नहीं पता था। संदर्भ के लिए धन्यवाद।
रोब हंडमैन

4
धन्यवाद - किसी भी मौका यह Rodriguez कागज आप के बारे में सोच रहा है? arxiv.org/abs/bayes-an/9504001
आर्स

2
यह भी खूब रही। हालाँकि, मैं उत्सुक हूं कि आपने फॉर्मूला (3) (जो एडेलमैन से आता है) लागू किया, जिसे वॉल एट अल ने "आवश्यक से अधिक व्यापक" के रूप में वर्णित किया। अनुच्छेद (3) का उल्लेख करने से ठीक पहले पैराग्राफ के अंत में वे 90% अंतराल के लिए 4.84 (बिल्कुल 1 से 5.84 छोटे) का उपयोग करते हैं, जो उनके समीकरण (4) से आता है। कोई शक नहीं कि मैंने कुछ याद किया।
Glen_b -Reinstate मोनिका

2
@Glen_b इसके विपरीत, सबसे अधिक संभावना है कि मैंने कुछ याद किया। मैं इस बात पर ध्यान दूंगा कि अगली बार मुझे इस पेपर की आवश्यकता है, लेकिन इस बीच स्थिरांक का अंतर यहां विश्लेषण को प्रभावित नहीं करता है।
whuber

13

यह एक छोटा सा सवाल है। 49 7. का एक सटीक वर्ग है। p <0.05 के दो-तरफा परीक्षण के लिए 48 DoF के साथ एक टी-वितरण का मूल्य बहुत लगभग 2 (2.01) है।

हम साधनों की समानता की अशक्त परिकल्पना को अस्वीकार करते हैं यदि | sample_mean - popn_mean | > 2 * StdError, अर्थात 200-112> 2 * SE इतना SE <44, अर्थात SD <7 * 44 = 308।

यह नकारात्मक मजदूरी के बिना 308 (या अधिक) के मानक विचलन के साथ 112 के औसत के साथ एक सामान्य वितरण प्राप्त करना असंभव होगा।

यह देखते हुए कि मजदूरी नीचे बंधी हुई है, वे तिरछी होने की संभावना है, इसलिए यह मान लेना कि लॉग-नॉर्मल डिस्ट्रीब्यूशन अधिक उपयुक्त होगा, लेकिन फिर भी टी टेस्ट पर p <0.05 से बचने के लिए अत्यधिक परिवर्तनीय मजदूरी की आवश्यकता होगी।


3

μ=0.999*112+0.001*88,112=200।49/1000<0.05नमूना का मतलब 112 होगा। वास्तव में, श्रमिकों / सीईओ के अनुपात और सीईओ के वेतन को समायोजित करके, हम इसे मनमाने ढंग से संभव नहीं कर सकते हैं कि 49 कर्मचारियों का एक नमूना सीईओ को आकर्षित करेगा, जबकि जनसंख्या का मतलब 200 है। और नमूना का मतलब 112 पर है। इस प्रकार, अंतर्निहित वितरण के बारे में कुछ धारणाएं बनाए बिना , आप जनसंख्या के मतलब के बारे में कोई अनुमान नहीं लगा सकते।


2
$

1
(१) अच्छी पकड़। (2), हाँ, मैं निश्चित परिणाम के लिए समस्या समाप्‍त रूप से विकृत कर सकता हूं, पोस्ट हॉक । मेरी गलती। हालाँकि, मुझे अब यकीन नहीं है कि ओपी परीक्षण करने की कोशिश कर रहा है। यदि वे जानते हैं कि जनसंख्या 200 है, तो वे इसका परीक्षण करने की कोशिश क्यों कर रहे हैं?
shabbychef

1
BTW, जाहिर है कि CEO का वेतन / कम से कम 400 का वेतन अनुपात अमेरिका में चरम नहीं माना जाता है। 800 थोड़ा विकृत है, हालांकि।
शब्बीशेफ

2

मुझे लगता है कि आप एक नमूना टी परीक्षण की बात कर रहे हैं। इसका लक्ष्य अपने नमूने के मतलब की तुलना काल्पनिक माध्यम से करना है। यह तब गणना करता है (अपनी जनसंख्या को मानते हुए गॉसियन है) एक पी मान है जो इस प्रश्न का उत्तर देता है: यदि जनसंख्या का मतलब वास्तव में काल्पनिक मूल्य था, तो नमूना को आकर्षित करने की संभावना कितनी कम होगी जिसका मतलब उस मूल्य (या आगे) से जितना दूर है आपने देखा? बेशक, उस प्रश्न का उत्तर नमूना आकार पर निर्भर करता है। लेकिन यह परिवर्तनशीलता पर भी निर्भर करता है। यदि आपके डेटा में बड़ी मात्रा में बिखराव है, तो वे व्यापक जनसंख्या साधनों के अनुरूप हैं। यदि आपका डेटा वास्तव में तंग है, तो वे जनसंख्या के छोटे साधनों के अनुरूप हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.