नमूने का नमूना वितरण का मतलब जनसंख्या का अनुमानित मतलब कैसे है?

16

मैं आँकड़ों को सीखने की कोशिश कर रहा हूँ क्योंकि मुझे लगता है कि यह इतना प्रचलित है कि यह मुझे कुछ चीजें सीखने से रोकता है अगर मैं इसे ठीक से नहीं समझता। नमूना साधनों के नमूने वितरण की इस धारणा को समझने में मुझे परेशानी हो रही है। मैं समझ नहीं पा रहा हूं कि कुछ किताबों और साइटों ने इसे कैसे समझाया है। मुझे लगता है कि मेरी समझ है लेकिन अगर सही है तो मैं अनिश्चित हूं। नीचे इसे समझने का मेरा प्रयास है।

जब हम सामान्य वितरण पर कुछ घटना के बारे में बात करते हैं, तो यह आबादी के संबंध में आम तौर पर (हमेशा नहीं) होता है।

हम कुछ आबादी के बारे में कुछ सामान की भविष्यवाणी करने के लिए हीनतापूर्ण आंकड़ों का उपयोग करना चाहते हैं, लेकिन सभी डेटा नहीं है। हम यादृच्छिक नमूने का उपयोग करते हैं और आकार n के प्रत्येक नमूने का चयन करने की संभावना के समान है।

इसलिए हम बहुत सारे नमूने लेते हैं, 100 बताते हैं और फिर उन नमूनों के साधनों का वितरण केंद्रीय सीमा प्रमेय के अनुसार लगभग सामान्य होगा। नमूना साधन का मतलब जनसंख्या का मतलब लगभग होगा।

अब जो मुझे समझ नहीं आ रहा है वह बहुत बार आप "100 लोगों का एक नमूना ..." देखते हैं, क्या हमें मतलब की आबादी का अनुमान लगाने के लिए 100 लोगों के 10 या 100 के नमूने की आवश्यकता नहीं होगी? या क्या यह मामला है कि हम एक ऐसा नमूना ले सकते हैं जो पर्याप्त बड़ा हो, 1000 कहे और फिर यह कहे कि क्या इसका मतलब आबादी का मतलब होगा? या क्या हम 1000 लोगों का एक नमूना लेते हैं और फिर उस मूल 1000 लोगों में से प्रत्येक नमूने में 100 लोगों के 100 यादृच्छिक नमूने लेते हैं और फिर हमारे सन्निकटन के रूप में उपयोग करते हैं?

क्या माध्य (लगभग) हमेशा काम करने के लिए एक बड़ा पर्याप्त नमूना लिया जाता है? क्या काम करने के लिए जनसंख्या भी सामान्य होनी चाहिए?

— मर्ज़ सॉर्ट
स्रोत

9

मुझे लगता है कि आप एक माध्य (जो हम एक एकल नमूने के आधार पर गणना करेंगे) के अनुमानित नमूने वितरण को भ्रमित कर रहे होंगे (आमतौर पर काल्पनिक) प्रक्रिया के साथ अनुकरण करने की प्रक्रिया क्या होगी यदि हम एक ही आबादी से कई बार बार-बार नमूना लेते हैं।

किसी भी दिए गए नमूना आकार (यहां तक कि n = 2) के लिए हम कहेंगे कि नमूना का मतलब (दो लोगों से) जनसंख्या का मतलब है। लेकिन अनुमान की सटीकता - अर्थात, हमने अपने नमूना डेटा के आधार पर जनसंख्या माध्य का अनुमान लगाने में कितना अच्छा काम किया है, जैसा कि माध्य की मानक त्रुटि में परिलक्षित होता है - यदि हम 20 या 200 की तुलना में गरीब होंगे हमारे नमूने में लोग। यह अपेक्षाकृत सहज है (बड़े नमूने बेहतर अनुमान सटीकता देते हैं)।

फिर हम एक आत्मविश्वास अंतराल की गणना करने के लिए मानक त्रुटि का उपयोग करेंगे, जो (इस मामले में) सामान्य वितरण के आसपास आधारित है (हम शायद छोटे नमूनों में टी-वितरण का उपयोग करेंगे क्योंकि आबादी के मानक विचलन को अक्सर कम करके आंका जाता है छोटा सा नमूना, जो अत्यधिक आशावादी मानक त्रुटियों के लिए अग्रणी है।)

आपके अंतिम प्रश्न के उत्तर में, नहीं, हमें इन अनुमान विधियों को लागू करने के लिए हमेशा एक सामान्य रूप से वितरित जनसंख्या की आवश्यकता नहीं है - केंद्रीय सीमा प्रमेय इंगित करता है कि किसी माध्य (अनुमानित, फिर से, एक एकल नमूने से) का नमूना वितरण होगा। सामान्य जनसंख्या के गैर-सामान्य वितरण होने पर भी सामान्य वितरण का पालन करें। यह आमतौर पर "बड़ा" नमूना आकारों के लिए उपयुक्त है।

यह कहने के बाद कि, जब आपके पास एक गैर-सामान्य आबादी है जिससे आप नमूना ले रहे हैं, तो इसका मतलब एक उपयुक्त सारांश आँकड़ा नहीं हो सकता है, भले ही उस अर्थ के लिए नमूना वितरण विश्वसनीय माना जा सकता है।

— जेम्स स्टेनली
स्रोत

तो क्या मैं अनिवार्य रूप से सिर्फ इस सैद्धांतिक को समझने पर लटका हुआ हूं कि इस सामान में से कुछ कैसे काम करता है? क्या असली दिलचस्प बात यहाँ आत्मविश्वास अंतराल है? दूसरे शब्दों में, यदि मैं अमेरिका का अध्ययन कहना चाहता हूं कि अमेरिका में औसत वयस्क कितने घंटे सोते हैं, और मैं 5,000 का नमूना लेता हूं और मेरा आत्मविश्वास अंतराल 99.9% है, औसत 6.46 और 6.54 के बीच है तो मैं जा सकता हूं आगे और मेरे अध्ययन को "आत्मविश्वास से" कहते हुए प्रकाशित करें कि अमेरिका में वयस्क का औसत 6.5 घंटे है?

— मर्जर्ट

2

जहां आपने कहा: " " विश्वासपूर्वक "यह कहना कि अमेरिका में वयस्क का औसत 6.5 घंटे रहता है "। खैर, नहीं, आप काफी आश्वस्त हो सकते हैं कि यह वास्तव में औसतन 6.5 घंटे नहीं है । आप केवल आश्वस्त रह सकते हैं कि यह 6.5 घंटे के करीब है, या आप आश्वस्त हो सकते हैं कि यह 'निकटतम 5 मिनट के लिए 6.5 घंटे', या कुछ ऐसे हैं। केवल श्रेणियों में उनके साथ कुछ आत्मविश्वास स्तर जुड़ा होगा।

— Glen_b -Reinstate मोनिका

1

@ गलेन_ बी मामले के दिल में उतर जाता है - हम यह कभी नहीं कह सकते कि हम आश्वस्त हैं कि हमने जनसंख्या मूल्य का बिल्कुल सही अनुमान लगाया है, बल्कि यह कि हमारी अनुमान प्रक्रिया की सटीकता के बारे में हमें कुछ पता है।

— जेम्स स्टैनली

@angrymonkey मुझे लगता है कि दोहराया (नमूना) दोहराया-नमूना दृष्टिकोण से अंतर्निहित अवधारणाओं को प्राप्त करना अभी भी उपयोगी है। इसके अलावा, अनुमान लगाने के लिए कि किसी को "विशाल" नमूना आकारों की आवश्यकता नहीं है sample std deviation / square root(n)- एक मतलब की मानक त्रुटि के लिए सूत्र है - n भाग का वर्गमूल हमें बताता है कि हम नमूना आकार के रूप में निश्चित वेतन वृद्धि के लिए अनुमान सटीकता पर कम रिटर्न प्राप्त करते हैं। बड़ा हो जाता है (उदाहरण के लिए एक नमूने में 10 से 20 लोगों को ले जाना 210 से 220 लोगों की तुलना में अधिक होने से अनुमान सटीकता में सुधार करता है।)

— जेम्स स्टेनली

महान ... मदद के लिए बहुत बहुत धन्यवाद। इसलिए एक सीआई हमें यह कहने की अनुमति देता है कि क्या मैं 95% हूं कि औसत व्यक्ति एक रात में 6.45 और 6.56 घंटे सोता है? तो फिर कुछ लेख ये निश्चित दावे क्यों करते हैं जैसे औसत व्यक्ति दिन में 4.5 घंटे टीवी देखता है? निश्चित रूप से विश्वास अंतराल 95% 4.43 और 4.56 की तरह है

— मध्याह्न

10

$\sigma^2/n$ $n$ $n$
यदि आप कई स्वतंत्र नमूने लेते हैं, तो प्रत्येक नमूने का मतलब सामान्य होगा, और साधनों का मतलब सामान्य होगा, और सही अर्थ के लिए प्रवृत्त होगा।
यदि आपके नमूने वास्तव में समान वितरण (उदाहरण के लिए 10 प्रत्येक के 100 नमूने) से हैं, तो आप उसी तरह के अनुमान लगाएंगे जैसे कि आपने 1000 का एक बड़ा नमूना लिया था। (लेकिन वास्तविक दुनिया में, अलग-अलग नमूने संभवतः उन तरीकों से भिन्न होते हैं जिनमें से एक नजरअंदाज नहीं कर सकते, "यादृच्छिक ब्लॉक डिजाइन" देखें।)
$n$
यदि आप 10 में से प्रत्येक के 100 नमूने लेते हैं, तो नमूना साधन का एक वितरण होगा जो मूल डेटा की तुलना में अधिक सामान्य है, लेकिन समग्र औसत के वितरण से कम सामान्य है।
एक बड़ा नमूना लेना भी आपको सामान्यता के करीब ले जाएगा।
यदि आप जनसंख्या का अनुमान लगाना चाहते हैं, तो इससे कोई फर्क नहीं पड़ता है (सिद्धांत रूप में) यदि आप १००० या १०० के १० नमूनों का बड़ा नमूना लेते हैं।
लेकिन व्यवहार में, नमूना सिद्धांत लोग क्लस्टरिंग, स्तरीकरण और अन्य मुद्दों के कारणों के लिए नमूना विभाजित कर सकते हैं। वे तब नमूना योजना लेते हैं जब उनका अनुमान लगाते हैं। लेकिन यह वास्तव में एक और सवाल के लिए मायने रखता है।

— Placidia
स्रोत

अधिकांश पाठ्यपुस्तकों में, वे नमूने के नमूने के वितरण की इस धारणा के माध्यम से आपको ले जाते हैं। यह संक्षेप में आपको बताता है, "हे लुक, यदि आप बहुत सारे नमूने लेते हैं, तो यह सामान्य हो जाता है, और आबादी का मतलब अनुमानित होगा"। फिर वे आपको बताते हैं कि यदि आप बड़े पर्याप्त नमूने लेते हैं, तो आप केवल एक ही ले सकते हैं। क्या नमूना का नमूना वितरण का मतलब यह माना जाता है कि आप एक बड़ा नमूना ले सकते हैं? दूसरे शब्दों में, इसे समझने का उद्देश्य क्या है? यह सिर्फ एक बड़ा नमूना लेने के पीछे अंतर्ज्ञान को समझने में आपकी मदद करने के लिए है? थियो के नमूने के विचार को नजरअंदाज करना

— मर्ज

मुझे लगता है कि @ "जेम्स स्टेनली" बहुत अच्छा जवाब देता है। किसी भी वास्तविक जीवन के मामले में, आप एक नमूना लेते हैं, नमूना माध्य की गणना करते हैं, और यह आपका अनुमान है।

— प्लासीडिया

1

माध्य का नमूना वितरण किसी दिए गए आकार के सभी नमूनों का वितरण है। सैंपल डिस्ट का मतलब जनसंख्या के माध्य के बराबर है। जब हम किसी दिए गए आकार के नमूनों के लिए माध्य नमूने के बारे में बात करते हैं, तो हम एक नमूने या एक हजार नमूनों के बारे में नहीं बल्कि सभी नमूनों के बारे में बात करते हैं।

— एलन मोसर
स्रोत

0

माध्य से परेशान नमूने का विश्वास अंतराल से कोई लेना-देना नहीं है। यह एक और अवधारणा है। नमूने की गड़बड़ी के लिए जनसंख्या सामान्य हो सकती है या सामान्य नहीं हो सकती है) यदि पॉप सामान्य है, तो नमूने के लिए एसपीएम मध्य का आकार सामान्य होगा। b) यदि पॉप सामान्य नहीं है तो 1) माध्य CANNOT का सैंपल डिस्टर्ब नॉर्मल माना जाएगा, जब तक कि सैंपल साइज 30 या उससे अधिक न हो। तब केंद्रीय सीमा प्रमेय हमें बताता है कि नमूने की गड़बड़ी को सामान्य माना जा सकता है।

आप भविष्यवाणी करने की बात करते हैं। भविष्यवाणी का इससे कोई लेना-देना नहीं है। आप samp dist में बहुत ज्यादा इंसर्ट कर रहे हैं। Samp dist केवल सभी नमूने हैं और फिर माध्य लिया जाता है। और इन सभी नमूनों का मतलब है, म्यू सब एक्स बार, जनसंख्या का मतलब, एमयू और मानक देव ओ डी नमूना नमूना जिला, सिग्मा सब एक्स बार = सिग्मा एन के वर्गमूल द्वारा विभाजित। (हम परिमित पॉप सुधार कारक के बारे में बात नहीं करेंगे। अंकित मूल्य के लिए अपनी स्टेट लें। एक अवधारणा में बहुत अधिक न पढ़ें। मुट्ठी बुनियादी अवधारणा को समझती है।

PS मतलब के samp dist में ab ro जनसंपर्क नहीं है

— एलन मोसर
स्रोत

मुझे आश्चर्य है कि अगर इस उत्तर को दूसरे उत्तर के रूप में दर्ज करने के बजाय w / आपके 1 उत्तर को जोड़ा जा सकता है। हम आम तौर पर पसंद करते हैं कि आपके पास प्रति धागा 1 उत्तर है। (हालांकि, कुछ अपवाद हैं।) आप किसी मौजूदा उत्तर में सामग्री जोड़ सकते हैं, या नीचे के बाईं ओर ग्रे "एडिट" पर क्लिक करके बदलाव कर सकते हैं।

— गूँग - मोनिका

0

मैं बड़ी डेटा समस्याओं के बारे में सोच रहा हूं, और आज सुबह इनमें से कुछ पोस्ट देख रहा हूं। मुझे नहीं लगता कि यह एक तुच्छ समस्या है, 100 के 10 सेटों के विश्लेषण की तुलना में एक सेट के रूप में 1000 डेटा का विश्लेषण करने के बीच अंतर को फिर से करें। सिद्धांत रूप में , यदि शून्य परिकल्पना सच है कि डेटा आईआईडी है, तो यह नहीं बनाता है अंतर। हालांकि, डेटा में क्लस्टरिंग और पैटर्न को बिल्कुल भी संबोधित नहीं किया जाता है अगर कोई केवल 1000 डेटा का मतलब लेता है और अनुमानित औसत और संबंधित मानक त्रुटि को उद्धृत करता है।

स्टैकएक्सचेंज और विकिपीडिया पर कुछ पृष्ठों को देखकर जो निष्कर्ष आया है, वह यह है कि बड़ा डेटा स्पष्ट रूप से देखा जा सकता है। यदि समग्र रूप से जनसंख्या में कोई दिलचस्प विशेषताएं हैं, तो एक बड़ा डेटा सेट उन्हें दिन के रूप में स्पष्ट दिखाएगा। इसलिए अगर मेरे पास एक बहुत बड़ा डेटासेट था, जिसे मैं नेत्रहीन रूप से देख सकता था, तो मैं पहले स्पष्ट विशेषताओं की तलाश किए बिना संक्षिप्त सारांश उपाय नहीं करूंगा। सांख्यिकीय अनुमान में अपने शुरुआती पाठों से मुझे पहले पास के रूप में डेटा के ग्राफ़ और विज़ुअलाइज़ेशन को देखना सिखाया गया है। मैं उस पर जोर नहीं दे सकता। अगर स्क्रीन पर देखने के लिए मानव के लिए डेटासेट बहुत बड़ा है, तो इसे एक संकल्प से उप-नमूना होना चाहिए जो मानव-पठनीय है।

— ओलिविया ग्रिग
स्रोत

कृपया अपनी पोस्ट पर हस्ताक्षर न करें - यह वही है जो आपके पोस्ट के नीचे दाईं ओर उपयोगकर्ता नाम है।

— Glen_b -Reinstate मोनिका