नमूना मध्यस्थों के लिए केंद्रीय सीमा प्रमेय


54

यदि मैं समान वितरण से प्राप्त पर्याप्त संख्या में टिप्पणियों के मध्यिका की गणना करता हूं, तो क्या केंद्रीय सीमा प्रमेय बताती है कि मध्यस्थों का वितरण सामान्य वितरण को अनुमानित करेगा? मेरी समझ यह है कि यह बड़ी संख्या में नमूनों के माध्यम से सच है, लेकिन क्या यह भी मध्यस्थों के साथ सच है?

यदि नहीं, तो नमूना माध्यकों का अंतर्निहित वितरण क्या है?


9
आपको कुछ नियमितता शर्तों की आवश्यकता है ताकि सीमा में फेरबदल के तहत मंझला एक सामान्य वितरण होगा। यह देखने के लिए कि क्या गलत हो सकता है, बिंदुओं की एक सीमित संख्या पर किसी भी वितरण पर विचार करें, कहते हैं, वर्दी । X{1,0,1}
कार्डिनल

5
नियमितता की शर्तों के बारे में: यदि अंतर्निहित वितरण में घनत्व है जो (सच्चे) मध्य में भिन्न है, तो नमूना मध्य में एक विवर्तनिक सामान्य वितरण होगा, जो कि विचलन पर निर्भर करता है। यह आम तौर पर मनमानी मात्रा के लिए अधिक रखती है।
कार्डिनल

6
@कार्डिनल मेरा मानना ​​है कि आपको अतिरिक्त परिस्थितियों की आवश्यकता है: जब घनत्व दूसरा भिन्न होता है, मध्यमा पर शून्य के बराबर होता है, और वहां शून्य पहले व्युत्पन्न होता है, तो नमूना माध्यिका के असममित वितरण द्विदिश होगा।
whuber

4
@ वाउचर: हाँ, क्योंकि घनत्व (इसके व्युत्पन्न नहीं जैसा कि मैंने अनजाने में पहले कहा था) एक पारस्परिक रूप से विचरण में प्रवेश करता है, उस बिंदु पर घनत्व का मूल्य शून्य नहीं होना चाहिए। उस शर्त को छोड़ने के लिए माफी!
कार्डिनल

4
प्राथमिक जवाबी किसी भी वितरण कि की संभावना प्रदान करती है का उपयोग कर बनाया जा सकता है एक अंतराल के लिए और संभावना करने के लिए जहां जैसे एक बर्नौली ( )। नमूना माध्यिकाओं से कम या उसके बराबर होगा के रूप में अक्सर के रूप में वे बराबर या उससे अधिक के लिए कर रहे । संभावना है कि मंझला में नहीं है दृष्टिकोण बड़े नमूनों के लिए, प्रभावी रूप से एक "अंतर" में छोड़ने1/2(,μ]1/2[μ+δ,)δ>0,(1/2)μ=0,δ=1μμ+δ(μ,μ+δ)0(μ,μ+δ)सीमित वितरण में - जो स्पष्ट रूप से तब गैर-सामान्य होगा, चाहे वह मानकीकृत क्यों न हो।
whuber

जवाबों:


38

यदि आप संकेतक चर (यानी यदि और अन्यथा) के संदर्भ में काम करते हैं , तो आप सीधे केंद्रीय सीमा प्रमेय को माध्य में लागू कर सकते हैं , और Delta पद्धति का उपयोग करके , इसे एक में बदल सकते हैं लिए एसिम्प्टोटिक सामान्य वितरण , जिसका अर्थ है कि आपको निश्चित मात्रा के लिए एसिम्प्टोटिक सामान्यता मिलती है ।Zi=1Xix0Zएफ - 1 एक्स ( ˉ जेड ) एक्सFX1(Z¯)X

तो न केवल माध्यिका, बल्कि चतुर्थक, 90 वाँ प्रतिशत, ... आदि।

पर्याप्त रूप से , यदि हम पर्याप्त रूप से बड़े नमूनों में वें नमूने की मात्रा के बारे में बात कर रहे हैं, तो हमें पता चलता है कि इसका लगभग एक सामान्य वितरण होगा, जिसका अर्थ है कि जनसंख्या जनसंख्या और भिन्नता ।qqxqq(1q)/(nfX(xq)2)

इसलिए माध्यिका ( ) के लिए, पर्याप्त रूप से बड़े नमूनों में विचरण लगभग ।q=1/21/(4nfX(μ~)2)

आपको रास्ते में सभी परिस्थितियों की आवश्यकता है, ज़ाहिर है, इसलिए यह सभी स्थितियों में काम नहीं करता है, लेकिन निरंतर वितरण के लिए जहां जनसंख्या परिमाण में घनत्व सकारात्मक और भिन्न है, आदि, ...

इसके अलावा, यह चरम मात्राओं के लिए पकड़ नहीं रखता है, क्योंकि CLT वहां किक नहीं करता है (Z का औसत स्पर्शोन्मुख सामान्य नहीं होगा)। आपको चरम मूल्यों के लिए अलग सिद्धांत की आवश्यकता है।


संपादित करें: व्हीबर की समालोचना सही है; यह तब काम करेगा जब एक नमूना माध्यिका के बजाय एक जनसंख्या माध्यिका थी। तर्क को वास्तव में ठीक से काम करने के लिए संशोधित करने की आवश्यकता है।x


5
मुझे लगता है कि इस स्पष्टीकरण का एक तार्किक टुकड़ा गायब हो सकता है: नमूना मध्यस्थों को प्राप्त करने के लिए एक संकेतक का उपयोग वास्तव में कैसे करता है ? मैं देख सकते हैं कि जब है अंतर्निहित मंझला, सूचक काम करेगा: लेकिन इस सूचक है नहीं नमूना मंझला या इसके किसी भी समारोह के साथ मेल खाना। एक्स मैंएक्सxXix
whuber

आप लिए एसिम्प्टोटिक सामान्य वितरण से एक्स के निर्धारित मात्रा के लिए एसिम्प्टोटिक सामान्यता कैसे प्राप्त करते हैं? संपादित करें: मुझे यह समझ में आया, कि एक प्रतिशत मूल्य 0-100% हो जाता है, इस प्रकार मात्रात्मक मूल्य सामान्य रूप से सामान्य हैं¯ जेडFX1(Z¯)Z¯
adam

48

मुख्य विचार यह है कि माध्यिका का नमूना वितरण वितरण समारोह के संदर्भ में व्यक्त करना सरल है, लेकिन मंझला मूल्य के संदर्भ में व्यक्त करने के लिए अधिक जटिल है। एक बार जब हम समझते हैं कि वितरण फ़ंक्शन मानों को संभावनाओं के रूप में फिर से कैसे व्यक्त कर सकता है और फिर से, मध्यिका के सटीक नमूना वितरण को प्राप्त करना आसान है । इसके मध्यिका के पास वितरण फ़ंक्शन के व्यवहार का थोड़ा विश्लेषण यह दिखाने के लिए आवश्यक है कि यह एसिम्पोटिक रूप से सामान्य है।

(एक ही विश्लेषण किसी भी मात्रात्मक के नमूना वितरण के लिए काम करता है, न कि केवल माध्यिका के लिए।)

मैं इस प्रदर्शनी में कठोर होने का कोई प्रयास नहीं करूंगा, लेकिन मैं इसे उन चरणों में पूरा करता हूं जो यदि आप करने के लिए मन रखते हैं तो कठोर तरीके से उचित रूप से उचित हैं।


सहज बोध

ये एक गर्म परमाणु गैस के 70 परमाणुओं वाले बॉक्स के स्नैपशॉट हैं:

आकृति 1

प्रत्येक छवि में मुझे एक स्थान मिला है, जिसे एक लाल ऊर्ध्वाधर रेखा के रूप में दिखाया गया है, जो परमाणुओं को दो समान समूहों में बाईं (काली डॉट्स के रूप में खींचा) और दाएं (सफेद डॉट्स) के बीच विभाजित करता है। यह पदों का एक मध्य बिंदु है: परमाणुओं में से 35 इसके बाईं ओर और 35 इसके दाईं ओर स्थित हैं। मध्यस्थ बदल जाते हैं क्योंकि परमाणु बॉक्स के चारों ओर बेतरतीब ढंग से घूम रहे हैं।

हम इस मध्य स्थिति के वितरण में रुचि रखते हैं। इस तरह के सवाल का जवाब मेरी प्रक्रिया को उलट कर दिया जाता है: चलो पहले कहीं एक ऊर्ध्वाधर रेखा खींचते हैं, स्थान पर कहते हैं । क्या मौका है कि आधा परमाणु के बायीं ओर और आधा उसके दाईं ओर होगा? बाईं ओर के परमाणुओं में व्यक्तिगत रूप से के बाईं ओर होने की संभावना थी । व्यक्तिगत रूप से दाईं ओर के परमाणुओं में दाईं ओर होने की संभावना थी । मान लें कि उनकी स्थिति सांख्यिकीय रूप से स्वतंत्र है, तो इस विशेष कॉन्फ़िगरेशन की संभावना के लिए , को देते हुए, संभावनाएं बढ़ जाती हैं । परमाणुओं के दो में एक अलग विभाजन के लिए एक समान विन्यास प्राप्त किया जा सकता हैx x 1 - x x 35 ( 1 - x ) 35 70 35xxx1xx35(1x)357035-सेमेंट के टुकड़े। इस तरह के सभी विभाजन के लिए इन संख्याओं को जोड़ना एक मौका देता है

Pr(x is a median)=Cxn/2(1x)n/2

जहां परमाणुओं की कुल संख्या है और के विभाजन की संख्या के लिए आनुपातिक है दो बराबर उपसमूहों में परमाणुओं।nCn

यह सूत्र माध्यिका को बीटा वितरण के(n/2+1,n/2+1) रूप में पहचानता है ।

अब अधिक जटिल आकार वाले एक बॉक्स पर विचार करें:

चित्र 2

एक बार फिर से मंझले अलग-अलग होते हैं। क्योंकि बॉक्स केंद्र के पास कम है, इसलिए वहां इसकी मात्रा अधिक नहीं है: परमाणुओं के बाएं आधे हिस्से में व्याप्त मात्रा में एक छोटा सा परिवर्तन (एक बार फिर से काला) - या, हम भी मान सकते हैं, इन आंकड़ों में दिखाए गए अनुसार बाईं ओर का क्षेत्र - मध्यिका की क्षैतिज स्थिति में अपेक्षाकृत बड़े बदलाव से मेल खाता है । वास्तव में, क्योंकि बॉक्स के एक छोटे से क्षैतिज खंड द्वारा घटाया गया क्षेत्र वहां की ऊंचाई के समानुपाती होता है, मध्यिका में परिवर्तन को बॉक्स की ऊंचाई से विभाजित किया जाता है। यह वर्ग बॉक्स की तुलना में इस बॉक्स के लिए माध्यिका को अधिक परिवर्तनशील बनाता है, क्योंकि यह बीच में बहुत कम है।

संक्षेप में, जब हम क्षेत्र (बाएं और दाएं) के मामले में माध्यिका की स्थिति को मापते हैं , तो मूल विश्लेषण (एक वर्ग बॉक्स के लिए) अपरिवर्तित रहता है। बॉक्स का आकार केवल वितरण को जटिल बनाता है यदि हम मध्यिका को उसकी क्षैतिज स्थिति के संदर्भ में मापने पर जोर देते हैं। जब हम ऐसा करते हैं, तो क्षेत्र और स्थिति प्रतिनिधित्व के बीच संबंध बॉक्स की ऊंचाई के विपरीत आनुपातिक होता है।

इन चित्रों से सीखने के लिए और भी बहुत कुछ है। यह स्पष्ट है कि जब कुछ परमाणु (या तो) बॉक्स में होते हैं, तो इस बात की अधिक संभावना होती है कि उनमें से आधे गलती से किसी भी तरफ दूर तक हवा के झोंके को रोक सकते हैं। जैसे ही परमाणुओं की संख्या बढ़ती है, इस तरह के चरम असंतुलन की संभावना कम हो जाती है। इसे ट्रैक करने के लिए, मैंने "फिल्में" लीं - 5000 फ्रेम की एक लंबी श्रृंखला - से भरे हुए घुमावदार बॉक्स के लिए , फिर साथ , फिर और अंत में परमाणुओं के साथ , और ध्यान दिया। यहाँ मध्यम पदों के हिस्टोग्राम हैं:31575375

चित्र तीन

स्पष्ट रूप से, पर्याप्त रूप से बड़ी संख्या में परमाणुओं के लिए, उनकी औसत स्थिति का वितरण घंटी के आकार का दिखना शुरू होता है और संकरा होता है: जो एक केंद्रीय सीमा प्रमेय परिणाम जैसा दिखता है, है ना?


मात्रात्मक परिणाम

"बॉक्स", निश्चित रूप से कुछ वितरण की संभावना घनत्व को दर्शाता है: इसका शीर्ष घनत्व फ़ंक्शन (पीडीएफ) का ग्राफ है। इस प्रकार क्षेत्र संभावनाओं का प्रतिनिधित्व करते हैं। बिंदुओं को यादृच्छिक रूप से और स्वतंत्र रूप से एक बॉक्स के भीतर रखना और उनकी क्षैतिज स्थिति का अवलोकन करना वितरण से नमूना खींचने का एक तरीका है। (यह अस्वीकृति नमूने के पीछे का विचार है )n

अगला आंकड़ा इन विचारों को जोड़ता है।

चित्र 4

यह जटिल दिखता है, लेकिन यह वास्तव में काफी सरल है। यहां चार संबंधित भूखंड हैं:

  1. शीर्ष साजिश आकार में से एक नमूने के तौर पर साथ साथ एक वितरण की पीडीएफ से पता चलता । माध्यिका से अधिक मान को सफेद बिंदुओं के रूप में दिखाया गया है; ब्लैक डॉट्स के रूप में माध्यिका से कम मूल्य। इसे ऊर्ध्वाधर स्तर की आवश्यकता नहीं है क्योंकि हम जानते हैं कि कुल क्षेत्रफल एकता है।n

  2. मध्य प्लॉट समान वितरण के लिए संचयी वितरण फ़ंक्शन है: यह प्रायिकता को दर्शाने के लिए ऊंचाई का उपयोग करता है। यह पहली साजिश के साथ अपनी क्षैतिज अक्ष साझा करता है। इसका ऊर्ध्वाधर अक्ष से तक जाना चाहिए क्योंकि यह संभावनाओं का प्रतिनिधित्व करता है।01

  3. बाएं प्लॉट को बग़ल में पढ़ने के लिए माना जाता है: यह बीटा का पीडीएफ है वितरण। यह दिखाता है कि बॉक्स में माध्य कैसे अलग-अलग होगा, जब मध्य के बाईं और दाईं ओर के क्षेत्रों के संदर्भ में माध्यिका को मापा जाता है (बजाय इसके क्षैतिज स्थिति से मापा जाता है)। मैंने इस पीडीएफ से यादृच्छिक अंक निकाले हैं , जैसा कि दिखाया गया है, और उन्हें मूल सीडीएफ पर संबंधित स्थानों के लिए क्षैतिज धराशायी लाइनों के साथ जोड़ा गया है: यह है कि कैसे वॉल्यूम (बाईं ओर मापा जाता है) पदों में बदल जाते हैं (शीर्ष, केंद्र में मापा जाता है) , और नीचे ग्राफिक्स)। इन बिंदुओं में से एक वास्तव में शीर्ष भूखंड में दिखाए गए मंझला से मेल खाती है; मैंने यह दिखाने के लिए एक ठोस ऊर्ध्वाधर रेखा खींची है।(n/2+1,n/2+1)16

  4. नीचे का भूखंड मध्यिका का नमूना घनत्व है, जैसा कि इसकी क्षैतिज स्थिति से मापा जाता है। यह क्षेत्र (बाएं भूखंड में) को स्थिति में परिवर्तित करके प्राप्त किया जाता है। रूपांतरण सूत्र मूल CDF के विलोम द्वारा दिया गया है: यह उलटा CDF की परिभाषा है! (दूसरे शब्दों में, सीडीएफ स्थिति को बाईं ओर के क्षेत्र में परिवर्तित करता है; उलटा सीडीएफ क्षेत्र में स्थिति से वापस परिवर्तित हो जाता है।) मैंने ऊर्ध्वाधर धराशायी रेखाओं को दर्शाया है कि कैसे बाएं भूखंड से यादृच्छिक बिंदु नीचे के भूखंड में यादृच्छिक बिंदुओं में परिवर्तित हो जाते हैं। । पढ़ने और फिर नीचे जाने की यह प्रक्रिया हमें बताती है कि क्षेत्र से स्थिति तक कैसे जाना है।

चलो मूल वितरण के CDF (मध्य साजिश) और हो बीटा वितरण के CDF। मौका खोजने के लिए कि माध्य किसी स्थिति के बाईं ओर स्थित है , पहले बॉक्स में के बाईं ओर क्षेत्र प्राप्त करने के लिए का उपयोग करें : यह स्वयं है। बाईं ओर स्थित बीटा वितरण हमें मौका है कि आधे परमाणुओं, इस खंड के भीतर झूठ होगा देने के लिए कहता है इस मंझला की CDF है: स्थिति । इसका पीडीएफ खोजने के लिए (जैसा कि नीचे के प्लॉट में दिखाया गया है), व्युत्पन्न लें:FGxFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

जहां पीडीएफ (शीर्ष प्लॉट) है और बीटा पीडीएफ (बाएं प्लॉट) है।fg

यह किसी भी निरंतर वितरण के लिए माध्यिका के वितरण का एक सटीक सूत्र है । (व्याख्या में कुछ देखभाल के साथ इसे किसी भी वितरण पर लागू किया जा सकता है, चाहे वह निरंतर हो या न हो।)


विषम परिणाम

जब बहुत बड़ा होता है और उसके माध्यिका पर कोई छलांग नहीं होती है, तो नमूना माध्य को वितरण के असली माध्य के आसपास अलग-अलग होना चाहिए । यह भी मानते हैं कि पीडीएफ निरंतर पास है , पूर्ववर्ती सूत्र में अपने मान से बहुत अधिक नहीं बदलेगा जिसे द्वारा दिया गया है इसके अलावा, अपने मूल्य से बहुत अधिक नहीं बदलेगा: या तो पहले के लिए,nFμfμ f(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

इस प्रकार, रूप में एक सुधरते हुए सन्निकटन के साथ बड़ा होता जाता है,n

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

यह केवल बीटा वितरण के स्थान और पैमाने की एक पारी है। द्वारा rescaling अपने विचरण को से विभाजित करेगा (जो कि बेहतर रूप से नॉनजरो था!)। संयोग से, बीटा का विचरण बहुत करीब है ।f(μ)f(μ)2(n/2+1,n/2+1)n/4

इस विश्लेषण को डेल्टा पद्धति के अनुप्रयोग के रूप में देखा जा सकता है ।

अंत में, बीटा बड़े लिए लगभग सामान्य है । इसे देखने के कई तरीके हैं; संभवत: सबसे सरल इसकी PDF के लघुगणक को पास देखना है :(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(स्थिरांक और केवल एकता के लिए कुल क्षेत्र को सामान्य करते हैं।) में तीसरे क्रम के माध्यम से फिर, यह साथ सामान्य पीडीएफ के लॉग के समान है (यह तर्क पीडीएफ के लॉग के बजाय विशेषता या सहवर्ती उत्पन्न करने वाले कार्यों का उपयोग करके कठोर बनाया गया है।)CCx,1/(4n).

इसे पूरी तरह से बताते हुए, हम यह निष्कर्ष निकालते हैं

  • नमूना माध्यिका के वितरण में विचरण लगभग ,1/(4nf(μ)2)

  • और यह बड़े लिए लगभग सामान्य है ,n

  • सभी प्रदान की पीडीएफ निरंतर और nonzero है माध्यिकाfμ.


मुझे वह 4 फिगर पसंद है। क्या आपने इसे R का उपयोग करके बनाया था?
एंग्रीस्टुडेंट

@Engr शायद मैं इसे की तरह एक में किए गए सकता है R, शायद का उपयोग कर layout, लेकिन वास्तव में यह साथ किया गया था मेथेमेटिका 9.
whuber

1
'टिस सौंदर्य की चीज।
EngrStudent

@whuber क्या यह बीटा (1,1) पूर्व के तहत बीटा (n / 2 + 1, n / 2 + 1) नहीं है? जैसे देखें ine.pt/revstat/pdf/rs080204.pdf
टिम

1
@ मुझे पहले संदर्भ की प्रासंगिकता समझ में नहीं आती है, लेकिन मैं आपको इस ओर इशारा करते हुए सराहना करता हूं कि "अंतर्ज्ञान" अनुभाग में पहचाने गए बीटा वितरण का सही नाम बीटा । मैं इसे ठीक करूँगा जहाँ भी यह होता है (जो चर्चा में कई स्थानों पर है)। (n/2+1,n/2+1)
whuber

18

@EngrStudent प्रबुद्ध उत्तर बताता है कि हमें वितरण के निरंतर होने पर अलग-अलग परिणामों की उम्मीद करनी चाहिए , और जब यह असतत है ("लाल" रेखांकन, जहां नमूना माध्यिका का स्पर्शोन्मुख वितरण सामान्य रूप से देखने में शानदार रूप से विफल रहता है, वितरण के अनुरूप है। द्विपद) (3), ज्यामितीय (11), हाइपरजोमेट्रिक (12), नकारात्मक द्विपद (14), पॉइसन (18), असतत वर्दी (22)।

और वास्तव में यह मामला है। जब वितरण असतत होता है, तो चीजें जटिल हो जाती हैं। मैं पूरी तरह से निरंतर मामले के लिए प्रमाण प्रदान करूंगा, अनिवार्य रूप से @Glen_b द्वारा पहले से दिए गए उत्तर का विवरण देने से ज्यादा कुछ नहीं कर रहा हूं, और फिर मैं थोड़ा चर्चा करूंगा कि क्या होता है जब वितरण असतत होता है, डाइविंग में रुचि रखने वाले किसी भी व्यक्ति के लिए हाल ही में संदर्भ प्रदान करना। में।

ABSOLUTELY वितरण वितरण कार्य फ़ंक्शन (cdf) और घनत्व फ़ंक्शन साथ
iid के पूर्ण रूप से निरंतर यादृच्छिक चर के संग्रह पर विचार करें । परिभाषित करें जहां सूचक कार्य है। इसलिए एक बर्नौली आरवी है, जिसमें {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

चलो इन आईआईडी Bernoullis का नमूना माध्य, फिक्स्ड के लिए परिभाषित किया के रूप में जिसका अर्थ है कि केंद्रीय सीमा प्रमेय लागू होता है और हमारे पास होता हैYn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

ध्यान दें कि अर्थात अनुभवजन्य वितरण फ़ंक्शन की तुलना में गैर। "डेल्टा विधि" को लागू करने से हमारे पास एक निरंतर और विभेदी फ़ंक्शन के लिए गैर-शून्य व्युत्पन्न के साथ ब्याज के बिंदु पर होता है, हम प्राप्त करते हैंYn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

अब, जहाँ व्युत्क्रम फ़ंक्शन को दर्शाता है। यह एक निरंतर और अलग-अलग फ़ंक्शन है (चूंकि है), और उलटा फ़ंक्शन प्रमेय हमारे पास हैg(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

इन परिणामों को में शामिल करने पर डेल्टा-विधि व्युत्पन्न असममित परिणाम हमारे पास हैg

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

और सरलीकरण,

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

.. किसी निश्चित । अब जनसंख्या का , (सही) माध्य सेट करें । फिर हमारे पास और उपरोक्त सामान्य परिणाम बन जाता है, हमारी रुचि के मामले के लिए,xx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

लेकिन नमूना माध्यिका परिवर्तित होता है । यह है क्योंकिFX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

असमानता का दाहिना हाथ और सबसे छोटा जिसके लिए अंततः होता है, नमूना माध्यिका है।1/2xFX1/2

तो हम प्राप्त करते हैं

n(m^m)dN(0,1[2fx(m)]2)
जो मध्य है बिल्कुल निरंतर वितरण के लिए नमूना मंझले के लिए प्रमेय को सीमित करें।

वितरण वितरण
जब वितरण असतत होता है (या जब नमूना में संबंध होते हैं) तो यह तर्क दिया गया है कि नमूना मात्राओं की "शास्त्रीय" परिभाषा, और इसलिए मंझला भी, सैद्धांतिक अवधारणा के रूप में पहले स्थान पर भ्रामक हो सकता है। यह मापने के लिए उपयोग किया जाता है कि क्वांटाइल्स द्वारा क्या मापने का प्रयास किया जाता है।
किसी भी मामले में यह अनुकरण किया गया है कि इस शास्त्रीय परिभाषा के तहत (जिसे हम सभी जानते हैं), नमूना माध्यिका का स्पर्शोन्मुख वितरण गैर-सामान्य है और एक असतत वितरण है।

नमूना मात्राओं की एक वैकल्पिक परिभाषा "मध्य-वितरण" फ़ंक्शन की अवधारणा का उपयोग करके है, जिसे रूप में परिभाषित किया गया है

Fmid(x)=P(Xx)12P(X=x)

मध्य वितरण समारोह की अवधारणा के माध्यम से नमूना मात्राओं की परिभाषा को एक सामान्यीकरण के रूप में देखा जा सकता है जो विशेष मामलों को निरंतर वितरण के रूप में कवर कर सकता है, लेकिन साथ ही, निरंतर-निरंतर भी नहीं।

असतत वितरण के मामले के लिए, अन्य परिणामों के बीच, यह पाया गया है कि इस अवधारणा के माध्यम से परिभाषित नमूना मंझला एक समान रूप से सामान्य वितरण है ... विस्तृत रूप विचरण।

इनमें से अधिकांश हाल के परिणाम हैं। संदर्भ Ma, Y., Genton, MG, & Parzen, E. (2011) है। असतत वितरण के नमूना मात्राओं के एसिम्प्टोटिक गुण। इंस्टीट्यूट ऑफ स्टेटिकल मैथमेटिक्स, 63 (2), 227-243 के इतिहास। , जहां कोई पुराने प्रासंगिक साहित्य पर चर्चा और लिंक पा सकता है।


2
(+1) लेख के लिए। यह एक उत्कृष्ट उत्तर है।
एलेक्स विलियम्स

क्या आप कृपया बता सकते हैं कि नमूना माध्यिका कैसे परिवर्तित होता है ? FX1(F^n(m))m^
कासा

मुझे पता है कि वितरण में, लेकिन मैं नहीं देख सकते हैं कि नमूना मंझला के बराबर होता हैF^n(m)FX(m)m^FX1(F^n(m))
कासा

1
@ कासा I ने मामले पर थोड़ा विस्तार किया।
एलेकोस पापाडोपोलस

मुझे इसे फिर से लाने के लिए खेद है: लेकिन सबसे छोटा जिसके लिए अंततः , , क्या जनसंख्या माध्यिका है, नमूना माध्यिका नहीं? xFX(x)1/2
कासा

10

हाँ यह है, और न केवल मध्यिका के लिए, बल्कि किसी भी नमूना मात्रा के लिए। टीएस फर्ग्यूसन, यूसीएलए (उनके पृष्ठ यहाँ है ) के एक प्रोफेसर द्वारा लिखित इस पत्र से नकल करते हुए , जो दिलचस्प अर्थ और नमूना मात्राओं के संयुक्त वितरण से संबंधित है, हमारे पास है:

चलो वितरण समारोह , घनत्व , माध्य और परिमित विचलन साथ iid हो । चलो और जाने निरूपित के मई के quantile , ताकि । मान लें कि घनत्व पर निरंतर और सकारात्मक है । चलो निरूपित नमूना वें quantile। फिरX1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

के लिए (मंझला), और आप माध्यिकाओं के लिए CLT है,p=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)

1
अच्छा लगा। यह ध्यान देने योग्य है कि नमूना माध्यिका का विचरण नमूना माध्य के लिए अनुमान लगाना उतना आसान नहीं है।
माइकल एम

@ एलेकोस - आपको इस प्रश्न के दो उत्तर कैसे मिले?
EngrStudent

1
@EngrStudent सिस्टम इसे अनुमति देता है, यह आपसे केवल यह सत्यापित करने के लिए कहता है कि आप वास्तव में दूसरा उत्तर जोड़ना चाहते हैं।
एलेकोस पापाडोपोलस

8

मुझे Glen_b द्वारा दिया गया विश्लेषणात्मक उत्तर पसंद है। यह एक अच्छा जवाब है।

इसके लिए चित्र चाहिए। मुझे चित्र पसंद हैं।

यहाँ प्रश्न के उत्तर में लोच के क्षेत्र हैं:

  • दुनिया में वितरण के बहुत सारे हैं। माइलेज अलग-अलग होने की संभावना है।
  • पर्याप्त के अलग-अलग अर्थ हैं। किसी सिद्धांत के प्रति-उदाहरण के लिए, कभी-कभी "पर्याप्त" मिलने के लिए एक एकल प्रति-उदाहरण की आवश्यकता होती है। द्विपद अनिश्चितता का उपयोग करते हुए कम दोष दर के प्रदर्शन के लिए सैकड़ों या हजारों नमूनों की आवश्यकता हो सकती है।

एक सामान्य मानक के लिए मैंने निम्नलिखित MatLab कोड का उपयोग किया:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

और मुझे आउटपुट के रूप में निम्नलिखित प्लॉट मिला:

यहाँ छवि विवरण दर्ज करें

तो ऐसा क्यों नहीं 22-या तो "बिल्ट-इन" वितरणों के लिए किया जाए, केवल प्रोब-प्लॉट्स (जहां सीधी रेखा का मतलब बहुत सामान्य-समान है) को छोड़कर?

यहाँ छवि विवरण दर्ज करें

और यहाँ इसके लिए स्रोत कोड है:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

जब मैं विश्लेषणात्मक प्रमाण देखता हूं तो मुझे लगता है कि "सिद्धांत रूप में वे सभी फिट हो सकते हैं" लेकिन जब मैं इसे आज़माता हूं तो मैं यह सोच सकता हूं कि "कई तरीके हैं जो इतने अच्छे से काम नहीं करते हैं, अक्सर असतत या अत्यधिक विवश होते हैं। मूल्यों "और यह मुझे पैसे को खर्च करने वाली किसी भी चीज के लिए सिद्धांत को लागू करने के बारे में अधिक सावधान रहना चाहता है।

सौभाग्य।


क्या मैं गलत हूं या वह वितरण जिसके लिए सामान्य रूप से वितरित नहीं किया गया है, असतत हैं?
सीएफ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.