मुख्य विचार यह है कि माध्यिका का नमूना वितरण वितरण समारोह के संदर्भ में व्यक्त करना सरल है, लेकिन मंझला मूल्य के संदर्भ में व्यक्त करने के लिए अधिक जटिल है। एक बार जब हम समझते हैं कि वितरण फ़ंक्शन मानों को संभावनाओं के रूप में फिर से कैसे व्यक्त कर सकता है और फिर से, मध्यिका के सटीक नमूना वितरण को प्राप्त करना आसान है । इसके मध्यिका के पास वितरण फ़ंक्शन के व्यवहार का थोड़ा विश्लेषण यह दिखाने के लिए आवश्यक है कि यह एसिम्पोटिक रूप से सामान्य है।
(एक ही विश्लेषण किसी भी मात्रात्मक के नमूना वितरण के लिए काम करता है, न कि केवल माध्यिका के लिए।)
मैं इस प्रदर्शनी में कठोर होने का कोई प्रयास नहीं करूंगा, लेकिन मैं इसे उन चरणों में पूरा करता हूं जो यदि आप करने के लिए मन रखते हैं तो कठोर तरीके से उचित रूप से उचित हैं।
सहज बोध
ये एक गर्म परमाणु गैस के 70 परमाणुओं वाले बॉक्स के स्नैपशॉट हैं:
प्रत्येक छवि में मुझे एक स्थान मिला है, जिसे एक लाल ऊर्ध्वाधर रेखा के रूप में दिखाया गया है, जो परमाणुओं को दो समान समूहों में बाईं (काली डॉट्स के रूप में खींचा) और दाएं (सफेद डॉट्स) के बीच विभाजित करता है। यह पदों का एक मध्य बिंदु है: परमाणुओं में से 35 इसके बाईं ओर और 35 इसके दाईं ओर स्थित हैं। मध्यस्थ बदल जाते हैं क्योंकि परमाणु बॉक्स के चारों ओर बेतरतीब ढंग से घूम रहे हैं।
हम इस मध्य स्थिति के वितरण में रुचि रखते हैं। इस तरह के सवाल का जवाब मेरी प्रक्रिया को उलट कर दिया जाता है: चलो पहले कहीं एक ऊर्ध्वाधर रेखा खींचते हैं, स्थान पर कहते हैं । क्या मौका है कि आधा परमाणु के बायीं ओर और आधा उसके दाईं ओर होगा? बाईं ओर के परमाणुओं में व्यक्तिगत रूप से के बाईं ओर होने की संभावना थी । व्यक्तिगत रूप से दाईं ओर के परमाणुओं में दाईं ओर होने की संभावना थी । मान लें कि उनकी स्थिति सांख्यिकीय रूप से स्वतंत्र है, तो इस विशेष कॉन्फ़िगरेशन की संभावना के लिए , को देते हुए, संभावनाएं बढ़ जाती हैं । परमाणुओं के दो में एक अलग विभाजन के लिए एक समान विन्यास प्राप्त किया जा सकता हैx x 1 - x x 35 ( 1 - x ) 35 70 35xxx1−xx35(1−x)357035-सेमेंट के टुकड़े। इस तरह के सभी विभाजन के लिए इन संख्याओं को जोड़ना एक मौका देता है
Pr(x is a median)=Cxn/2(1−x)n/2
जहां परमाणुओं की कुल संख्या है और के विभाजन की संख्या के लिए आनुपातिक है दो बराबर उपसमूहों में परमाणुओं।nCn
यह सूत्र माध्यिका को बीटा वितरण के(n/2+1,n/2+1) रूप में पहचानता है ।
अब अधिक जटिल आकार वाले एक बॉक्स पर विचार करें:
एक बार फिर से मंझले अलग-अलग होते हैं। क्योंकि बॉक्स केंद्र के पास कम है, इसलिए वहां इसकी मात्रा अधिक नहीं है: परमाणुओं के बाएं आधे हिस्से में व्याप्त मात्रा में एक छोटा सा परिवर्तन (एक बार फिर से काला) - या, हम भी मान सकते हैं, इन आंकड़ों में दिखाए गए अनुसार बाईं ओर का क्षेत्र - मध्यिका की क्षैतिज स्थिति में अपेक्षाकृत बड़े बदलाव से मेल खाता है । वास्तव में, क्योंकि बॉक्स के एक छोटे से क्षैतिज खंड द्वारा घटाया गया क्षेत्र वहां की ऊंचाई के समानुपाती होता है, मध्यिका में परिवर्तन को बॉक्स की ऊंचाई से विभाजित किया जाता है। यह वर्ग बॉक्स की तुलना में इस बॉक्स के लिए माध्यिका को अधिक परिवर्तनशील बनाता है, क्योंकि यह बीच में बहुत कम है।
संक्षेप में, जब हम क्षेत्र (बाएं और दाएं) के मामले में माध्यिका की स्थिति को मापते हैं , तो मूल विश्लेषण (एक वर्ग बॉक्स के लिए) अपरिवर्तित रहता है। बॉक्स का आकार केवल वितरण को जटिल बनाता है यदि हम मध्यिका को उसकी क्षैतिज स्थिति के संदर्भ में मापने पर जोर देते हैं। जब हम ऐसा करते हैं, तो क्षेत्र और स्थिति प्रतिनिधित्व के बीच संबंध बॉक्स की ऊंचाई के विपरीत आनुपातिक होता है।
इन चित्रों से सीखने के लिए और भी बहुत कुछ है। यह स्पष्ट है कि जब कुछ परमाणु (या तो) बॉक्स में होते हैं, तो इस बात की अधिक संभावना होती है कि उनमें से आधे गलती से किसी भी तरफ दूर तक हवा के झोंके को रोक सकते हैं। जैसे ही परमाणुओं की संख्या बढ़ती है, इस तरह के चरम असंतुलन की संभावना कम हो जाती है। इसे ट्रैक करने के लिए, मैंने "फिल्में" लीं - 5000 फ्रेम की एक लंबी श्रृंखला - से भरे हुए घुमावदार बॉक्स के लिए , फिर साथ , फिर और अंत में परमाणुओं के साथ , और ध्यान दिया। यहाँ मध्यम पदों के हिस्टोग्राम हैं:31575375
स्पष्ट रूप से, पर्याप्त रूप से बड़ी संख्या में परमाणुओं के लिए, उनकी औसत स्थिति का वितरण घंटी के आकार का दिखना शुरू होता है और संकरा होता है: जो एक केंद्रीय सीमा प्रमेय परिणाम जैसा दिखता है, है ना?
मात्रात्मक परिणाम
"बॉक्स", निश्चित रूप से कुछ वितरण की संभावना घनत्व को दर्शाता है: इसका शीर्ष घनत्व फ़ंक्शन (पीडीएफ) का ग्राफ है। इस प्रकार क्षेत्र संभावनाओं का प्रतिनिधित्व करते हैं। बिंदुओं को यादृच्छिक रूप से और स्वतंत्र रूप से एक बॉक्स के भीतर रखना और उनकी क्षैतिज स्थिति का अवलोकन करना वितरण से नमूना खींचने का एक तरीका है। (यह अस्वीकृति नमूने के पीछे का विचार है । )n
अगला आंकड़ा इन विचारों को जोड़ता है।
यह जटिल दिखता है, लेकिन यह वास्तव में काफी सरल है। यहां चार संबंधित भूखंड हैं:
शीर्ष साजिश आकार में से एक नमूने के तौर पर साथ साथ एक वितरण की पीडीएफ से पता चलता । माध्यिका से अधिक मान को सफेद बिंदुओं के रूप में दिखाया गया है; ब्लैक डॉट्स के रूप में माध्यिका से कम मूल्य। इसे ऊर्ध्वाधर स्तर की आवश्यकता नहीं है क्योंकि हम जानते हैं कि कुल क्षेत्रफल एकता है।n
मध्य प्लॉट समान वितरण के लिए संचयी वितरण फ़ंक्शन है: यह प्रायिकता को दर्शाने के लिए ऊंचाई का उपयोग करता है। यह पहली साजिश के साथ अपनी क्षैतिज अक्ष साझा करता है। इसका ऊर्ध्वाधर अक्ष से तक जाना चाहिए क्योंकि यह संभावनाओं का प्रतिनिधित्व करता है।01
बाएं प्लॉट को बग़ल में पढ़ने के लिए माना जाता है: यह बीटा का पीडीएफ है वितरण। यह दिखाता है कि बॉक्स में माध्य कैसे अलग-अलग होगा, जब मध्य के बाईं और दाईं ओर के क्षेत्रों के संदर्भ में माध्यिका को मापा जाता है (बजाय इसके क्षैतिज स्थिति से मापा जाता है)। मैंने इस पीडीएफ से यादृच्छिक अंक निकाले हैं , जैसा कि दिखाया गया है, और उन्हें मूल सीडीएफ पर संबंधित स्थानों के लिए क्षैतिज धराशायी लाइनों के साथ जोड़ा गया है: यह है कि कैसे वॉल्यूम (बाईं ओर मापा जाता है) पदों में बदल जाते हैं (शीर्ष, केंद्र में मापा जाता है) , और नीचे ग्राफिक्स)। इन बिंदुओं में से एक वास्तव में शीर्ष भूखंड में दिखाए गए मंझला से मेल खाती है; मैंने यह दिखाने के लिए एक ठोस ऊर्ध्वाधर रेखा खींची है।(n/2+1,n/2+1)16
नीचे का भूखंड मध्यिका का नमूना घनत्व है, जैसा कि इसकी क्षैतिज स्थिति से मापा जाता है। यह क्षेत्र (बाएं भूखंड में) को स्थिति में परिवर्तित करके प्राप्त किया जाता है। रूपांतरण सूत्र मूल CDF के विलोम द्वारा दिया गया है: यह उलटा CDF की परिभाषा है! (दूसरे शब्दों में, सीडीएफ स्थिति को बाईं ओर के क्षेत्र में परिवर्तित करता है; उलटा सीडीएफ क्षेत्र में स्थिति से वापस परिवर्तित हो जाता है।) मैंने ऊर्ध्वाधर धराशायी रेखाओं को दर्शाया है कि कैसे बाएं भूखंड से यादृच्छिक बिंदु नीचे के भूखंड में यादृच्छिक बिंदुओं में परिवर्तित हो जाते हैं। । पढ़ने और फिर नीचे जाने की यह प्रक्रिया हमें बताती है कि क्षेत्र से स्थिति तक कैसे जाना है।
चलो मूल वितरण के CDF (मध्य साजिश) और हो बीटा वितरण के CDF। मौका खोजने के लिए कि माध्य किसी स्थिति के बाईं ओर स्थित है , पहले बॉक्स में के बाईं ओर क्षेत्र प्राप्त करने के लिए का उपयोग करें : यह स्वयं है। बाईं ओर स्थित बीटा वितरण हमें मौका है कि आधे परमाणुओं, इस खंड के भीतर झूठ होगा देने के लिए कहता है इस मंझला की CDF है: स्थिति । इसका पीडीएफ खोजने के लिए (जैसा कि नीचे के प्लॉट में दिखाया गया है), व्युत्पन्न लें:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
जहां पीडीएफ (शीर्ष प्लॉट) है और बीटा पीडीएफ (बाएं प्लॉट) है।fg
यह किसी भी निरंतर वितरण के लिए माध्यिका के वितरण का एक सटीक सूत्र है । (व्याख्या में कुछ देखभाल के साथ इसे किसी भी वितरण पर लागू किया जा सकता है, चाहे वह निरंतर हो या न हो।)
विषम परिणाम
जब बहुत बड़ा होता है और उसके माध्यिका पर कोई छलांग नहीं होती है, तो नमूना माध्य को वितरण के असली माध्य के आसपास अलग-अलग होना चाहिए । यह भी मानते हैं कि पीडीएफ निरंतर पास है , पूर्ववर्ती सूत्र में अपने मान से बहुत अधिक नहीं बदलेगा जिसे द्वारा दिया गया है इसके अलावा, अपने मूल्य से बहुत अधिक नहीं बदलेगा: या तो पहले के लिए,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
इस प्रकार, रूप में एक सुधरते हुए सन्निकटन के साथ बड़ा होता जाता है,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
यह केवल बीटा वितरण के स्थान और पैमाने की एक पारी है। द्वारा rescaling अपने विचरण को से विभाजित करेगा (जो कि बेहतर रूप से नॉनजरो था!)। संयोग से, बीटा का विचरण बहुत करीब है ।f(μ)f(μ)2(n/2+1,n/2+1)n/4
इस विश्लेषण को डेल्टा पद्धति के अनुप्रयोग के रूप में देखा जा सकता है ।
अंत में, बीटा बड़े लिए लगभग सामान्य है । इसे देखने के कई तरीके हैं; संभवत: सबसे सरल इसकी PDF के लघुगणक को पास देखना है :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(स्थिरांक और केवल एकता के लिए कुल क्षेत्र को सामान्य करते हैं।) में तीसरे क्रम के माध्यम से फिर, यह साथ सामान्य पीडीएफ के लॉग के समान है (यह तर्क पीडीएफ के लॉग के बजाय विशेषता या सहवर्ती उत्पन्न करने वाले कार्यों का उपयोग करके कठोर बनाया गया है।)CC′x,1/(4n).
इसे पूरी तरह से बताते हुए, हम यह निष्कर्ष निकालते हैं
नमूना माध्यिका के वितरण में विचरण लगभग ,1/(4nf(μ)2)
और यह बड़े लिए लगभग सामान्य है ,n
सभी प्रदान की पीडीएफ निरंतर और nonzero है माध्यिकाfμ.