मैं इस पोस्ट की लंबाई के लिए अग्रिम रूप से माफी माँगता हूँ: यह कुछ झिझक के साथ है जिसे मैंने इसे सार्वजनिक रूप से पूरा करने दिया, क्योंकि इसे पढ़ने में कुछ समय लगता है और निस्संदेह इसमें टाइपोग्राफिक त्रुटियां और एक्सपोज़ररी लैजेस हैं। लेकिन यहां यह उन लोगों के लिए है जो आकर्षक विषय में रुचि रखते हैं, इस उम्मीद में कि यह आपको स्वयं के जवाबों में आगे विस्तार के लिए CLT के कई हिस्सों में से एक या अधिक को पहचानने के लिए प्रोत्साहित करेगा।
सीएलटी को "समझाने" पर अधिकांश प्रयास चित्र या बस प्रतिबंध हैं जो यह कहते हैं कि यह सच है। वास्तव में मर्मज्ञ, सही स्पष्टीकरण के लिए बहुत सारी चीजों की व्याख्या करनी होगी।
इसे आगे देखने से पहले, आइए स्पष्ट करें कि सीएलटी क्या कहता है। जैसा कि आप सभी जानते हैं, ऐसे संस्करण हैं जो अपनी व्यापकता में भिन्न होते हैं। सामान्य संदर्भ यादृच्छिक चर का एक क्रम है, जो एक सामान्य संभाव्यता स्थान पर कुछ प्रकार के कार्य हैं। सहज ज्ञान युक्त स्पष्टीकरण के लिए, जो कठोर है, मुझे यह संभव लगता है कि एक अलग जगह के साथ एक संभाव्य स्थान के बारे में सोचना उपयोगी है। इससे कोई फर्क नहीं पड़ता कि वे वस्तुएं क्या हैं लेकिन मैं उन्हें "टिकट" कहूंगा। हम टिकटों को अच्छी तरह से मिलाकर और एक को खींचकर एक बॉक्स का एक "अवलोकन" करते हैं; वह टिकट अवलोकन का गठन करता है। बाद के विश्लेषण के लिए इसे रिकॉर्ड करने के बाद हम टिकट को बॉक्स में वापस कर देते हैं ताकि इसकी सामग्री अपरिवर्तित रहे। एक "यादृच्छिक चर" मूल रूप से प्रत्येक टिकट पर लिखा गया एक नंबर है।
1733 में, अब्राहम डी मोइवर ने एक एकल बॉक्स के मामले पर विचार किया जहां टिकटों पर संख्याएं केवल शून्य और अन्य ("बर्नौली परीक्षण") हैं, जिनमें से प्रत्येक संख्या में मौजूद हैं। वह बनाने की कल्पना की शारीरिक रूप से स्वतंत्र मूल्यों का एक अनुक्रम उपज टिप्पणियों, एक्स 1 , एक्स 2 , ... , एक्स एन , जो सभी के शून्य या एक कर रहे हैं। उन मानों का योग , y n = x 1 + x 2 + … + x nnx1,x2,…,xnyn=x1+x2+…+xn, यादृच्छिक है क्योंकि योग में शब्द हैं। इसलिए, यदि हम इस प्रक्रिया को कई बार दोहरा सकते हैं, तो विभिन्न रकम ( एन के माध्यम से से लेकर पूरे नंबर ) विभिन्न आवृत्तियों - कुल के अनुपात के साथ दिखाई देंगी। (नीचे हिस्टोग्राम देखें।)0n
अब कोई उम्मीद करेगा - और यह सच है - कि बहुत बड़े मूल्यों के लिए , सभी आवृत्तियां काफी छोटी होंगी। अगर हम इतनी बोल्ड (या मूर्ख) के रूप में "दो" एक सीमा ले "करने के लिए प्रयास करने के लिए या होना करने के लिए थे n करने के लिए जाना ∞ ", हम सही ढंग से निष्कर्ष निकालना होगा कि सभी आवृत्तियों को कम 0 । लेकिन अगर हम केवल आवृत्तियों का हिस्टोग्राम खींचते हैं , तो इस बात पर ध्यान दिए बिना कि इसकी कुल्हाड़ियों को कैसे लेबल किया जाता है, तो हम देखते हैं कि बड़े एन सभी के लिए हिस्टोग्राम समान दिखना शुरू होते हैं: कुछ अर्थों में, इन हिस्टोग्राम एक सीमा तक पहुंचते हैं , हालांकि फ्रीक्वेंसी खुद सभी शून्य पर जाते हैं।nn∞0n
ये हिस्टोग्राम कई बार प्राप्त करने की प्रक्रिया को दोहराते हैं । n शीर्षकों में "परीक्षणों की संख्या" है।ynn
यहाँ अंतर्दृष्टि पहले हिस्टोग्राम खींचने और बाद में अपनी कुल्हाड़ियों को लेबल करने के लिए है । बड़े हिस्टोग्राम के साथ n / 2 (क्षैतिज अक्ष पर) के आसपास केंद्रित मानों की एक बड़ी श्रृंखला शामिल होती है और मानों का एक छोटा अंतराल (ऊर्ध्वाधर अक्ष पर) होता है, क्योंकि व्यक्तिगत आवृत्तियां काफी छोटी हो जाती हैं। इस वक्र को साजिश रचने वाले क्षेत्र में रखने से हिस्टोग्राम के स्थानांतरण और पुनर्वसन दोनों की आवश्यकता होती है । इसका गणितीय विवरण यह है कि प्रत्येक n के लिए हम हिस्टोग्राम और कुछ स्केल वैल्यू s n की स्थिति के लिए कुछ केंद्रीय मान m n (जरूरी नहीं कि अद्वितीय हो!) चुन सकते हैं।nn/2nmnsn(जरूरी नहीं कि अद्वितीय हो!) इसे कुल्हाड़ियों के भीतर फिट करने के लिए। इसे से z n = ( y n - m n ) / s n में बदलकर गणितीय रूप से किया जा सकता है ।ynzn=(yn−mn)/sn
याद रखें कि हिस्टोग्राम इसके और क्षैतिज अक्ष के बीच के क्षेत्रों द्वारा आवृत्तियों का प्रतिनिधित्व करता है। इसलिए एन के बड़े मूल्यों के लिए इन हिस्टोग्राम की स्थिरता को क्षेत्र के संदर्भ में कहा जाना चाहिए। n इसलिए, आपके द्वारा पसंद किए गए मानों में से किसी भी अंतराल को चुनें, से b > a , के रूप में n बढ़ता है, z n के हिस्टोग्राम के हिस्से के क्षेत्र को ट्रैक करें जो कि अंतराल ( a , b ] को फैलाता है । CLT कई को सम्मिलित करता है। बातें:ab>anzn(a,b]
कोई फर्क नहीं पड़ता और ख कर रहे हैं,ab अगर हम चुनें दृश्यों और रों n उचित रूप से (एक तरीका है कि पर निर्भर नहीं करता में एक या बी , इस क्षेत्र वास्तव में एक सीमा के करीब पहुंचती के रूप में सभी) n बड़े हो जाता है।mnsnabn
सीक्वेंस और s n को इस तरह से चुना जा सकता है जो केवल n पर निर्भर करता है , बॉक्स में मानों का औसत और उन मूल्यों के प्रसार का कुछ माप है - लेकिन कुछ और नहीं - ताकि जो कुछ भी हो उसमें बॉक्स, सीमा हमेशा समान होती है। (यह सार्वभौमिकता अद्भुत है।)mnsnn
विशेष रूप से, सीमित क्षेत्र वक्र के तहत क्षेत्र है कि के बीचएकऔरख: इस है कि सार्वभौमिक सीमित हिस्टोग्राम के सूत्र है।y=exp(−z2/2)/2π−−√ab
सीएलटी का पहला सामान्यीकरण जोड़ता है,
जब बॉक्स में शून्य और लोगों के अलावा संख्याएं हो सकती हैं, तो ठीक उसी तरह निष्कर्ष निकलते हैं (बशर्ते कि बॉक्स में बहुत बड़ी या छोटी संख्याओं के अनुपात "बहुत महान नहीं हैं", एक मानदंड जो सटीक और सरल मात्रात्मक बयान है) ।
अगले सामान्यीकरण, और शायद सबसे आश्चर्यजनक एक, टिकटों के इस एकल बॉक्स को टिकटों के साथ अनिश्चित काल के लंबे सरणी के साथ बदल देता है। प्रत्येक बॉक्स में अलग-अलग अनुपात में इसके टिकट पर अलग-अलग नंबर हो सकते हैं। अवलोकन पहले बॉक्स से टिकट खींचकर बनाया गया है, एक्स 2 दूसरे बॉक्स से आता है, और इसी तरह।x1x2
वास्तव में एक ही निष्कर्ष रखता है बक्सों की सामग्री "बहुत अलग नहीं है" (वहाँ कई सटीक, लेकिन अलग-अलग, मात्रात्मक लक्षण हैं जो "बहुत अलग नहीं है" का अर्थ है; वे अक्षांश की एक आश्चर्यजनक राशि की अनुमति देते हैं)।
कम से कम, इन पाँच सिद्धांतों की व्याख्या करने की आवश्यकता है। अभी और है। सेटअप के कई पेचीदा पहलू सभी कथनों में निहित हैं। उदाहरण के लिए,
राशि के बारे में क्या खास है ? हमारे पास संख्या के अन्य गणितीय संयोजनों जैसे कि उनके उत्पाद या उनकी अधिकतम के लिए केंद्रीय सीमा प्रमेय क्यों नहीं है? (यह पता चलता है कि हम करते हैं, लेकिन वे बहुत सामान्य नहीं हैं और न ही उनके पास हमेशा ऐसा साफ, सरल निष्कर्ष होता है जब तक कि उन्हें CLT में कम नहीं किया जा सकता है।) और s n के अनुक्रम अद्वितीय नहीं हैं, लेकिन वे लगभग भावना अंततः वे की राशि की उम्मीद के अनुमान लगाने के लिए है में अद्वितीय n टिकट और मानक विचलन क्रमशः (जो, CLT के पहले दो बयानों में, के बराबर होती है योग, की √mnsnn ) बॉक्स का मानक विचलन)। n−−√
मानक विचलन मूल्यों के प्रसार का एक माप है, लेकिन यह किसी भी तरह से केवल एक ही नहीं है और न ही यह ऐतिहासिक या कई अनुप्रयोगों के लिए सबसे "प्राकृतिक" है। ( उदाहरण के लिए, बहुत से लोग माध्य से एक औसत निरपेक्ष विचलन जैसा कुछ चुनते हैं ।)
एसडी इतने आवश्यक तरीके से क्यों दिखाई देता है?
लिस्टिंग हिस्टोग्राम के फॉर्मूले पर विचार करें: जिसने इस तरह के फॉर्म को लेने की उम्मीद की होगी? यह संभावना घनत्व का लघुगणक एक द्विघात कार्य है। क्यों? क्या इसके लिए कुछ सहज या स्पष्ट, सम्मोहक स्पष्टीकरण है?
मैं स्वीकार करता हूं कि मैं उन उत्तरों की आपूर्ति के अंतिम लक्ष्य तक पहुंचने में असमर्थ हूं जो सहज और सरलता के लिए श्रीकांत के चुनौतीपूर्ण मानदंडों को पूरा करने के लिए पर्याप्त सरल हैं, लेकिन मैंने इस पृष्ठभूमि को इस उम्मीद में स्केच किया है कि दूसरों को कई अंतरालों में भरने के लिए प्रेरित किया जा सकता है। मुझे लगता है कि एक अच्छा प्रदर्शन अंततः कैसे के बीच मूल्यों की एक प्राथमिक विश्लेषण पर भरोसा करना होगा और β n = ख रों n + मीटर n योग बनाने में पैदा कर सकते एक्स 1 + x 2 + ... + x nαn=asn+mnβn=bsn+mnx1+x2+…+xn। CLT के सिंगल-बॉक्स संस्करण पर वापस जाना, एक सममित वितरण का मामला संभालना आसान है: इसका माध्य इसके माध्य के बराबर है, इसलिए 50% संभावना है कि बॉक्स के माध्य से कम होगा और 50% मौका वह x i उसके माध्य से अधिक होगा। इसके अलावा, जब n पर्याप्त रूप से बड़ा होता है, तो माध्य से सकारात्मक विचलन, माध्य में नकारात्मक विचलन के लिए क्षतिपूर्ति करना चाहिए। (इसके लिए कुछ सावधान औचित्य की आवश्यकता होती है, न कि केवल हाथ लहराते हुए।) इस प्रकार हमें मुख्य रूप से सकारात्मक और नकारात्मक विचलन की संख्या की गिनती के बारे में चिंतित होना चाहिए और केवल उनके आकारों के बारे में एक माध्यमिक चिंता है ।xixin (मेरे द्वारा यहां लिखी गई सभी चीजों में, यह CLT के काम करने के बारे में कुछ अंतर्ज्ञान प्रदान करने में सबसे उपयोगी हो सकता है। वास्तव में, सीएलटी के सामान्यीकरणों को अनिवार्य रूप से सच करने के लिए आवश्यक तकनीकी धारणाएं संभावना के विभिन्न तरीकों से अलग होती हैं। दुर्लभ विशाल विचलन पर्याप्त हिस्टोग्राम को उत्पन्न होने से रोकने के लिए संतुलन को परेशान करेंगे। "
यह कुछ हद तक दिखाता है, सीएलटी का पहला सामान्यीकरण वास्तव में ऐसी किसी भी चीज़ को उजागर नहीं करता है जो डी मोइवर के मूल बर्नौली परीक्षण संस्करण में नहीं थी।
इस बिंदु पर ऐसा लगता है कि इसके लिए कुछ भी नहीं है, लेकिन थोड़ा गणित करना है: हमें अलग-अलग तरीकों की संख्या की गणना करने की आवश्यकता है जिसमें औसत से सकारात्मक विचलन की संख्या किसी भी पूर्व निर्धारित मूल्य द्वारा नकारात्मक विचलन की संख्या से भिन्न हो सकती है , जहां जाहिर कश्मीर में से एक है - n , - एन + 2 , ... , n - 2 , एन । लेकिन क्योंकि ग़लती से छोटी त्रुटियां सीमा में गायब हो जाएंगी, हमें ठीक से गिनने की ज़रूरत नहीं है; हमें केवल गणना की आवश्यकता है। यह अंत करने के लिए यह जानने के लिए पर्याप्त हैkk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
equals n−k+1k
times the number of ways to get k−1 positive and n−k+1 negative values.
(यह एक पूरी तरह से प्राथमिक परिणाम है इसलिए मैं औचित्य लिखने के लिए परेशान नहीं करूंगा।) अब हम लगभग थोक हैं। अधिकतम आवृत्ति तब होती है जब संभव के रूप में n / 2 के करीब होता है (प्राथमिक भी)। आइए m = n / 2 लिखें । फिर, अधिकतम आवृत्ति के सापेक्ष, की आवृत्ति मीटर + j + 1 सकारात्मक विचलन ( जे ≥ 0 ) उत्पाद का अनुमान हैkn/2m=n/2m+j+1j≥0
m+1m+1mm+2⋯m−j+1m+j+1
=1−1/(m+1)1+1/(m+1)1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
डे मोइवर लिखने से 135 साल पहले, जॉन नेपियर ने गुणन को सरल बनाने के लिए लॉगरिथम का आविष्कार किया था, तो चलिए इसका लाभ उठाते हैं। सन्निकटन का उपयोग करना
log(1−x1+x)∼−2x,
हम पाते हैं कि सापेक्ष आवृत्ति का लॉग लगभग है
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
चूँकि संचयी त्रुटि समानुपाती है , इसलिए यह अच्छी तरह से काम करना चाहिए बशर्ते j 4 m 3 के सापेक्ष छोटा हो । जे के मूल्यों की तुलना में अधिक से अधिक रेंज शामिल है। (यह केवल of के आदेश पर जम्मू के लिए काम करने के लिए निहित हैj4/m3j4m3jj जो asymptotically तुलना में काफी छोटा हैमीटर 3 / 4 ।)m−−√m3/4
जाहिर है इस तरह के बहुत अधिक विश्लेषण सीएलटी में अन्य कथनों को सही ठहराने के लिए प्रस्तुत किए जाने चाहिए, लेकिन मैं समय, स्थान और ऊर्जा से बाहर चल रहा हूं और मैंने शायद 90% लोगों को खो दिया है जिन्होंने इसे वैसे भी पढ़ना शुरू कर दिया है। यह सरल सन्निकटन है, हालांकि, पता चलता है कि कैसे डी Moivre मूल रूप से संदिग्ध हो सकता है एक सार्वभौमिक सीमित वितरण होता है, कि अपनी लघुगणक द्विघात क्रिया है, और उचित पैमाने पहलू यह है कि के लिए आनुपातिक होना चाहिए √sn (क्योंकिजे2/मी=2जे2/n=2(जे/ √n−−√)। j2/m=2j2/n=2(j/n−−√)2 यह कल्पना करना मुश्किल है कि किसी तरह की गणितीय जानकारी और तर्क के बिना इस महत्वपूर्ण मात्रात्मक संबंध को कैसे समझाया जा सकता है; कुछ भी कम एक पूर्ण रहस्य को सीमित वक्र के सटीक आकार को छोड़ देगा।