मुझे आधार से वंचित करके शुरू करते हैं। रॉबर्ट गीरी ने शायद इस मामले को तब खत्म नहीं किया जब उन्होंने कहा था (1947 में) " ... सामान्यता एक मिथक है; वहाँ कभी नहीं था, और कभी नहीं होगा, एक सामान्य वितरण। " -
सामान्य वितरण एक मॉडल है *, एक सन्निकटन जो कभी-कभी अधिक-या-कम उपयोगी होता है।
* (जिसके बारे में, जॉर्ज बॉक्स देखें , हालांकि मैं अपनी प्रोफाइल पर संस्करण पसंद करता हूं)।
कुछ घटनाएँ लगभग सामान्य होती हैं, जिनमें कोई बहुत बड़ा आश्चर्य नहीं हो सकता है, क्योंकि स्वतंत्र [या यहाँ तक कि बहुत दृढ़ता से सहसंबंधित प्रभाव] नहीं होना चाहिए, अगर उनमें से बहुत से और कोई भी एक विचरण नहीं है जो कि विचरण के मुकाबले काफी है। शेष राशि जो हम देख सकते हैं कि वितरण अधिक सामान्य दिख रहा है।
केंद्रीय सीमा प्रमेय (जो एक मानकीकृत नमूने के सामान्य वितरण के अभिसरण के बारे में है क्योंकि कुछ हल्के परिस्थितियों में अनंत तक जाता है) कम से कम यह सुझाव देता है कि हम उस सामान्यता की ओर एक प्रवृत्ति को पर्याप्त रूप से बड़े लेकिन परिमित नमूना आकारों के साथ देख सकते हैं।n
बेशक अगर मानकीकृत साधन लगभग सामान्य हैं, तो मानकीकृत रकम होगी; यह "कई प्रभावों के योग" का कारण है। इसलिए यदि भिन्नता में बहुत कम योगदान है, और वे अत्यधिक सहसंबद्ध नहीं हैं, तो आप इसे देख सकते हैं।
बेरी-एसेन प्रमेय हमें इसके बारे में एक बयान देता है (सामान्य वितरण की ओर अभिसरण) वास्तव में आईआईडी डेटा के लिए मानकीकृत नमूने के साथ हो रहा है (सीएलटी की तुलना में थोड़ा अधिक कठोर परिस्थितियों में, क्योंकि इसके लिए तीसरे पूर्ण क्षण के लिए आवश्यक है) साथ ही हमें यह बताता है कि यह कितनी तेजी से होता है। प्रमेय के बाद के संस्करण योग में गैर-पहचान वाले वितरित घटकों के साथ सौदा करते हैं , हालांकि सामान्यता से विचलन पर ऊपरी सीमाएं कम तंग हैं।
औपचारिक रूप से, कम अच्छे वितरण के साथ संकल्पों का व्यवहार हमें अतिरिक्त (यद्यपि निकटता से संबंधित) कारणों से संदेह करता है कि यह कई मामलों में परिमित नमूनों में एक निष्पक्ष सन्निकटन हो सकता है। कन्वर्ज़न एक "स्मियरिंग" ऑपरेटर के रूप में कार्य करता है जो कि कर्नेल के विभिन्न प्रकारों में कर्नेल घनत्व आकलन का उपयोग करने वाले लोगों से परिचित होगा; एक बार जब आप परिणाम को मानकीकृत करते हैं (इसलिए जब आप इस तरह के ऑपरेशन करते हैं तो हर बार वेरिएंट स्थिर रहता है), तेजी से सममित पहाड़ी आकृतियों की ओर एक प्रगति स्पष्ट होती है जैसा कि आप बार-बार चिकनी करते हैं (और अगर आप कर्नेल को हर बार बदलते हैं तो यह बहुत ज्यादा मायने नहीं रखता है)।
टेरी ताओ यहां केंद्रीय सीमा प्रमेय और बेरी-एसेन प्रमेय के संस्करणों की कुछ अच्छी चर्चा करते हैं , और जिस तरह से बेरी-एसेन के एक गैर-स्वतंत्र संस्करण के लिए एक दृष्टिकोण का उल्लेख करते हैं।
तो वहाँ स्थितियों का कम से कम एक वर्ग है जहाँ हम इसे देखने की उम्मीद कर सकते हैं, और यह सोचने के लिए औपचारिक कारण कि वास्तव में उन स्थितियों में क्या होगा। हालांकि, किसी भी अर्थ में कि "कई प्रभावों के योग" का परिणाम सामान्य होगा एक अनुमान है। कई मामलों में यह एक उचित अनुमान है (और अतिरिक्त मामलों में भले ही वितरण का अनुमान करीब नहीं है, कुछ प्रक्रियाएं जो मानती हैं कि सामान्यता विशेष रूप से व्यक्तिगत मूल्यों के वितरण के लिए संवेदनशील नहीं है, कम से कम बड़े नमूनों में है)।
कई अन्य परिस्थितियां हैं जहां प्रभाव "जोड़" नहीं है और वहां हम अन्य चीजों के होने की उम्मीद कर सकते हैं; उदाहरण के लिए, बहुत सारे वित्तीय डेटा प्रभाव में गुणक होते हैं (प्रभाव उदाहरण के लिए ब्याज और मुद्रास्फीति और विनिमय दरों की तरह प्रतिशत की मात्रा में स्थानांतरित होंगे)। वहाँ हम सामान्यता की उम्मीद नहीं करते हैं, लेकिन हम कभी-कभी लॉग पैमाने पर सामान्यता के लिए किसी न किसी सन्निकटन का निरीक्षण कर सकते हैं। अन्य स्थितियों में न तो उचित हो सकता है, न ही किसी भी तरह से। उदाहरण के लिए, अंतर-घटना समय आम तौर पर या तो सामान्यता या लॉग की सामान्यता से अच्छी तरह से अनुमान लगाने वाला नहीं है; यहाँ के लिए बहस करने के लिए कोई "रकम" और न ही "उत्पादों" का कोई प्रभाव नहीं है। कई अन्य घटनाएं हैं जो हम किसी विशेष परिस्थिति में एक विशेष प्रकार के "कानून" के लिए कुछ तर्क कर सकते हैं।