डेटा को सामान्य रूप से वितरित करने के कारण


19

कुछ प्रमेय क्या हैं जो समझा सकते हैं (यानी, उदारतापूर्वक) क्यों वास्तविक दुनिया के डेटा को सामान्य रूप से वितरित किए जाने की उम्मीद की जा सकती है?

वहाँ दो हैं जो मुझे पता है:

  1. केंद्रीय सीमा प्रमेय (निश्चित रूप से), जो हमें बताता है कि माध्य और विचरण के साथ कई स्वतंत्र यादृच्छिक चर का योग (यहां तक ​​कि जब वे पहचान नहीं वितरित होते हैं) सामान्य रूप से वितरित होने की ओर जाता है

  2. बता दें कि X और Y अलग-अलग सेंसिटिव आरवी के साथ लगातार चलते रहते हैं, जैसे कि उनका संयुक्त घनत्व केवल + पर निर्भर करता है । तब X और Y सामान्य हैं।x2y2

( mathexchange से क्रॉस-पोस्ट )

संपादित करें: स्पष्ट करने के लिए, मैं इस बारे में कोई दावा नहीं कर रहा हूं कि आम तौर पर वास्तविक विश्व डेटा कितना वितरित किया जाता है। मैं सिर्फ उन प्रमेयों के बारे में पूछ रहा हूं जो इस बात की जानकारी दे सकते हैं कि किस तरह की प्रक्रियाओं से सामान्य रूप से वितरित डेटा हो सकता है।


7
आप हमारे संबंधित दिलचस्प सामग्री आँकड़े.स्टैकएक्सचेंज . com / questions / 4364 पर देख सकते हैं । कुछ पाठकों के बीच संभावित भ्रम से बचने के लिए, मैं जोड़ना चाहूंगा (और मुझे उम्मीद है कि यह आपका इरादा था) कि आपके प्रश्न को पढ़ने के रूप में नहीं पढ़ा जाना चाहिए कि सभी या यहां तक ​​कि अधिकांश वास्तविक डेटासेट को सामान्य वितरण द्वारा पर्याप्त रूप से अनुमानित किया जा सकता है। बल्कि, कुछ मामलों में जब कुछ स्थितियां पकड़ में आती हैं, तो डेटा को समझने या व्याख्या करने के लिए संदर्भ के एक फ्रेम के रूप में एक सामान्य वितरण को नियोजित करना उपयोगी हो सकता है: तो वे स्थितियां क्या हो सकती हैं?
whuber

लिंक के लिए आपको धन्यवाद! और यह बिल्कुल सही है, स्पष्टीकरण के लिए धन्यवाद। मैं इसे मूल पोस्ट में संपादित करूंगा।
बेनामी

@ user43228, " निश्चित रूप से, अन्य वितरण के टन हैं जो वास्तविक दुनिया की समस्याओं में उत्पन्न होते हैं जो सामान्य रूप से सामान्य नहीं होते हैं। " askamathematician.com/2010/02/…
Pacerier

जवाबों:


17

असतत आरवी (पॉइज़न, बायोमियल, आदि) के कई सीमित वितरण लगभग सामान्य हैं। प्लिंको के बारे में सोचो। लगभग सभी उदाहरणों में जब अनुमानित सामान्यता होती है, सामान्यता केवल बड़े नमूनों के लिए होती है।

अधिकांश वास्तविक दुनिया के डेटा सामान्य रूप से वितरित नहीं होते हैं। माइक्रोसेरी (1989) के एक पेपर को " द यूनिकॉर्न, द नॉर्मल कर्व, और अन्य इंपॉर्टेबल क्रिएटर्स" कहा गया , जिसमें 440 बड़े पैमाने पर उपलब्धि और साइकोमेट्रिक उपायों की जांच की गई। उन्होंने पाया कि वितरण में बहुत परिवर्तनशीलता उनके क्षणों के लिए और न ही (लगभग) सामान्यता के लिए बहुत साक्ष्य हैं।

1977 में स्टीवन स्टिगलर द्वारा " डू रोबस्ट एस्टिमेटर्स वर्क विथ रियल डेटा " नामक एक पेपर में उन्होंने 18 वीं शताब्दी के प्रसिद्ध सूर्य से पृथ्वी से दूरी और प्रकाश की गति को मापने के 19 वें शताब्दी के प्रयासों को मापने के लिए किए गए 24 डेटा सेट का उपयोग किया। उन्होंने तालिका 3 में नमूना तिरछा और कुर्तोसिस की सूचना दी। डेटा भारी-पूंछ वाले हैं।

आंकड़ों में, हम सामान्यता को सामान्य मान लेते हैं क्योंकि यह अधिकतम संभावना (या किसी अन्य विधि) को सुविधाजनक बनाता है। हालांकि, ऊपर दिखाए गए दो पेपरों का क्या अर्थ है, यह धारणा अक्सर कठिन होती है। यही कारण है कि मजबूती के अध्ययन उपयोगी होते हैं।


2
इस पोस्ट के अधिकांश महान है, लेकिन परिचयात्मक पैराग्राफ मुझे परेशान करता है क्योंकि यह इतनी आसानी से गलत व्याख्या की जा सकती है। ऐसा कहना स्पष्ट प्रतीत होता है - बल्कि स्पष्ट रूप से - कि सामान्य तौर पर, एक "बड़ा नमूना" सामान्य रूप से वितरित किया जाएगा। आपकी बाद की टिप्पणियों के प्रकाश में, मुझे विश्वास नहीं होता कि आप वास्तव में ऐसा कहने के लिए थे।
whuber

मुझे अधिक स्पष्ट होना चाहिए था - मैं सुझाव नहीं दे रहा हूं कि अधिकांश वास्तविक दुनिया डेटा सामान्य रूप से वितरित किया जाता है। लेकिन यह एक बड़ा मुद्दा है। और मैं मान रहा हूं कि आपके कहने का मतलब यह है कि बड़े एन के साथ द्विपद वितरण सामान्य है, और बड़े मतलब के साथ पॉसों का वितरण सामान्य है। अन्य वितरण सामान्यता की ओर क्या करते हैं?
बेनामी

धन्यवाद, मैंने पहला पैराग्राफ संपादित किया। उदाहरण के लिए, क्रमपरिवर्तन के तहत रैखिक रूपों पर एक प्रमेय के लिए वाल्ड और वोल्फोवित्ज़ (1944) देखें। यानी, उन्होंने दिखाया कि दो नमूना टी आँकड़ा क्रमपरिवर्तन के तहत विषम रूप से सामान्य है।
bsbk

एक नमूना वितरण एक "वास्तविक दुनिया डाटासेट" नहीं है! शायद आपके पोस्ट में स्पष्ट विसंगतियों के साथ मुझे जो कठिनाई हो रही है, वह वितरण और डेटा के बीच इस भ्रम से उपजी है। शायद यह स्पष्टता की कमी से उपजा है कि आपके मन में वास्तव में क्या "सीमित" प्रक्रिया है।
whuber

3
मूल प्रश्न "उदारतापूर्वक" यह समझाने के बारे में था कि वास्तविक-दुनिया डेटा सामान्य कैसे हो सकता है। यह बोधगम्य है कि वास्तविक डेटा एक द्विपद या पॉइसन प्रक्रिया से उत्पन्न हो सकता है, दोनों को सामान्य वितरण द्वारा अनुमानित किया जा सकता है। सेशन ने अन्य उदाहरणों के लिए कहा और जो मन में आया वह था परमूटेशन डिस्ट्रीब्यूशन, जो एसिम्पोटिक रूप से सामान्य है (संबंधों की अनुपस्थिति में)। मैं एक तरह से ऑफ-हैंड के बारे में नहीं सोच सकता कि असली डेटा उस वितरण से उत्पन्न होगा ताकि शायद एक खिंचाव हो।
bsbk

10

सामान्य वितरण के उपयोग के लिए एक सूचना सिद्धांत औचित्य भी है। माध्य और विचरण को देखते हुए, सामान्य वितरण में सभी वास्तविक-मूल्यवान संभावना वितरणों के बीच अधिकतम एन्ट्रॉपी है। इस संपत्ति पर चर्चा करने वाले बहुत सारे स्रोत हैं। एक संक्षिप्त यहाँ पाया जा सकता है । गौसियन वितरण का उपयोग करने के लिए प्रेरणा का एक अधिक सामान्य चर्चा सिग्नल प्रोसेसिंग पत्रिका से इस लेख में पाया जा सकता है ।


6
यह पीछे की ओर है, जैसा कि मैं इसे समझता हूं। यह इस बारे में है कि कैसे सामान्यता की धारणा को कड़ाई से परिभाषित अर्थ में कमजोर धारणा है। मैं यह नहीं देखता कि वास्तविक दुनिया के डेटा के बारे में क्या है। आप यह भी तर्क दे सकते हैं कि वक्र आमतौर पर सीधे होते हैं क्योंकि यह सबसे सरल धारणा है जो आप वक्रता के बारे में बना सकते हैं। एपिस्टेमोलॉजी ऑन्कोलॉजी को सीमित नहीं करती है! यदि आप जिस संदर्भ का हवाला देते हैं, वह उससे आगे निकल जाता है, तो कृपया तर्कों को याद करें।
निक कॉक्स

3

भौतिकी में यह सीएलटी है जिसे आमतौर पर कई मापों में सामान्य रूप से वितरित त्रुटियों के कारण के रूप में उद्धृत किया जाता है।

प्रायोगिक भौतिकी में दो सबसे आम त्रुटियां वितरण सामान्य और पॉइसन हैं। उत्तरार्द्ध आमतौर पर गिनती माप में सामना किया जाता है, जैसे कि रेडियोधर्मी क्षय।

इन दो वितरणों की एक और दिलचस्प विशेषता यह है कि गाऊसी और पॉइसन से यादृच्छिक चर का एक योग गाऊसी और पॉइसन के अंतर्गत आता है।

वहाँ इस तरह के रूप प्रयोगात्मक विज्ञान में आँकड़ों पर कई पुस्तकें हैं इस गेरहार्ड बॉम, गुंटर जक, परिचय सांख्यिकी और भौतिकविदों के लिए डेटा विश्लेषण करने के लिए, ISBN 978-3-935702-41-6: एक


0

सीएलटी अत्यंत उपयोगी है जब जनसंख्या जैसी चीजों के बारे में अनुमान लगाया जाता है क्योंकि हम व्यक्तिगत माप के एक गुच्छा के कुछ प्रकार के रैखिक संयोजन की गणना करके वहां पहुंचते हैं। हालांकि, जब हम व्यक्तिगत टिप्पणियों, विशेष रूप से भविष्य के लोगों ( जैसे , भविष्यवाणी अंतराल) के बारे में अनुमान लगाने की कोशिश करते हैं, तो सामान्यता से विचलन अधिक महत्वपूर्ण होते हैं यदि हम वितरण की पूंछ में रुचि रखते हैं। उदाहरण के लिए, यदि हमारे पास 50 अवलोकन हैं, तो हम एक बहुत बड़ा एक्सट्रपलेशन (और विश्वास की छलांग) बना रहे हैं, जब हम भविष्य के अवलोकन की संभावना के बारे में कुछ कहते हैं, इस बीच कम से कम 3 मानक विचलन हो रहे हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.