सामान्य वितरण और मोनोटोनिक परिवर्तन


9

मैंने सुना है कि प्रकृति में होने वाली बहुत सी मात्रा सामान्य रूप से वितरित की जाती है। यह आमतौर पर केंद्रीय सीमा प्रमेय का उपयोग करने के लिए उचित है, जो कहता है कि जब आप बड़ी संख्या में iid यादृच्छिक चर का औसत निकालते हैं, तो आपको एक सामान्य वितरण मिलता है। इसलिए, उदाहरण के लिए, एक गुण जो कि बड़ी संख्या में जीनों के योगात्मक प्रभाव से निर्धारित होता है, लगभग सामान्य रूप से वितरित किया जा सकता है क्योंकि जीन मान मोटे तौर पर आईआईडी यादृच्छिक चर की तरह व्यवहार कर सकते हैं।

अब, जो मुझे भ्रमित करता है वह यह है कि सामान्य रूप से वितरित की जाने वाली संपत्ति स्पष्ट रूप से मोनोटोनिक परिवर्तनों के तहत अपरिवर्तनीय नहीं है। इसलिए, अगर किसी चीज़ को मापने के दो तरीके हैं जो एक मोनोटोनिक परिवर्तन से संबंधित हैं, तो वे दोनों को सामान्य रूप से वितरित होने की संभावना नहीं है (जब तक कि मोनोटोनिक परिवर्तन रैखिक न हो)। उदाहरण के लिए, हम वर्षा के आकारों को व्यास द्वारा, सतह क्षेत्र द्वारा, या आयतन द्वारा माप सकते हैं। सभी वर्षाबूंदों के लिए समान आकृतियों को मानते हुए, सतह क्षेत्र व्यास के वर्ग के लिए आनुपातिक है, और मात्रा व्यास के घन के लिए आनुपातिक है। इसलिए इन सभी तरीकों को सामान्य रूप से वितरित नहीं किया जा सकता है।

तो मेरा सवाल यह है कि क्या स्केलिंग का विशेष तरीका (यानी, मोनोटोनिक परिवर्तन की विशेष पसंद) जिसके तहत वितरण सामान्य हो जाता है, को शारीरिक महत्व देना चाहिए। उदाहरण के लिए, ऊंचाइयों को सामान्य रूप से वितरित किया जाना चाहिए या ऊंचाई के वर्ग, या ऊंचाई के लघुगणक, या ऊंचाई के वर्गमूल? क्या ऊंचाई को प्रभावित करने वाली प्रक्रियाओं को समझकर उस प्रश्न का उत्तर देने का एक तरीका है?


जैसा कि मैंने हमेशा समझा, केंद्रीय सीमा प्रमेय में बड़ी संख्या में आईआईडी यादृच्छिक चर के औसत के बारे में कुछ भी नहीं लिखा गया है। बल्कि, यह बताता है कि जब नमूना का मतलब होता है, तो साधनों का वितरण सामान्य हो जाता है (वितरण से स्वतंत्र है जो कि नमूना है)। इसलिए मैं सवाल करता हूं कि क्या आपके प्रश्न के लिए एंटेकेडेंट है।
हेनरिक

लेकिन, अगर नमूना का मतलब अंतर्निहित वितरण के वितरण के लिए सामान्य है, तो यह कहना कि 'बड़ी संख्या में आईआईडी यादृच्छिक चर का औसत' के समान नहीं है, हमें सामान्य वितरण मिलता है। मेरे लिए वे समतुल्य कथन प्रतीत होते हैं।

मेरी नज़र में नहीं (लेकिन मैं अन्यथा आश्वस्त होना चाहूंगा)। एक मामले में (एक मुझे लगता है कि सीएलटी से मतलब है) आप एक वितरण से नमूने खींचते हैं। उनके साधन सामान्य रूप से वितरित किए जाते हैं। मैं प्रश्न से क्या समझता हूं और बोली "औसत संख्या में iid यादृच्छिक चर की एक बड़ी संख्या" sth differnt है: विभिन्न iid यादृच्छिक चर से व्यक्तिगत तात्कालिकता एक विशेषता का निर्धारण (या श्रृंगार) करती है। इसलिए, एक वितरण से कोई औसत (यानी, एक मतलब कंप्यूटिंग) और, इसलिए, सीएलटी का कोई अनुप्रयोग नहीं। मुझे लगता है कि mbq के उत्तर उसी मुद्दे की ओर इशारा करते हैं।
हेनरिक

1
यदि कुछ स्थितियाँ हैं, तो वितरण समान होने की आवश्यकता नहीं है। देखें: en.wikipedia.org/wiki/…

1
@ हेनरिक क्या एन स्वतंत्र और समान रूप से वितरित आरवी और एन एकल आर.वी. के स्वतंत्र मापों में से एक एकल नमूने के बीच कोई सार्थक अंतर है ?
वॉकिटाल्की

जवाबों:


5

बहुत अच्छा सवाल है। मुझे लगता है कि उत्तर इस बात पर निर्भर करता है कि क्या आप उस अंतर्निहित प्रक्रिया की पहचान कर सकते हैं जो प्रश्न में माप को जन्म देती है। यदि उदाहरण के लिए, आपके पास सबूत है कि ऊंचाई कई कारकों का एक रैखिक संयोजन है (उदाहरण के लिए, माता-पिता की ऊंचाई, दादा दादी की ऊंचाई आदि) तो यह मान लेना स्वाभाविक होगा कि ऊंचाई सामान्य रूप से वितरित की गई है। दूसरी ओर यदि आपके पास सबूत या शायद यह भी सिद्धांत है कि ऊंचाई का लॉग कई चर (जैसे, माता-पिता की ऊंचाइयों, दादा-दादी की ऊंचाइयों का लॉग आदि) का एक रैखिक संयोजन है, तो ऊंचाई का लॉग सामान्य रूप से वितरित किया जाएगा।

ज्यादातर स्थितियों में, हम अंतर्निहित प्रक्रिया को नहीं जानते हैं जो ब्याज की माप को बढ़ाती है। इस प्रकार, हम कई काम कर सकते हैं:

(ए) यदि ऊंचाइयों का अनुभवजन्य वितरण सामान्य दिखता है, तो हम आगे के विश्लेषण के लिए एक सामान्य घनत्व का उपयोग करते हैं जो स्पष्ट रूप से मानता है कि ऊंचाई कई चर का एक रैखिक संयोजन है।

(b) यदि अनुभवजन्य वितरण सामान्य नहीं दिखता है तो हम mbq द्वारा सुझाए गए कुछ परिवर्तन की कोशिश कर सकते हैं (उदाहरण के लिए लॉग (ऊंचाई))। इस मामले में हम स्पष्ट रूप से मानते हैं कि रूपांतरित चर (यानी, लॉग (ऊंचाई)) कई चर का एक रैखिक संयोजन है।

(c) यदि (a) या (b) मदद नहीं करते हैं तो हमें उन फायदों को छोड़ना होगा जो CLT और सामान्यता की धारणा हमें देते हैं और कुछ अन्य वितरण का उपयोग करके चर को मॉडल करते हैं।


5

किसी विशेष चर का पुनरावर्तन, जब संभव हो, तो उस कारण के लिए कुछ समझदार पैमाने से संबंधित होना चाहिए जो परिणामस्वरूप मॉडल को व्याख्यायित करने में मदद करता है। हालांकि, परिणामी परिवर्तन की पूरी तरह से भौतिक महत्व नहीं है। अनिवार्य रूप से आपको सामान्य धारणा के उल्लंघन और अपने मॉडल की व्याख्या के बीच एक व्यापार बंद करना होगा। इन स्थितियों में मुझे जो करना पसंद है, वह है मूल डेटा, डेटा इस तरह से रूपांतरित हो जाता है जो समझ में आता है, और डेटा एक तरह से बदल जाता है जो कि सबसे सामान्य है। यदि डेटा एक तरह से रूपांतरित हो जाता है जो समझ में आता है कि डेटा के रूप में रूपांतरित होने पर परिणाम एक ही होता है जो इसे सबसे महत्वपूर्ण बनाता है, मैं इसे इस तरह से रिपोर्ट करता हूं जो एक साइड नोट के साथ व्याख्या करने योग्य है कि परिणाम समान रूप से रूपांतरित (और / या अनियंत्रित) डेटा के मामले में समान हैं। जब अनियंत्रित डेटा विशेष रूप से खराब व्यवहार कर रहा है, तो मैं अपने विश्लेषण को रूपांतरित डेटा के साथ करता हूं लेकिन अनियंत्रित इकाइयों में परिणामों की रिपोर्ट करने के लिए अपनी पूरी कोशिश करता हूं।

इसके अलावा, मुझे लगता है कि आपके कथन में यह गलत धारणा है कि "प्रकृति में होने वाली मात्राएँ सामान्य रूप से वितरित की जाती हैं"। यह केवल उन मामलों में सही है जहां स्वतंत्र कारकों के मूल्य "बड़ी संख्या के योगात्मक प्रभाव से निर्धारित होते हैं"। यही है, साधन और रकम आम तौर पर अंतर्निहित वितरण की परवाह किए बिना वितरित किए जाते हैं, जहां से वे आकर्षित करते हैं, जहां व्यक्तिगत मूल्यों के सामान्य रूप से वितरित होने की उम्मीद नहीं है। जैसा कि उदाहरण था, एक द्विपद वितरण से अलग-अलग सभी सामान्य नहीं दिखते हैं, लेकिन एक द्विपद वितरण से 30 आरेखों का वितरण सामान्य नहीं दिखता है।


5

मुझे यह स्वीकार करना चाहिए कि मैं वास्तव में आपके प्रश्न को नहीं समझता:

  • आपके रेनड्रॉप्स का उदाहरण बहुत संतोषजनक नहीं है क्योंकि यह इस तथ्य को स्पष्ट नहीं कर रहा है कि गॉसियन व्यवहार "बड़ी संख्या में आईआईडी यादृच्छिक चर के औसत" से आता है।

  • अगर मात्रा एक्स कि आप में रुचि रखते हैं एक औसत है Y1+...+Yएनएन यह एक गाऊसी तरीके से अपने मतलब के आसपास उतार-चढ़ाव करता है, आप यह भी उम्मीद कर सकते हैं (Y1)+...+(Yएन)एन एक गाऊसी व्यवहार है।

  • अगर उतार-चढ़ाव है एक्स इसके आस-पास लगभग गौसियन और छोटे हैं, तो इसके उतार-चढ़ाव हैं (एक्स) अपने मतलब के आसपास (टेलर विस्तार से)

  • क्या आप (वास्तविक जीवन) गॉसियन व्यवहार के कुछ वास्तविक उदाहरणों का हवाला दे सकते हैं: यह बहुत आम नहीं है! गाऊसी व्यवहार का उपयोग अक्सर आंकड़ों में पहले खुरदरे अंदाजे के तौर पर किया जाता है क्योंकि गणना बहुत ही ट्रैक्टेबल होती है। जैसा कि भौतिक विज्ञानी हार्मोनिक सन्निकटन का उपयोग करते हैं, सांख्यिकीविद गाऊसी सन्निकटन का उपयोग करते हैं।


अधिकतम एन्ट्रापी सिद्धांत भी एक और कारण है कि गौसियन वितरण का उपयोग क्यों किया जाता है। उदाहरण के लिए, रैखिक मॉडल में गॉसियन त्रुटियों का उपयोग करने के लिए अच्छे कारण क्या हैं, सिवाय ट्रैकीबिलिटी के?
Alekk

5

विपुल, आप अपने सवाल में पूरी तरह से सटीक नहीं हैं।

यह आमतौर पर केंद्रीय सीमा प्रमेय का उपयोग करने के लिए उचित है, जो कहता है कि जब आप बड़ी संख्या में iid यादृच्छिक चर का औसत निकालते हैं, तो आपको एक सामान्य वितरण मिलता है।

मुझे पूरी तरह से यकीन नहीं है कि आप क्या कह रहे हैं, लेकिन ध्यान रखें कि आपके उदाहरण में रेनड्रॉप्स रैंडम वैरिएबल नहीं हैं। उन रेनड्रॉप्स की एक निश्चित संख्या के नमूने द्वारा गणना का मतलब एक यादृच्छिक चर है, और जैसा कि बड़े पर्याप्त नमूना आकार का उपयोग करके गणना की जाती है, उस नमूना माध्य का वितरण सामान्य है।

बड़ी संख्या के कानून का कहना है कि उस नमूने का मूल्य औसत जनसंख्या के औसत मूल्य (धर्मान्तरित के प्रकार के आधार पर मजबूत या कमजोर) में परिवर्तित होता है।

सीएलटी कहता है कि नमूना का मतलब है, इसे एक्सएम (एन) कहें, जो एक यादृच्छिक चर है, एक वितरण है, जी (एन) कहते हैं। जैसे-जैसे एन इन्फिनिटी आती है, वह वितरण सामान्य वितरण होता है। CLT वितरण में अभिसरण के बारे में है , एक मूल अवधारणा नहीं है।

आपके द्वारा लिए गए अवलोकन (व्यास, क्षेत्रफल, आयतन) बिल्कुल सामान्य नहीं हैं। यदि आप उन्हें प्लॉट करते हैं तो वे संभवतः नहीं होंगे। लेकिन, सभी तीन अवलोकनों को लेने से नमूना का सामान्य वितरण होगा। और, आयतन व्यास का घन नहीं होगा, और न ही क्षेत्र व्यास का वर्ग होगा। जब तक आप विषम रूप से भाग्यशाली नहीं होते, तब तक राशि का वर्ग नहीं होगा।


4

बस सीएलटी (न ही कोई अन्य प्रमेय) यह नहीं बताता है कि ब्रह्मांड में प्रत्येक मात्रा सामान्य रूप से वितरित की जाती है। वास्तव में, सांख्यिकीविद् अक्सर सामान्यता में सुधार करने के लिए मोनोटोनिक परिवर्तनों का उपयोग करते हैं, इसलिए वे अपने पसंदीदा साधनों का उपयोग कर सकते हैं।


4

मुझे लगता है कि आप गलतफहमी (आधा) का उपयोग सांख्यिकीय वितरण सामान्य वितरण से करते हैं, लेकिन मुझे वास्तव में आपका सवाल पसंद है।

मुझे नहीं लगता कि यह व्यवस्थित रूप से सामान्यता मानने के लिए एक अच्छा विचार है और मैं मानता हूं कि यह सत्यापन के बिना कभी-कभी (शायद इसलिए कि सामान्य वितरण ट्रैक्टेबल, अनिमॉडल है ...) किया जाता है। इसलिए मोनोटोनिक मानचित्र के बारे में आपकी टिप्पणी उत्कृष्ट है!

हालाँकि, सामान्यता का शक्तिशाली उपयोग तब होता है जब आप खुद को नए आँकड़ों का निर्माण करते हैं जैसे कि आप प्रकट होने पर अपेक्षा के अनुभवजन्य काउंटर भाग को लागू करते हैं: अनुभवजन्य माध्य । इसलिए अनुभवजन्य माध्य और अधिक सामान्यतः चौरसाई वह है जो सामान्यता को हर जगह दिखाई देती है ...


2

एक यादृच्छिक चर और इसके कई परिवर्तन दोनों लगभग सामान्य हो सकते हैं; वास्तव में अगर माध्य की तुलना में विचरण छोटा है, तो यह हो सकता है कि बहुत व्यापक विविधता बहुत सामान्य दिखे।

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

निकट-सामान्यता दिखाते हुए 4 हिस्टोग्राम

( बड़े संस्करण के लिए क्लिक करें )

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.