एक परिमित गाऊसी मिश्रण और एक गाऊसी के बीच की दूरी क्या है?


12

मान लीजिए कि मेरे पास ज्ञात वजन, साधन और मानक विचलन के साथ बारीक से कई गौसियों का मिश्रण है। साधन नहीं के बराबर हैं। मिश्रण के औसत और मानक विचलन की गणना की जा सकती है, निश्चित रूप से, चूंकि घटकों के क्षणों का भार औसत होता है। मिश्रण एक सामान्य वितरण नहीं है, लेकिन सामान्य से कितनी दूर है?

एक ही माध्य और विचरण के साथ 2 मानक विचलन बनाम गाऊसी द्वारा अलग किए गए गाऊसी का मिश्रण

उपरोक्त छवि घटक के साथ एक गाऊसी मिश्रण के लिए संभाव्यता घनत्व को दर्शाती है जिसका अर्थ है मानक विचलन (घटकों के) और एक ही गौसियन द्वारा समान माध्य और विचरण के साथ अलग किया गया।2

एक ही माध्य और विचरण के साथ 1 मानक विचलन बनाम गाऊसी द्वारा अलग किए गए गाऊसी का मिश्रण

यहां साधनों को मानक विचलन द्वारा अलग किया गया है और गाऊसी से मिश्रण को आंख से अलग करना कठिन है।1


प्रेरणा: मैं कुछ आलसी लोगों के साथ कुछ वास्तविक वितरणों के बारे में असहमत हूं, जिन्हें उन्होंने मापा नहीं है, वे मानते हैं कि वे सामान्य के करीब हैं क्योंकि यह अच्छा होगा। मैं आलसी भी हूँ। मैं वितरण को मापना नहीं चाहता। मैं कहना चाहता हूं कि उनकी धारणाएं असंगत हैं, क्योंकि वे कह रहे हैं कि विभिन्न माध्यमों से गॉसियंस का एक सीमित मिश्रण एक गौसियन है जो सही नहीं है। मैं सिर्फ यह नहीं कहना चाहता कि पूंछ की असममित आकृति गलत है क्योंकि ये केवल अनुमान हैं जो केवल माध्य के कुछ मानक विचलन के भीतर यथोचित रूप से सटीक हैं। मैं यह कहना चाहूंगा कि यदि सामान्य वितरण द्वारा घटकों का अच्छी तरह से अनुमान लगाया जाता है, तो मिश्रण नहीं है, और मैं इसे निर्धारित करने में सक्षम होना चाहता हूं।


मैं उपयोग करने के लिए सामान्यता से सही दूरी नहीं जानता: CDFs, दूरी, पृथ्वी- घास काटने की दूरी, केएल विचलन, आदि के बीच मतभेदों का वर्चस्व, मैं इनमें से किसी के संदर्भ में सीमा प्राप्त करने में खुशी महसूस करूंगा, या अन्य उपाय। मुझे मिश्रण के रूप में एक ही माध्य और मानक विचलन के साथ या किसी भी गौसियन के साथ न्यूनतम दूरी के साथ गौसियन की दूरी जानने में खुशी होगी। यदि यह मदद करता है, तो आप इस मामले को सीमित कर सकते हैं कि मिश्रण गाऊसी है ताकि छोटा वजन से अधिक हो ।L121/4


2
यदि मिश्रण nrmal के बहुत करीब है तो सामान्य सन्निकटन का उपयोग करना आलस्य नहीं है यह एक सरलीकरण है और यह एक अच्छा हो सकता है। लेकिन आपके उदाहरण में आप एक मिश्रण दिखाते हैं जो केंद्र में एक नट की तुलना में चापलूसी करता है, मध्य में अधिक फैलता है और सबसे अच्छा अंदाजा लगाने की तुलना में पूंछ में छोटा होता है। मुझे लगता है कि आप दोनों cdf के बीच किसी तरह के एकीकृत अंतर को देखना चाहेंगे। केएस माप नहीं क्योंकि अधिकतम विसंगति बहुत बड़ी नहीं हो सकती है, लेकिन एक क्षेत्र में औसत विसंगति अपेक्षाकृत बड़ी हो सकती है।
माइकल आर। चेरिक

क्या हम मान सकते हैं कि एक सामान्य सन्निकटन से अधिक गॉसियों के मिश्रण के लिए सांख्यिकीय रूप से महत्वपूर्ण सबूत हैं? हमें केवल यह चिंता करने की आवश्यकता है कि क्या अंतर व्यावहारिक महत्व का है यदि अंतर को सांख्यिकीय महत्व के रूप में जाना जाता है। एंडरसन-डार्लिंग स्टैटिस्टिक जैसे कुछ के माइकल्स सुझाव को शुरू करने के लिए उचित जगह होगी।
डिक्रान मार्सुपियल

@ डिक्रान मार्सुपियल: आबादी उपसमूह में टूट जाती है जिन्हें अलग-अलग साधनों के लिए जाना जाता है। घटक का मतलब उच्च सटीकता के साथ जाना जाता है। घटक साधनों और घटक मानक विचलन के बीच के अंतर के बीच का अनुपात भिन्न होता है, लेकिन ब्याज के कुछ मामलों में और बीच हो सकता है , दुर्भाग्य से कुल वितरण को कारण बताने के लिए पर्याप्त नहीं है। 1/22
डगलस ज़ारे

3
ऐसा लगता है कि आप वास्तव में एक मॉडल चयन प्रश्न पूछ रहे हैं: मॉडल को कुछ डेटा दिए गए हैं, जब एक मिश्रण की तुलना में सामान्य वितरण को प्राथमिकता देना चाहिए (या आमतौर पर, किसी को मिश्रण घटकों की संख्या कैसे चुननी चाहिए)? इस तरह के सवाल को फिर से पढ़ते हुए, आप इस साइट पर कुछ सौ संबंधित प्रश्न ओह, को एक्सेस करेंगे।
whuber

@ वाउचर: सामान्य की दूरी तब एकल गॉसियन से मिश्रण को अलग करने के उद्देश्य से एक परीक्षण की औसत (औसत) शक्ति के रूप में व्यक्त की जा सकती है।
शीआन

जवाबों:


9

केएल विचलन प्राकृतिक होगा क्योंकि आपके पास एक प्राकृतिक आधार वितरण है, एकल गाऊसी, जिसमें से आपका मिश्रण विचलन करता है। दूसरी ओर, दो गाऊसी मिश्रण के बीच केएल विचलन (या इसकी सममित 'दूरी' रूप), जिसमें से आपकी समस्या एक विशेष मामला है, सामान्य रूप से अट्रैक्टिव लगती है। हर्शे और ओल्सन (2007) उपलब्ध अंदाजों के एक उचित सारांश की तरह दिखते हैं, जिसमें वैचारिक तरीके भी शामिल हैं जो संभवतः आसान सीमा प्रदान करते हैं।

हालाँकि, यदि आप कुछ ग्रहण करने के दुष्परिणामों के बारे में तर्क रखना चाहते हैं, जब यह वास्तव में एक मिश्रण है, तो इसके परिणामों के बारे में एक अच्छा विचार रखना सबसे अच्छा है - जिसमें आप रुचि रखते हैं - कुछ और अधिक विशिष्ट की तुलना में 'गलत होना' '(यह @ माइकल-चेरिक की बात है)। उदाहरण के लिए, एक परीक्षण के लिए परिणाम, या एक अंतराल, या सोमेसुच। मिश्रण के दो स्पष्ट प्रभाव अतिविशिष्टता हैं, जो कि बहुत अधिक गारंटी वाले हैं, और बहुमूत्रता है, जो मैक्सिमाइज़र को भ्रमित करेगा।


1

गलत वितरण विनिर्देश के परिणामों पर विचार करने के बाद मेरा अनुसरण करें। दूरी के जेनेरिक माप जैसे कि केएल डाइवर्जेंस का उपयोग करने के बजाय, आप "अंतर" के अनुकूलित माप का मूल्यांकन कर सकते हैं, हाथ में परिणाम के लिए जर्मे।

उदाहरण के रूप में, यदि वितरण का उपयोग जोखिम गणना के लिए किया जा रहा है, उदाहरण के लिए, यह निर्धारित करने के लिए कि विफलता की संभावना काफी कम है, तो केवल फिट में मायने रखने वाली चीजें चरम पूंछ में संभावना गणना हैं। यह बहु-अरब डॉलर के कार्यक्रमों के निर्णयों के लिए प्रासंगिक हो सकता है, और जीवन और मृत्यु के मामलों को शामिल कर सकता है।

सामान्य धारणा सबसे अधिक गलत होने की संभावना कहां है? कई मामलों में, अत्यधिक पूंछ में, एकमात्र स्थान जो इन महत्वपूर्ण जोखिम गणनाओं के लिए मायने रखता है। यदि उदाहरण के लिए, आपका वास्तविक वितरण समान अर्थ वाले नॉर्मल का मिश्रण है, लेकिन विभिन्न मानक विचलन हैं, तो मिश्रण वितरण की पूंछ सामान्य माध्य और मानक विचलन वाले सामान्य वितरण की पूंछ की तुलना में कम है। यह आसानी से चरम पूंछ में संभावनाओं के लिए परिमाण अंतर (जोखिम को कम आंकना) के क्रम में परिणाम कर सकता है।

इसलिए, उदाहरण के लिए, एक महत्वपूर्ण स्तर , अंतर का प्रासंगिक माप । इस तरह के मामले में, यह कोई फर्क नहीं पड़ता कि बाकी वितरण में कितना अच्छा समझौता है।UP(XMixture>U)P(XNormal>U)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.