अक्सर इसे गौसियन वितरण क्यों माना जाता है?


14

एक भोली बेयस क्लासिफायर के लिए पैरामीटर अनुमान पर एक विकिपीडिया लेख से उद्धरण : "एक विशिष्ट धारणा यह है कि प्रत्येक वर्ग से जुड़े निरंतर मूल्यों को गौसियन वितरण के अनुसार वितरित किया जाता है।"

मैं समझता हूं कि एक गाऊसी वितरण विश्लेषणात्मक कारणों के लिए सुविधाजनक है। हालाँकि, क्या इस विरोध को बनाने का कोई अन्य वास्तविक कारण है? क्या होगा अगर आबादी में दो उप-आबादी (स्मार्ट / गूंगा लोग, बड़े / छोटे सेब) शामिल हैं?


5
शायद केंद्रीय सीमा प्रमेय के कारण, गाऊसी वितरण कई फिट होते हैं, हालांकि किसी भी तरह से, भौतिक घटनाओं का माप नहीं? उप आबादी के साथ, एक मिल सकता है मिश्रण गाऊसी वितरण।
दिलीप सरवटे

1
एक ही खंड (मैं मान रहा हूँ कि आप Naive Bayes लेख को देख रहे हैं) बताते हैं कि यदि आप वितरण को नहीं जानते हैं तो Binning शायद एक बेहतर विचार है। किसी को संभवतः विकिपीडिया लेख को संपादित करना चाहिए ताकि यह स्पष्ट हो सके कि किसी को केवल गॉसियन मान लेना चाहिए यदि वह तर्क दे सकता है कि यह गॉसियन क्यों है (उदाहरण के लिए डेटा को प्लॉट करें, या यह सीएलटी के एडिटिव पैटर्न का अनुसरण करता है)।
rm999

जवाबों:


6

कम से कम मेरे लिए, सामान्यता की धारणा दो (बहुत शक्तिशाली) कारणों से उत्पन्न होती है:

  1. केंद्रीय सीमा प्रमेय।

  2. गाऊसी वितरण एक अधिकतम एन्ट्रॉपी है (शैनन के एन्ट्रापी के निरंतर संस्करण के संबंध में) वितरण।

मुझे लगता है कि आप पहले बिंदु से अवगत हैं: यदि आपका नमूना कई भविष्यवाणियों का योग है, तो जब तक कुछ हल्के हालात संतुष्ट होते हैं, तब तक वितरण बहुत अधिक होता है (सीएलटी के सामान्यीकरण होते हैं जहां आप वास्तव में नहीं होते हैं यह मान लेना चाहिए कि राशि के आरवी को समान रूप से वितरित किया जाता है, देखें, उदाहरण के लिए, ल्यपुनोव सीएलटी)।

दूसरा बिंदु यह है कि कुछ लोगों के लिए (विशेष रूप से भौतिकविदों) अधिक समझ में आता है: वितरण के पहले और दूसरे क्षणों को देखते हुए, वितरण जो कम जानकारी मानता है (यानी सबसे रूढ़िवादी) निरंतर शैनन के एन्ट्रापी माप के संबंध में (जो है) निरंतर मामले पर कुछ हद तक मनमाना, लेकिन, कम से कम मेरे लिए, असतत मामले में पूरी तरह से उद्देश्य, लेकिन यह दूसरी कहानी है), गॉसियन वितरण है। यह तथाकथित "अधिकतम एन्ट्रापी सिद्धांत" का एक रूप है, जो इतना व्यापक नहीं है क्योंकि एंट्रोपी के रूप का वास्तविक उपयोग कुछ हद तक मनमाना है ( इस उपाय के बारे में अधिक जानकारी के लिए यह विकिपीडिया लेख देखें )।

बेशक, यह अंतिम कथन बहु-चर मामले के लिए भी सही है, अर्थात, अधिकतम एन्ट्रापी वितरण (फिर से, शैनन की एंट्रोपी के निरंतर संस्करण के संबंध में) पहले ( ) और दूसरी जानकारी दी गई है। अर्थात, सहसंयोजक मैट्रिक्स ), एक बहुभिन्नरूपी गौसियन के रूप में दिखाया जा सकता है। ΣμΣ

पीडी: मुझे अधिकतम एन्ट्रापी सिद्धांत को जोड़ना होगा, जो इस पेपर के अनुसार , यदि आप अपने वेरिएबल की भिन्नता की सीमा को जानते हैं, तो आपको अधिकतम एन्ट्रापी सिद्धांत द्वारा प्राप्त वितरण में समायोजन करना होगा।


3

मेरा जवाब पहले उत्तरदाता से सहमत है। केंद्रीय सीमा प्रमेय आपको बताता है कि यदि आपका आंकड़ा एक योग या औसत है, तो यह कुछ नमूनों की व्यक्तिगत शर्तों के वितरण की परवाह किए बिना कुछ तकनीकी परिस्थितियों में लगभग सामान्य होगा। लेकिन आप सही कह रहे हैं कि कभी-कभी लोग इसे बहुत दूर ले जाते हैं, क्योंकि यह संयोजक लगता है। यदि आपका आंकड़ा एक अनुपात है और भाजक शून्य या इसके करीब हो सकता है तो अनुपात सामान्य के लिए बहुत भारी हो जाएगा। गॉसेट ने पाया कि जब आप एक सामान्य वितरण से नमूना लेते हैं तब भी एक सामान्यीकृत औसत जहां नमूना मानक विचलन सामान्यीकरण के लिए उपयोग किया जाता है निरंतर वितरण होता है n वितरण का स्वतंत्रता -1 डिग्री के साथ टी वितरण होता है जब n नमूना आकार होता है। गिनीज ब्रेवरी में अपने क्षेत्र के प्रयोगों में उनके नमूने आकार हैं जो 5-10 की सीमा में हो सकते हैं। उन मामलों में टी वितरण मानक सामान्य वितरण के समान है जिसमें यह 0 के बारे में सममित है, लेकिन इसमें बहुत अधिक भारी पूंछ हैं। ध्यान दें कि t वितरण मानक के रूप में सामान्य के रूप में बड़े हो जाता है। कई मामलों में वितरण आपके पास हो सकता है क्योंकि यह दो आबादी का मिश्रण है। कुछ बार ये वितरण सामान्य वितरण के मिश्रण के रूप में फिट हो सकते हैं। लेकिन वे निश्चित रूप से एक सामान्य वितरण की तरह नहीं दिखते हैं। यदि आप एक बुनियादी आँकड़े पाठ्यपुस्तक को देखते हैं, तो आपको कई पैरामीट्रिक निरंतर और असतत वितरण मिलेंगे जो अक्सर अनुमान समस्याओं में आते हैं। असतत डेटा के लिए हमारे पास कुछ नाम रखने के लिए द्विपद, पॉइसन, ज्यामितीय, हाइपरजोमेट्रिक और नकारात्मक द्विपद हैं। लगातार उदाहरणों में ची वर्ग, लॉगनॉर्मल, कौची, नकारात्मक घातांक, वेबुल और गंबेल शामिल हैं।


2

गाऊसी वितरण के उपयोग को सही ठहराने के लिए सीएलटी का उपयोग एक सामान्य गिरावट है क्योंकि सीएलटी को नमूना अर्थ पर लागू किया जाता है, व्यक्तिगत टिप्पणियों के लिए नहीं। इसलिए, अपने नमूना आकार को बढ़ाते हुए, इसका मतलब यह नहीं है कि नमूना मानदंड के करीब है।

गाऊसी वितरण का आमतौर पर उपयोग किया जाता है क्योंकि:

  1. अधिकतम संभावना अनुमान सीधा है।
  2. बायेसियन इनवेंशन सरल है (संयुग्मक पुजारी या जेफ्रीस-प्रकार के पुजारियों का उपयोग करके)।
  3. यह अधिकांश संख्यात्मक पैकेजों में लागू किया गया है।
  4. परिकल्पना परीक्षण के संदर्भ में इस वितरण के बारे में बहुत सारे सिद्धांत हैं।
  5. अन्य विकल्पों के बारे में ज्ञान का अभाव (अधिक लचीला)। ...

बेशक, सबसे अच्छा विकल्प एक वितरण का उपयोग करना है जो आपके संदर्भ की विशेषताओं को ध्यान में रखता है, लेकिन यह चुनौतीपूर्ण हो सकता है। हालांकि, कुछ ऐसा है जो लोगों को करना चाहिए

"सब कुछ जितना संभव हो उतना सरल बनाया जाना चाहिए, लेकिन सरल नहीं।" (अल्बर्ट आइंस्टीन)

आशा है कि ये आपकी मदद करेगा।

शुभकामनाएँ।


क्यों होता है पतन? इस स्पष्टीकरण के लिए क्या प्रतिवाद है?
lmsasu

4
यह विश्वास कि "गाऊसी वितरण के उपयोग को सही ठहराने के लिए सीएलटी का उपयोग एक सामान्य गिरावट है क्योंकि सीएलटी को नमूना माध्य पर लागू किया जाता है" स्वयं एक पतन है। उदाहरण के लिए, एक चालक में इलेक्ट्रॉन यादृच्छिक पर चल रहे हैं। छोटे शुद्ध करने के लिए प्रत्येक इलेक्ट्रॉन योगदान पर आरोप शोर वोल्टेज (थर्मल शोर कहा जाता है) कि कंडक्टर की टर्मिनलों भर में मापा जा सकता है। प्रत्येक योगदान छोटा है, कई इलेक्ट्रॉन हैं, और इसलिए सीएलटी के माध्यम से, शोर को गॉसियन यादृच्छिक प्रक्रिया के रूप में तैयार किया जाता है। इस मॉडल को कई प्रायोगिक अध्ययनों में क्रॉस-मान्य किया गया है।
दिलीप सरवटे

1
यह पहला पैराग्राफ भ्रामक है और ऑफ-टॉपिक लगता है। सीएलटी को लागू करते समय हम अक्सर कहते हैं कि एक वितरण गॉसियन है क्योंकि प्रत्येक व्यक्ति का अवलोकन कई प्रक्रियाओं का योग / मतलब है। अगर पहले पैराग्राफ को हटा दिया गया तो मुझे लगता है कि यह अच्छा जवाब होगा।
rm999

1
@ rm999 "यदि पहला पैराग्राफ हटा दिया गया तो मुझे लगता है कि यह एक अच्छा उत्तर होगा"। वास्तव में, पहले पैराग्राफ है जो ओ पी पहले से ही समझता है - - और करने के लिए प्रश्न पूछा उत्तरदायी नहीं है जवाब की जड़ के बाद से बाकी केवल बताते हैं कैसे गाऊसी मॉडल विश्लेषणात्मक उपयोगी है।
दिलीप सरवटे

1
@Dipip: (+1) आपकी पहली टिप्पणी में एक बहुत अच्छे उत्तर की कर्नेल मौजूद है। कृपया एक अलग पोस्ट में इस पर विस्तार करने पर विचार करें।
कार्डिनल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.