हम क्यों मान लेते हैं कि त्रुटि सामान्य रूप से वितरित की गई है?


17

मुझे आश्चर्य है कि त्रुटि को मॉडलिंग करते समय हम गॉसियन धारणा का उपयोग क्यों करते हैं। में स्टैनफोर्ड एमएल पाठ्यक्रम , प्रो एनजी यह मूल रूप से वर्णन करता है दो तरीकों से:

  1. यह गणितीय रूप से सुविधाजनक है। (यह लिस्ट स्क्वेयर फिटिंग से संबंधित है और स्यूडोइनवर्स से हल करना आसान है)
  2. केंद्रीय सीमा प्रमेय के कारण, हम यह मान सकते हैं कि प्रक्रिया को प्रभावित करने वाले बहुत सारे अंतर्निहित तथ्य हैं और इन व्यक्तिगत त्रुटियों का योग एक शून्य औसत सामान्य वितरण की तरह व्यवहार करना होगा। व्यवहार में, ऐसा लगता है।

मुझे वास्तव में दूसरे भाग में दिलचस्पी है। केंद्रीय सीमा प्रमेय आईआईडी नमूनों के लिए काम करता है जहां तक ​​मुझे पता है, लेकिन हम अंतर्निहित नमूनों को आईआईडी होने की गारंटी नहीं दे सकते हैं।

क्या आपके पास गॉसियन की त्रुटि के बारे में कोई विचार है?


आप किस सेटिंग की बात कर रहे हैं? वर्गीकरण, प्रतिगमन, या कुछ और सामान्य?
tdc

मैंने सामान्य मामले के लिए प्रश्न पूछा। अधिकांश कहानियाँ गॉसियन त्रुटि धारणा से शुरू होती हैं। लेकिन, व्यक्तिगत रूप से, मेरी अपनी रुचि मैट्रिक्स कारक और रैखिक मॉडल समाधान है (इसलिए प्रतिगमन कहते हैं)।
14

जवाबों:


9

मुझे लगता है कि आपने मूल रूप से प्रश्न में सिर पर कील मारा है, लेकिन मैं देखूंगा कि क्या मैं किसी भी तरह कुछ जोड़ सकता हूं। मैं इसका जवाब थोड़ा गोलमोल तरीके से देने जा रहा हूँ ...

रोबस्ट स्टैटिस्टिक्स का क्षेत्र इस सवाल की जांच करता है कि गॉसियन धारणा विफल होने पर क्या करना चाहिए (इस अर्थ में कि वहाँ प्रीलिटर्स हैं):

यह अक्सर माना जाता है कि डेटा त्रुटियों को सामान्य रूप से वितरित किया जाता है, कम से कम लगभग, या कि सामान्य रूप से वितरित अनुमानों का उत्पादन करने के लिए केंद्रीय सीमा प्रमेय पर भरोसा किया जा सकता है। दुर्भाग्य से, जब डेटा में आउटलेयर होते हैं, तो शास्त्रीय तरीकों में अक्सर बहुत खराब प्रदर्शन होता है

इनको ML में भी लागू किया गया है, उदाहरण के लिए Mika el al। (2001) कर्नल फिशर एल्गोरिथम के लिए एक गणितीय प्रोग्रामिंग दृष्टिकोण , वे वर्णन करते हैं कि कैसे केडीएफए (अन्य नुकसान कार्यों के साथ) के साथ ह्यूबर के रॉबस्ट लॉस का उपयोग किया जा सकता है। बेशक यह एक वर्गीकरण नुकसान है, लेकिन KFDA प्रासंगिकता वेक्टर मशीन (Mika पेपर के अनुभाग 4 देखें) से निकटता से संबंधित है।

जैसा कि प्रश्न में निहित है, नुकसान कार्यों और बेयसियन त्रुटि मॉडल के बीच घनिष्ठ संबंध है ( एक चर्चा के लिए यहां देखें )।

हालांकि यह मामला है कि जैसे ही आप "कायरता" नुकसान कार्यों को शामिल करना शुरू करते हैं, अनुकूलन कठिन हो जाता है (ध्यान दें कि यह बायेसियन दुनिया में भी होता है)। इसलिए कई मामलों में लोग मानक नुकसान कार्यों का सहारा लेते हैं जो अनुकूलन करने में आसान होते हैं, और इसके बजाय यह सुनिश्चित करने के लिए अतिरिक्त पूर्व प्रसंस्करण करते हैं कि डेटा मॉडल के अनुरूप है।

आपके द्वारा उल्लेखित अन्य बिंदु यह है कि CLT केवल उन नमूनों पर लागू होता है जो IID हैं। यह सच है, लेकिन तब अधिकांश एल्गोरिदम की धारणा (और साथ में विश्लेषण) समान है। जब आप गैर-आईआईडी आंकड़ों को देखना शुरू करते हैं, तो चीजें बहुत अधिक मुश्किल हो जाती हैं। एक उदाहरण यह है कि यदि अस्थायी निर्भरता है, तो उस स्थिति में आम तौर पर दृष्टिकोण यह माना जाता है कि निर्भरता केवल एक निश्चित खिड़की तक फैलती है, और इसलिए नमूने को इस विंडो के बाहर लगभग IID माना जा सकता है (उदाहरण के लिए देखें यह शानदार लेकिन कठिन पेपर क्रोमैटिकएसी) गैर-आईआईडी डेटा के लिए -बाय बाउंड्स: रैंकिंग और स्थिर Ranking-मिक्सिंग प्रक्रियाओं के लिए आवेदन), जिसके बाद सामान्य विश्लेषण लागू किया जा सकता है।

तो, हाँ, यह सुविधा के हिस्से में नीचे आता है, और भाग में क्योंकि वास्तविक दुनिया में, अधिकांश त्रुटियां दिखती हैं (मोटे तौर पर) गौसियन। निश्चित रूप से एक नई समस्या को देखते हुए हमेशा यह सुनिश्चित करना चाहिए कि मान्यताओं का उल्लंघन न हो।


1
+1 विशेष रूप से मजबूत और गैर-मजबूत आंकड़ों के बारे में उल्लेख करने के लिए आपका बहुत-बहुत धन्यवाद। मैं ध्यान देता हूं कि सामान्य रूप से माध्य और अल्फा-ट्रिम किए गए काम आमतौर पर अभ्यास की तुलना में बेहतर होते हैं, लेकिन मुझे उनके पीछे के सिद्धांत का पता नहीं था।
पेट्रीकर

3
सामान्य रूप से वितरित डेटा से जुड़ा एक और सुविधा आइटम यह है कि 0 सहसंबंध स्वतंत्रता का अर्थ है।
एडमो

3
IID-ness के बारे में टिप्पणी बिल्कुल सही नहीं है। वहाँ (कई) बहुत सामान्य केंद्रीय सीमा सिद्धांत हैं जो लागू होते हैं जब परिणाम स्वतंत्र होते हैं, लेकिन पहचान नहीं होती है; उदाहरण के लिए लिंडबर्ग सीएलटी देखें। सीएलटी परिणाम भी हैं जिन्हें स्वतंत्रता की भी आवश्यकता नहीं है; वे उदाहरण के लिए विनिमेय टिप्पणियों से उत्पन्न हो सकते हैं।
अतिथि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.