हम क्यों मान लेते हैं कि त्रुटि सामान्य रूप से वितरित की गई है?

मुझे आश्चर्य है कि त्रुटि को मॉडलिंग करते समय हम गॉसियन धारणा का उपयोग क्यों करते हैं। में स्टैनफोर्ड एमएल पाठ्यक्रम , प्रो एनजी यह मूल रूप से वर्णन करता है दो तरीकों से:

यह गणितीय रूप से सुविधाजनक है। (यह लिस्ट स्क्वेयर फिटिंग से संबंधित है और स्यूडोइनवर्स से हल करना आसान है)
केंद्रीय सीमा प्रमेय के कारण, हम यह मान सकते हैं कि प्रक्रिया को प्रभावित करने वाले बहुत सारे अंतर्निहित तथ्य हैं और इन व्यक्तिगत त्रुटियों का योग एक शून्य औसत सामान्य वितरण की तरह व्यवहार करना होगा। व्यवहार में, ऐसा लगता है।

मुझे वास्तव में दूसरे भाग में दिलचस्पी है। केंद्रीय सीमा प्रमेय आईआईडी नमूनों के लिए काम करता है जहां तक मुझे पता है, लेकिन हम अंतर्निहित नमूनों को आईआईडी होने की गारंटी नहीं दे सकते हैं।

क्या आपके पास गॉसियन की त्रुटि के बारे में कोई विचार है?

regression normality-assumption pac-learning

— petrichor
स्रोत

आप किस सेटिंग की बात कर रहे हैं? वर्गीकरण, प्रतिगमन, या कुछ और सामान्य?

— tdc

मैंने सामान्य मामले के लिए प्रश्न पूछा। अधिकांश कहानियाँ गॉसियन त्रुटि धारणा से शुरू होती हैं। लेकिन, व्यक्तिगत रूप से, मेरी अपनी रुचि मैट्रिक्स कारक और रैखिक मॉडल समाधान है (इसलिए प्रतिगमन कहते हैं)।

— 14

प्रासंगिक: आंकड़े.stackexchange.com/questions/120776/…

— kjetil b halvorsen

मुझे लगता है कि आपने मूल रूप से प्रश्न में सिर पर कील मारा है, लेकिन मैं देखूंगा कि क्या मैं किसी भी तरह कुछ जोड़ सकता हूं। मैं इसका जवाब थोड़ा गोलमोल तरीके से देने जा रहा हूँ ...

रोबस्ट स्टैटिस्टिक्स का क्षेत्र इस सवाल की जांच करता है कि गॉसियन धारणा विफल होने पर क्या करना चाहिए (इस अर्थ में कि वहाँ प्रीलिटर्स हैं):

यह अक्सर माना जाता है कि डेटा त्रुटियों को सामान्य रूप से वितरित किया जाता है, कम से कम लगभग, या कि सामान्य रूप से वितरित अनुमानों का उत्पादन करने के लिए केंद्रीय सीमा प्रमेय पर भरोसा किया जा सकता है। दुर्भाग्य से, जब डेटा में आउटलेयर होते हैं, तो शास्त्रीय तरीकों में अक्सर बहुत खराब प्रदर्शन होता है

इनको ML में भी लागू किया गया है, उदाहरण के लिए Mika el al। (2001) कर्नल फिशर एल्गोरिथम के लिए एक गणितीय प्रोग्रामिंग दृष्टिकोण , वे वर्णन करते हैं कि कैसे केडीएफए (अन्य नुकसान कार्यों के साथ) के साथ ह्यूबर के रॉबस्ट लॉस का उपयोग किया जा सकता है। बेशक यह एक वर्गीकरण नुकसान है, लेकिन KFDA प्रासंगिकता वेक्टर मशीन (Mika पेपर के अनुभाग 4 देखें) से निकटता से संबंधित है।

जैसा कि प्रश्न में निहित है, नुकसान कार्यों और बेयसियन त्रुटि मॉडल के बीच घनिष्ठ संबंध है ( एक चर्चा के लिए यहां देखें )।

हालांकि यह मामला है कि जैसे ही आप "कायरता" नुकसान कार्यों को शामिल करना शुरू करते हैं, अनुकूलन कठिन हो जाता है (ध्यान दें कि यह बायेसियन दुनिया में भी होता है)। इसलिए कई मामलों में लोग मानक नुकसान कार्यों का सहारा लेते हैं जो अनुकूलन करने में आसान होते हैं, और इसके बजाय यह सुनिश्चित करने के लिए अतिरिक्त पूर्व प्रसंस्करण करते हैं कि डेटा मॉडल के अनुरूप है।

आपके द्वारा उल्लेखित अन्य बिंदु यह है कि CLT केवल उन नमूनों पर लागू होता है जो IID हैं। यह सच है, लेकिन तब अधिकांश एल्गोरिदम की धारणा (और साथ में विश्लेषण) समान है। जब आप गैर-आईआईडी आंकड़ों को देखना शुरू करते हैं, तो चीजें बहुत अधिक मुश्किल हो जाती हैं। एक उदाहरण यह है कि यदि अस्थायी निर्भरता है, तो उस स्थिति में आम तौर पर दृष्टिकोण यह माना जाता है कि निर्भरता केवल एक निश्चित खिड़की तक फैलती है, और इसलिए नमूने को इस विंडो के बाहर लगभग IID माना जा सकता है (उदाहरण के लिए देखें यह शानदार लेकिन कठिन पेपर क्रोमैटिकएसी) गैर-आईआईडी डेटा के लिए -बाय बाउंड्स: रैंकिंग और स्थिर Ranking-मिक्सिंग प्रक्रियाओं के लिए आवेदन), जिसके बाद सामान्य विश्लेषण लागू किया जा सकता है।

तो, हाँ, यह सुविधा के हिस्से में नीचे आता है, और भाग में क्योंकि वास्तविक दुनिया में, अधिकांश त्रुटियां दिखती हैं (मोटे तौर पर) गौसियन। निश्चित रूप से एक नई समस्या को देखते हुए हमेशा यह सुनिश्चित करना चाहिए कि मान्यताओं का उल्लंघन न हो।

— टीडीसी
स्रोत

+1 विशेष रूप से मजबूत और गैर-मजबूत आंकड़ों के बारे में उल्लेख करने के लिए आपका बहुत-बहुत धन्यवाद। मैं ध्यान देता हूं कि सामान्य रूप से माध्य और अल्फा-ट्रिम किए गए काम आमतौर पर अभ्यास की तुलना में बेहतर होते हैं, लेकिन मुझे उनके पीछे के सिद्धांत का पता नहीं था।

— पेट्रीकर

सामान्य रूप से वितरित डेटा से जुड़ा एक और सुविधा आइटम यह है कि 0 सहसंबंध स्वतंत्रता का अर्थ है।

— एडमो

IID-ness के बारे में टिप्पणी बिल्कुल सही नहीं है। वहाँ (कई) बहुत सामान्य केंद्रीय सीमा सिद्धांत हैं जो लागू होते हैं जब परिणाम स्वतंत्र होते हैं, लेकिन पहचान नहीं होती है; उदाहरण के लिए लिंडबर्ग सीएलटी देखें। सीएलटी परिणाम भी हैं जिन्हें स्वतंत्रता की भी आवश्यकता नहीं है; वे उदाहरण के लिए विनिमेय टिप्पणियों से उत्पन्न हो सकते हैं।

— अतिथि