मेरा प्रश्न बहुत ही सरल है: हम सामान्य वितरण का चयन क्यों करते हैं जो त्रुटि अवधि के बाद रैखिक प्रतिगमन की धारणा में होती है? हम दूसरों की तरह वर्दी, टी या जो कुछ भी क्यों नहीं चुनते हैं?
मेरा प्रश्न बहुत ही सरल है: हम सामान्य वितरण का चयन क्यों करते हैं जो त्रुटि अवधि के बाद रैखिक प्रतिगमन की धारणा में होती है? हम दूसरों की तरह वर्दी, टी या जो कुछ भी क्यों नहीं चुनते हैं?
जवाबों:
हम अन्य त्रुटि वितरण चुनते हैं। आप कई मामलों में इतनी आसानी से कर सकते हैं; यदि आप अधिकतम संभावना अनुमान का उपयोग कर रहे हैं, तो यह हानि फ़ंक्शन को बदल देगा। यह निश्चित रूप से व्यवहार में किया जाता है।
लाप्लास (डबल घातीय त्रुटियां) कम से कम पूर्ण विचलन प्रतिगमन / प्रतिगमन (जो साइट पर कई पोस्ट चर्चा करते हैं) के अनुरूप हैं । टी-त्रुटियों के साथ नियमन का उपयोग कभी-कभी किया जाता है (कुछ मामलों में क्योंकि वे सकल त्रुटियों के लिए अधिक मजबूत होते हैं), हालांकि उनके पास नुकसान हो सकता है - संभावना (और इसलिए नुकसान की नकारात्मक) के कई तरीके हो सकते हैं।
वर्दी त्रुटियों एक के अनुरूप नुकसान (अधिकतम विचलन को कम से कम); इस तरह के प्रतिगमन को कभी-कभी चेबीशेव सन्निकटन कहा जाता है (हालांकि सावधान रहें, क्योंकि अनिवार्य रूप से एक ही नाम के साथ एक और बात है)। फिर, यह कभी-कभी किया जाता है (वास्तव में साधारण प्रतिगमन और छोटे डेटा सेट के लिए निरंतर त्रुटियों के साथ निरंतर फैलता है फिट अक्सर हाथ से खोजने के लिए काफी आसान है, सीधे एक भूखंड पर, हालांकि व्यवहार में आप रैखिक प्रोग्रामिंग विधियों, या अन्य एल्गोरिदम का उपयोग कर सकते हैं। , वास्तव में, और प्रतिगमन समस्याओं को एक दूसरे के duals, जो कुछ समस्याओं के लिए कभी कभी सुविधाजनक शॉर्टकट को जन्म दे सकता है)।
वास्तव में, यहां "वर्दी त्रुटि" मॉडल का एक उदाहरण हाथ से डेटा के लिए फिट है:
यह पहचानना आसान है (डेटा की ओर सीधा खिसककर) कि चार चिह्नित बिंदु सक्रिय सेट में होने के लिए एकमात्र उम्मीदवार हैं; उनमें से तीन वास्तव में सक्रिय सेट बनाएंगे (और थोड़ी सी जांच जल्द ही पहचान लेती है कि कौन सा तीन सबसे संकीर्ण बैंड है जो सभी डेटा को सम्मिलित करता है)। उस बैंड के केंद्र में रेखा (लाल रंग में चिह्नित) तो लाइन की अधिकतम संभावना का अनुमान है।
मॉडल के कई अन्य विकल्प संभव हैं और काफी कुछ व्यवहार में उपयोग किए गए हैं।
ध्यान दें कि यदि आपके पास प्रपत्र k के घनत्व के साथ योगात्मक, स्वतंत्र, निरंतर-फैलाने वाली त्रुटियां हैं , संभावना को अधिकतम को न्यूनतम करने के अनुरूप होगा है, जहां है वें अवशिष्ट।
हालांकि, कई कारण हैं कि कम से कम वर्ग एक लोकप्रिय विकल्प है, जिनमें से कई को सामान्यता की किसी भी धारणा की आवश्यकता नहीं है।
सामान्य / गाऊसी धारणा का उपयोग अक्सर किया जाता है क्योंकि यह सबसे कम्प्यूटेशनल रूप से सुविधाजनक विकल्प है। प्रतिगमन गुणांक के अधिकतम संभावना अनुमान की गणना एक द्विघात न्यूनता समस्या है, जिसे शुद्ध रैखिक बीजगणित का उपयोग करके हल किया जा सकता है। शोर वितरण के अन्य विकल्पों में अधिक जटिल अनुकूलन समस्याएं होती हैं जिन्हें आमतौर पर संख्यात्मक रूप से हल करना पड़ता है। विशेष रूप से, समस्या गैर-उत्तल हो सकती है, अतिरिक्त जटिलताओं की उपज हो सकती है।
सामान्य रूप से सामान्यता एक अच्छी धारणा नहीं है। सामान्य वितरण में बहुत हल्की पूंछ होती है, और इससे प्रतिगमन अनुमान आउटलेर्स के प्रति काफी संवेदनशील हो जाता है। माप डेटा जैसे आउटलेयर में यदि लाप्लास या स्टूडेंट के टी डिस्ट्रीब्यूशन जैसे विकल्प अक्सर बेहतर होते हैं।
अधिक जानकारी के लिए पीटर हबर की सेमिनल पुस्तक रोबस्ट स्टैटिस्टिक्स देखें।
उन परिकल्पना के साथ काम करते समय, चुकता-क्षरण आधारित प्रतिगमन और अधिकतम संभावना आपको एक ही समाधान प्रदान करती है। आप गुणांक महत्व के लिए सरल एफ-परीक्षण प्राप्त करने में सक्षम हैं, साथ ही साथ आपकी भविष्यवाणियों के लिए आत्मविश्वास अंतराल भी।
निष्कर्ष में, हम अक्सर सामान्य वितरण को चुनने का कारण इसके गुण हैं, जो अक्सर चीजों को आसान बनाते हैं। यह भी एक बहुत ही प्रतिबंधात्मक धारणा नहीं है, क्योंकि कई अन्य प्रकार के डेटा "तरह के सामान्य" व्यवहार करेंगे
वैसे भी, जैसा कि पिछले उत्तर में बताया गया है, अन्य वितरणों के लिए प्रतिगमन मॉडल को परिभाषित करने की संभावनाएं हैं। सामान्य बस सबसे अधिक बार-बार होने वाला होता है
ग्लेन_बी ने अच्छी तरह से समझाया है कि ओएलएस प्रतिगमन को सामान्यीकृत किया जा सकता है (वर्गों की न्यूनतम राशि के बजाय संभावना को अधिकतम करना ) और हम अन्य वितरणों का चयन करते हैं।
हालाँकि, सामान्य वितरण को इतनी बार क्यों चुना जाता है ?
कारण यह है कि सामान्य वितरण कई स्थानों पर स्वाभाविक रूप से होता है। यह थोड़ा वैसा ही है जैसे हम अक्सर प्रकृति में विभिन्न स्थानों पर "अनायास" सुनहरा अनुपात या फाइबोनैचि संख्या देखते हैं।
सामान्य वितरण परिमित विचरण के साथ चर की राशि के लिए सीमित वितरण है (या कम सख्त प्रतिबंध भी संभव है)। और, सीमा के बिना, यह परिमाण की एक परिमित संख्या के योग के लिए एक अच्छा सन्निकटन भी है। इसलिए, क्योंकि कई देखी गई त्रुटियां बहुत कम अप्राप्य त्रुटियों के योग के रूप में होती हैं, सामान्य वितरण एक अच्छा सन्निकटन है।
यहां देखें सामान्य वितरण का महत्व
जहां गेल्टन की बीन मशीनें सिद्धांत को सहज रूप से दिखाती हैं
हम अन्य वितरणों का चयन क्यों नहीं करते? —हम करते हैं।
सरप्राइज़ लॉस आमतौर पर सबसे समझदार नुकसान है:
आप उपरोक्त समीकरण में निश्चित विचरण के साथ एक सामान्य घनत्व का उपयोग करते हुए रैखिक प्रतिगमन के बारे में सोच सकते हैं:
इससे वजन अपडेट होता है:
सामान्य तौर पर, यदि आप एक और घातीय परिवार वितरण का उपयोग करते हैं, तो इस मॉडल को सामान्यीकृत रैखिक मॉडल कहा जाता है । अलग-अलग वितरण एक अलग घनत्व से मेल खाते हैं, लेकिन भविष्यवाणी, वजन और लक्ष्य को बदलकर इसे और अधिक आसानी से औपचारिक रूप दिया जा सकता है।
जहाँ तक मुझे पता है, ग्रेडिएंट लॉग-नॉर्मलाइज़र किसी भी मोनोटोनिक, एनालिटिक फ़ंक्शन और किसी भी मोनोटोनिक हो सकता है, एनालिटिक फ़ंक्शन कुछ घातीय परिवार का ग्रेडिएंट लॉग-सामान्याइज़र है।