रैखिक प्रतिगमन में सामान्यता की धारणा क्यों


15

मेरा प्रश्न बहुत ही सरल है: हम सामान्य वितरण का चयन क्यों करते हैं जो त्रुटि अवधि के बाद रैखिक प्रतिगमन की धारणा में होती है? हम दूसरों की तरह वर्दी, टी या जो कुछ भी क्यों नहीं चुनते हैं?


5
हम सामान्य धारणा नहीं चुनते हैं। यह सिर्फ ऐसा होता है कि जब त्रुटि सामान्य होती है, तो मॉडल गुणांक बिल्कुल सामान्य वितरण का पालन करता है और उनके बारे में परिकल्पनाओं का परीक्षण करने के लिए एक सटीक एफ-परीक्षण का उपयोग किया जा सकता है।
एडमो

10
क्योंकि गणित इतनी आसानी से काम करता है कि लोग आधुनिक कंप्यूटर से पहले इसका इस्तेमाल कर सकते हैं।
नेट

1
@ अदमो मेरी समझ में नहीं आता; आपने सिर्फ उन कारणों को रेखांकित किया है, जिन्हें हम चुनते हैं।
जीके

2
@JiK यदि मैं वितरण चुन सकता था, तो आँकड़ों की कोई आवश्यकता नहीं होगी। पूरी दुनिया संभावना होगी।
एडमो

1
@ अदमो जब आप सांख्यिकीय निष्कर्ष निकाल रहे हैं तो आप अपने मॉडल के लिए मान्यताओं का चयन कर सकते हैं, इसलिए मुझे नहीं लगता कि इसका कोई अर्थ नहीं है।
जीके

जवाबों:


29

हम अन्य त्रुटि वितरण चुनते हैं। आप कई मामलों में इतनी आसानी से कर सकते हैं; यदि आप अधिकतम संभावना अनुमान का उपयोग कर रहे हैं, तो यह हानि फ़ंक्शन को बदल देगा। यह निश्चित रूप से व्यवहार में किया जाता है।

लाप्लास (डबल घातीय त्रुटियां) कम से कम पूर्ण विचलन प्रतिगमन / L1 प्रतिगमन (जो साइट पर कई पोस्ट चर्चा करते हैं) के अनुरूप हैं । टी-त्रुटियों के साथ नियमन का उपयोग कभी-कभी किया जाता है (कुछ मामलों में क्योंकि वे सकल त्रुटियों के लिए अधिक मजबूत होते हैं), हालांकि उनके पास नुकसान हो सकता है - संभावना (और इसलिए नुकसान की नकारात्मक) के कई तरीके हो सकते हैं।

वर्दी त्रुटियों एक के अनुरूप L नुकसान (अधिकतम विचलन को कम से कम); इस तरह के प्रतिगमन को कभी-कभी चेबीशेव सन्निकटन कहा जाता है (हालांकि सावधान रहें, क्योंकि अनिवार्य रूप से एक ही नाम के साथ एक और बात है)। फिर, यह कभी-कभी किया जाता है (वास्तव में साधारण प्रतिगमन और छोटे डेटा सेट के लिए निरंतर त्रुटियों के साथ निरंतर फैलता है फिट अक्सर हाथ से खोजने के लिए काफी आसान है, सीधे एक भूखंड पर, हालांकि व्यवहार में आप रैखिक प्रोग्रामिंग विधियों, या अन्य एल्गोरिदम का उपयोग कर सकते हैं। , वास्तव में, L और L1 प्रतिगमन समस्याओं को एक दूसरे के duals, जो कुछ समस्याओं के लिए कभी कभी सुविधाजनक शॉर्टकट को जन्म दे सकता है)।

वास्तव में, यहां "वर्दी त्रुटि" मॉडल का एक उदाहरण हाथ से डेटा के लिए फिट है:

L-infinity regression fitted by hand. The two "lowest" points under the strip of data points are marked, and the two "highest" points above the strip of data are marked.

यह पहचानना आसान है (डेटा की ओर सीधा खिसककर) कि चार चिह्नित बिंदु सक्रिय सेट में होने के लिए एकमात्र उम्मीदवार हैं; उनमें से तीन वास्तव में सक्रिय सेट बनाएंगे (और थोड़ी सी जांच जल्द ही पहचान लेती है कि कौन सा तीन सबसे संकीर्ण बैंड है जो सभी डेटा को सम्मिलित करता है)। उस बैंड के केंद्र में रेखा (लाल रंग में चिह्नित) तो लाइन की अधिकतम संभावना का अनुमान है।

मॉडल के कई अन्य विकल्प संभव हैं और काफी कुछ व्यवहार में उपयोग किए गए हैं।

ध्यान दें कि यदि आपके पास प्रपत्र k के घनत्व के साथ योगात्मक, स्वतंत्र, निरंतर-फैलाने वाली त्रुटियां हैंkexp(c.g(ε)) , संभावना को अधिकतम को न्यूनतम करने के अनुरूप होगाig(ei) है, जहांei हैi वें अवशिष्ट।

हालांकि, कई कारण हैं कि कम से कम वर्ग एक लोकप्रिय विकल्प है, जिनमें से कई को सामान्यता की किसी भी धारणा की आवश्यकता नहीं है।


2
बहुत बढ़िया जवाब। क्या आप कुछ लिंक जोड़ना चाहेंगे जो अधिक विवरण देते हैं कि व्यवहार में इन विविधताओं का उपयोग कैसे किया जाता है?
rgk

(+1) शानदार जवाब। आप फिटिंग के लिए इस्तेमाल किया आर-कोड साझा करने आपत्ति तो नहीं है -Regression लाइन? L
COOLSerdash

1
जैसा कि मैंने पाठ में समझाया था, मैंने इसे उसी तरीके से फिट किया, जिस तरह से मैंने वर्णन किया था। हालांकि यह कोड का उपयोग करके आसानी से पर्याप्त किया जा सकता है, मैंने सचमुच एमएस पेंट में प्लॉट खोला और सक्रिय सेट में तीन बिंदुओं की पहचान की (जिसमें से दो को ढलान दिया गया) - और फिर लाइन को तीसरे बिंदु की ओर आधा ले जाया गया (पिक्सेल में ऊर्ध्वाधर दूरी को कम करके और कई पिक्सेल को रेखा से ऊपर ले जाते हुए) - बिंदु यह प्रदर्शित करने के लिए कि यह कितना सरल हो सकता है। एक बच्चे को इसे करना सिखाया जा सकता है।
Glen_b -Reinstate Monica

@Glen_b वास्तव में, मैं एक किशोरी थी जब मुझे बिल्कुल नए सिरे से भौतिकी प्रयोगशाला में ऐसा करने के लिए सिखाया गया था।
पीटर लियोपोल्ड

9

सामान्य / गाऊसी धारणा का उपयोग अक्सर किया जाता है क्योंकि यह सबसे कम्प्यूटेशनल रूप से सुविधाजनक विकल्प है। प्रतिगमन गुणांक के अधिकतम संभावना अनुमान की गणना एक द्विघात न्यूनता समस्या है, जिसे शुद्ध रैखिक बीजगणित का उपयोग करके हल किया जा सकता है। शोर वितरण के अन्य विकल्पों में अधिक जटिल अनुकूलन समस्याएं होती हैं जिन्हें आमतौर पर संख्यात्मक रूप से हल करना पड़ता है। विशेष रूप से, समस्या गैर-उत्तल हो सकती है, अतिरिक्त जटिलताओं की उपज हो सकती है।

सामान्य रूप से सामान्यता एक अच्छी धारणा नहीं है। सामान्य वितरण में बहुत हल्की पूंछ होती है, और इससे प्रतिगमन अनुमान आउटलेर्स के प्रति काफी संवेदनशील हो जाता है। माप डेटा जैसे आउटलेयर में यदि लाप्लास या स्टूडेंट के टी डिस्ट्रीब्यूशन जैसे विकल्प अक्सर बेहतर होते हैं।

अधिक जानकारी के लिए पीटर हबर की सेमिनल पुस्तक रोबस्ट स्टैटिस्टिक्स देखें।


2

उन परिकल्पना के साथ काम करते समय, चुकता-क्षरण आधारित प्रतिगमन और अधिकतम संभावना आपको एक ही समाधान प्रदान करती है। आप गुणांक महत्व के लिए सरल एफ-परीक्षण प्राप्त करने में सक्षम हैं, साथ ही साथ आपकी भविष्यवाणियों के लिए आत्मविश्वास अंतराल भी।

निष्कर्ष में, हम अक्सर सामान्य वितरण को चुनने का कारण इसके गुण हैं, जो अक्सर चीजों को आसान बनाते हैं। यह भी एक बहुत ही प्रतिबंधात्मक धारणा नहीं है, क्योंकि कई अन्य प्रकार के डेटा "तरह के सामान्य" व्यवहार करेंगे

वैसे भी, जैसा कि पिछले उत्तर में बताया गया है, अन्य वितरणों के लिए प्रतिगमन मॉडल को परिभाषित करने की संभावनाएं हैं। सामान्य बस सबसे अधिक बार-बार होने वाला होता है


2

ग्लेन_बी ने अच्छी तरह से समझाया है कि ओएलएस प्रतिगमन को सामान्यीकृत किया जा सकता है (वर्गों की न्यूनतम राशि के बजाय संभावना को अधिकतम करना ) और हम अन्य वितरणों का चयन करते हैं।

हालाँकि, सामान्य वितरण को इतनी बार क्यों चुना जाता है ?

कारण यह है कि सामान्य वितरण कई स्थानों पर स्वाभाविक रूप से होता है। यह थोड़ा वैसा ही है जैसे हम अक्सर प्रकृति में विभिन्न स्थानों पर "अनायास" सुनहरा अनुपात या फाइबोनैचि संख्या देखते हैं।

सामान्य वितरण परिमित विचरण के साथ चर की राशि के लिए सीमित वितरण है (या कम सख्त प्रतिबंध भी संभव है)। और, सीमा के बिना, यह परिमाण की एक परिमित संख्या के योग के लिए एक अच्छा सन्निकटन भी है। इसलिए, क्योंकि कई देखी गई त्रुटियां बहुत कम अप्राप्य त्रुटियों के योग के रूप में होती हैं, सामान्य वितरण एक अच्छा सन्निकटन है।

यहां देखें सामान्य वितरण का महत्व

जहां गेल्टन की बीन मशीनें सिद्धांत को सहज रूप से दिखाती हैं

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png


-1

हम अन्य वितरणों का चयन क्यों नहीं करते? —हम करते हैं।

yiRxiRnxi

y^i=wxi.

सरप्राइज़ लॉस आमतौर पर सबसे समझदार नुकसान है:

L=logP(yixi).

आप उपरोक्त समीकरण में निश्चित विचरण के साथ एक सामान्य घनत्व का उपयोग करते हुए रैखिक प्रतिगमन के बारे में सोच सकते हैं:

L=logP(yixi)(yiy^i)2.

इससे वजन अपडेट होता है:

wL=(y^iyi)xi


सामान्य तौर पर, यदि आप एक और घातीय परिवार वितरण का उपयोग करते हैं, तो इस मॉडल को सामान्यीकृत रैखिक मॉडल कहा जाता है । अलग-अलग वितरण एक अलग घनत्व से मेल खाते हैं, लेकिन भविष्यवाणी, वजन और लक्ष्य को बदलकर इसे और अधिक आसानी से औपचारिक रूप दिया जा सकता है।

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,


जहाँ तक मुझे पता है, ग्रेडिएंट लॉग-नॉर्मलाइज़र किसी भी मोनोटोनिक, एनालिटिक फ़ंक्शन और किसी भी मोनोटोनिक हो सकता है, एनालिटिक फ़ंक्शन कुछ घातीय परिवार का ग्रेडिएंट लॉग-सामान्याइज़र है।


यह हमारे मानकों के लिए बहुत छोटा और बहुत ही गूढ़ है, कृपया सरप्राइज़ को भी समझाएं ।
kjetil b halvorsen

1
"प्रत्येक लिंक फ़ंक्शन एक अलग वितरण धारणा से मेल खाती है" यह बहुत अस्पष्ट है। लिंक फ़ंक्शन का अलग-अलग वितरण मान्यताओं के सामान्यीकरण से कोई लेना-देना नहीं है, लेकिन वितरण के माध्य का वर्णन करने वाले रैखिक (रैखिक) हिस्से को सामान्य करने के साथ।
सेक्स्टस एम्पिरिकस

1
fg

1
आमतौर पर कुछ वितरण कार्य कुछ वितरण मान्यताओं के साथ उपयोग किए जाते हैं। लेकिन यह एक आवश्यकता नहीं है। इसलिए मेरी वितरण संबंधी धारणाएँ उस उदाहरण में सामान्य हैं , न कि पॉइसन (यह जानबूझकर)। कुछ बेहतर (अधिक व्यावहारिक और प्रसिद्ध) उदाहरण द्विपद / बर्नौली वितरित चर हैं जहां लोग प्रोबेट मॉडल या लॉजिट मॉडल के साथ काम करते हैं, इस प्रकार विभिन्न लिंक फ़ंक्शन होते हैं लेकिन समान (सशर्त) वितरण धारणा है।
सेक्सटस एम्पिरिकस

1
@ नील जी: मैं आलसी हूं? आप मूल पोस्ट में सरलीकरण को आसानी से शामिल कर सकते हैं , हाँ? इसके अलावा, जब मैं इस तरह की टिप्पणियां कर रहा हूं, तो यह साइट के लिए खुद से ज्यादा है। इस साइट को स्व-निहित माना जाता है। मैं इसका अर्थ / अनुमान लगा सकता था (भले ही यह आँकड़ों में गैरमानक शब्दावली हो), जैसा कि आप मेरे जवाब से यहाँ
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.