जब त्रुटियों को सामान्य रूप से वितरित नहीं किया जाता है, तो प्रतिगमन के लेस्टर-वर्ग और अधिकतम-संभावना तरीके समतुल्य क्यों नहीं हैं?


10

शीर्षक यह सब कहता है। मैं समझता हूं कि यदि मॉडल की त्रुटियों को सामान्य रूप से वितरित किया जाता है, तो लेस्टर-स्क्वेयर और अधिकतम-संभावनाएं प्रतिगमन गुणांक के लिए समान परिणाम देगी। लेकिन, क्या होता है यदि त्रुटियों को सामान्य रूप से वितरित नहीं किया जाता है? दो विधियाँ अब क्यों समान नहीं हैं?


क्या आप का अर्थ है (ए) MLE का उपयोग जब सामान्यता की धारणा को पूरा नहीं किया जाता है, या (बी) गैर-गाऊसी संभावना फ़ंक्शन का उपयोग कर रहा है?
टिम

(ए), जब सामान्यता की धारणा को पूरा नहीं किया जाता है
शुकलस्वाग

यहां तक ​​कि जब धारणा पूरी नहीं होती है (यानी देखे गए मानों को गॉसियन वितरित नहीं किया जाता है) ... यदि आप ग्लीसियन संभावना फ़ंक्शन के उपयोग के साथ MLE की गणना करते हैं तो आप समान रूप से कम से कम वर्ग अनुकूलन करते हैं। अनुकूलन विधियाँ गणितीय रूप से समतुल्य हैं, और इस बात से स्वतंत्र हैं कि सामान्यता की धारणा सही थी या नहीं।
सेक्स्टस एम्पिरिकस

सामान्य वितरण के साथ भी, कम से कम वर्ग निश्चित विचरण लगाते हैं।
कोडइन्चोस

इस संबंधित प्रश्न को भी देखें: आंकड़े.stackexchange.com/questions/173621/…
kjetil b halvorsen

जवाबों:


16

संक्षिप्त जवाब

एक बहुभिन्नरूपी गाऊसी की संभावना घनत्व वितरित चर , माध्य के साथ संबंधित है जो यूक्लिडियन के वर्ग से संबंधित है। माध्य और चर के बीच की दूरी ( ), या दूसरे शब्दों में वर्गों का योग।x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


लंबा जवाब

यदि आप अपने लिए गुणा कई गाऊसी वितरण त्रुटियों, जहां बराबर विचलन मान, तो आप वर्गों की राशि मिलता है।n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

या सुविधाजनक लघुगणक रूप में:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

तो वर्गों के योग को कम करने के लिए का अनुकूलन (लॉग) संभावना को अधिकतम करने के बराबर है (यानी, कई गाऊसी वितरण के उत्पाद, या बहुभिन्नरूपी गौसियन वितरण)।μ

यह घातीय संरचना के अंदर अंतर का नेस्टेड वर्ग है , , जो अन्य वितरणों के पास नहीं है।(μx)exp[(xiμ)2]


उदाहरण के लिए पॉसों के वितरण के मामले के साथ तुलना करें

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

निम्नलिखित को न्यूनतम करने पर अधिकतम होता है:

μjlog(μj)xij

जो एक अलग जानवर है।


इसके अलावा (इतिहास)

सामान्य वितरण का इतिहास (द्विपद वितरण के लिए अनुमान के रूप में इस वितरण के लिए हो रही उपेक्षा) वास्तव में वितरण की खोज के रूप में है जो MLE को न्यूनतम वर्ग विधि (कम से कम वर्ग विधि के बजाय) विधि के अनुरूप बनाता है यह सामान्य वितरण के MLE को व्यक्त कर सकता है, पहले कम से कम वर्ग विधि आया, दूसरा गौसियन वितरण आया)

ध्यान दें कि गॉस, 'अधिकतम संभावना की विधि' को 'कम से कम वर्गों की विधि' से जोड़ते हुए, 'गॉसियन डिस्ट्रीब्यूशन', के साथ आए, त्रुटियों के एकमात्र वितरण के रूप में जो हमें ले जाता है। इस संबंध को दो विधियों के बीच बनाएं।ex2

चार्ल्स हेनरी डेविस के अनुवाद (शंकु वर्गों में सूर्य के बारे में आगे बढ़ते हुए स्वर्गीय निकायों की गति का सिद्धांत। गॉस के "थोरिया मोटस," एक परिशिष्ट के साथ) का अनुवाद ...

गॉस परिभाषित करता है:

तदनुसार, संभावना प्रत्येक त्रुटि को सौंपा जा करने के लिए जाएगा के एक समारोह से व्यक्त किया जा जो हम द्वारा निरूपित करेगा ।ΔΔψΔ

(मेरे द्वारा किया गया इटैलिजेशन)

और जारी है ( धारा 177 पीपी 258 में )

... यह आसानी से पता चला है कि एक स्थिर मात्रा होनी चाहिए। जिसे हम द्वारा निरूपित करेंगे । इसलिए हमारे पास ने अतिशयोक्तिपूर्ण लघुगणक के आधार को द्वारा निरूपित किया और मान लिया।ψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

अंत में (सामान्यीकरण के बाद और एहसास )k<0

ψΔ=hπehhΔΔ


StackExchangeStrike द्वारा लिखित


क्या आपको याद है कि आपको यह ज्ञान कहाँ से मिला है? क्या आप अपने पोस्ट में स्रोत जोड़ना चाहेंगे? (मुझे एक पाठ्यपुस्तक खोजने में कठिन समय मिल रहा है जो इसे अच्छी तरह से समझाता है।)
जूइयॉ

@Joooeey मैंने गॉस के अनुवादित उद्धरणों के लिए स्रोत का शीर्षक और साथ ही कई ऑनलाइन स्रोतों में से एक का लिंक जोड़ा है। यह मूल पाठ भारी है, लेकिन आपको सामान्य वितरण के इतिहास के किसी भी विवरण में हल्की संधियों का सामना करना चाहिए।
सेक्स्टस एम्पिरिकस

संभावना कार्य कई स्थानों पर पॉप अप कर रहे हैं। यदि आप उन स्रोतों की तलाश करते हैं, जहां मुझे यह 'ज्ञान' मिला है, तो मुझे लगता है कि मैं पीयरसन के ची-स्क्वेर्ड परीक्षण के बारे में 1900 लेख कह सकता हूं, जहां मल्टीवेरेट सामान्य वितरण को ज्यामितीय रूप से व्यवहार किया जाता है। इसके अलावा फिशर ने कई बार ज्यामितीय अभ्यावेदन का इस्तेमाल किया (उदाहरण के लिए 20s में यह एक लेख है, अनुमानों की दक्षता के बारे में, जहां वह औसत चुकता त्रुटि की तुलना करता है और निरपेक्ष त्रुटि का मतलब है और जहां वह हाइपरस्पेस में सतहों के बारे में बोलता है)।
सेक्सटस एम्पिरिकस

@ जूआए मैंने यहाँ से पहले उस फिशर लेख का संदर्भ दिया है । और मेरा जवाब यहाँ फिशर से संबंधित टी-डिस्ट्रीब्यूशन की एक संपत्ति प्राप्त करने के लिए एक ज्यामितीय दृष्टिकोण का उपयोग करता है (मुझे विश्वास है कि लेख जहां वह गॉसेट के टी-वितरण या शायद कुछ थोड़े बाद के लेख का प्रमाण देता है)।
सेक्स्टस एम्पिरिकस

5

क्योंकि MLE सामान्य रूप से वितरित अवशिष्ट की धारणा से लिया गया है।

ध्यान दें कि

minβ  Xβy2

है कोई संभाव्य अर्थ : बस लगता है कि वर्ग नुकसान समारोह को कम। सब कुछ निर्धारक है, और वहां कोई यादृच्छिक घटक नहीं है।β

जहां संभावना और संभावना की अवधारणा आती है, क्या हम मान लेते हैं

y=Xβ+ϵ

जहां हम को एक यादृच्छिक चर के रूप में मान रहे हैं , और सामान्य रूप से वितरित किया जाता है।yϵ


@ मैथ्यू ड्र्यू क्यों मैट्रिक्स नोटेशन को बदलते हैं और योग चिन्ह जोड़ते हैं?
हायताओ डू

मुझे लगा कि यह स्पष्ट होगा, लेकिन यदि आपका दावा है कि एक बयान का कोई अर्थपूर्ण अर्थ नहीं है, तो आप उन प्रतीकों के साथ एक अभिव्यक्ति का उपयोग कर सकते हैं जिन्हें यादृच्छिक चर के रूप में सबसे अच्छी व्याख्या की जाती है। आप जिस ऑप्टिमाइज़ेशन समस्या का हल कर रहे हैं, वह निश्चित डेटा के संबंध में है, मैंने इसे स्पष्ट कर दिया है।
मैथ्यू ड्र्यू

5

सबसे कम वर्ग और अधिकतम (गाऊसी) संभावना हमेशा फिट होती है। यही है, उन्हें गुणांक के एक ही सेट द्वारा कम से कम किया जाता है।

त्रुटियों पर धारणा बदलने से आपके संभावना फ़ंक्शन में बदलाव होता है (मॉडल की संभावना को अधिकतम करना त्रुटि शब्द की संभावना को अधिकतम करने के बराबर है), और इसलिए फ़ंक्शन को अब गुणांक के समान सेट से कम से कम नहीं किया जाएगा।

तो व्यवहार में दोनों समान हैं, लेकिन सिद्धांत रूप में, जब आप एक अलग संभावना को अधिकतम करते हैं, तो आपको लिस्टर-वर्गों की तुलना में एक अलग उत्तर मिलेगा


"या हमेशा बराबर"?
नबर

0

एक ठोस उदाहरण: मान लीजिए कि हम एक साधारण त्रुटि फ़ंक्शन p (1) = 9, p (-9) = .10 लेते हैं। यदि हम दो बिंदु लेते हैं, तो एलएस केवल उनके माध्यम से लाइन लेने जा रहा है। दूसरी ओर, एमएल, यह मानकर चल रहा है कि दोनों बिंदु एक इकाई बहुत अधिक हैं, और इस प्रकार इकाई पर स्थानांतरित किए गए बिंदुओं के माध्यम से लाइन ले जाएगा।


2
आपका उदाहरण अस्पष्ट है; विशेष रूप से, यह देखना मुश्किल है कि आप किस मॉडल का वर्णन करने की कोशिश कर रहे हैं या एमएल आपके द्वारा दावा किए जाने वाले परिणाम का उत्पादन क्यों करेगा। क्या आप इस उत्तर में आगे बता सकते हैं?
whuber

मॉडल यह है कि y = mx + b + त्रुटि, जहां त्रुटि में +1 होने की 90% संभावना और -9 होने का 10% मौका है। किसी भी देखे गए बिंदु को देखते हुए, सच्चे बिंदु के नीचे एक इकाई होने की 90% संभावना है और ऊपर नौ इकाइयों के होने की 10% संभावना है। इसलिए, एमएल देता है कि सही बिंदु एक इकाई नीचे है। आप इस बारे में क्या नहीं समझते हैं?
संचय

2
आपकी टिप्पणी सहायक है, लेकिन आपका जवाब अभी भी मॉडल को किसी भी स्पष्ट या समझ में नहीं आता है। क्या आप उस स्पष्टीकरण को उत्तर में ही शामिल कर सकते हैं? इसका अच्छा उदाहरण है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.