अधिकतम संभावना विधि बनाम कम से कम वर्ग विधि


42

अधिकतम संभावना अनुमान (MLE) बनाम कम से कम वर्गों के अनुमानों (LSE) के बीच मुख्य अंतर क्या है?

हम रैखिक प्रतिगमन और इसके विपरीत में मूल्यों की भविष्यवाणी के लिए MLE का उपयोग क्यों नहीं कर सकते हैं?y

इस विषय पर किसी भी मदद की बहुत सराहना की जाएगी।


8
यदि आप चाहें तो MLE का उपयोग रैखिक प्रतिगमन में कर सकते हैं। यह भी समझ में आ सकता है कि त्रुटि वितरण गैर-सामान्य है और आपका लक्ष्य एक के बजाय "सबसे अधिक संभावना" अनुमान प्राप्त करना है जो वर्गों के योग को कम करता है।
रिचर्ड हार्डी

16
सामान्य त्रुटि धारणा के तहत, जैसा कि आमतौर पर रैखिक प्रतिगमन में माना जाता है, MLE और LSE समान हैं!
ट्राईनाडॉस्टैट

1
गॉस-मार्कोव प्रमेय के लिए हमारी साइट खोजें ।
whuber

सभी उत्तरों के लिए धन्यवाद। अब यह समझ में आता है। नेट पर इस विषय की खोज करते हुए, मैं इस लेख के पार आया। शायद यह भी मदद करता है: radfordneal.wordpress.com/2008/08/09/…
evros

1
आँकड़ों पर एक उत्तर भी दिया गया है ।stackexchange.com / questions / 12562 /
whuber

जवाबों:


19

मैं एक सीधा जवाब देना चाहूंगा।

अधिकतम संभावना आकलन (MLE) बनाम कम से कम वर्गों के आकलन (LSE) के बीच मुख्य अंतर क्या है?

जैसा कि @TrynnaDoStat ने टिप्पणी की, चुकता त्रुटि को कम करना इस मामले में संभावना को अधिकतम करने के बराबर है। जैसा कि विकिपीडिया में कहा गया है ,

एक रेखीय मॉडल में, यदि त्रुटियाँ एक सामान्य वितरण से संबंधित हैं, तो कम से कम वर्ग अनुमानक अधिकतम संभावना अनुमानक भी हैं।

उन्हें आपके मामले में उसी के रूप में देखा जा सकता है,

मैं इसे थोड़ा विस्तार से बताता हूं। जब से हम जानते हैं कि प्रतिक्रिया चर ( ) में एक सामान्य त्रुटि वितरण मॉडल है, संभावना फ़ंक्शन है, जाहिर है एल अधिकतम को न्यूनतम करने के बराबर है यह सबसे कम वर्ग विधि है।y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

यहाँ छवि विवरण दर्ज करें
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

हम रैखिक प्रतिगमन और इसके विपरीत में मूल्यों की भविष्यवाणी के लिए MLE का उपयोग क्यों नहीं कर सकते हैं? y

जैसा कि ऊपर बताया गया है कि हम वास्तव में ( मूल्यों की भविष्यवाणी के लिए MLE का उपयोग करके अधिक सटीक रूप से समकक्ष हैं) । और यदि प्रतिक्रिया चर में सामान्य वितरण के बजाय मनमाने ढंग से वितरण होते हैं, जैसे कि बर्नौली वितरण या घातीय परिवार में से कोई भी, हम एक लिंक फ़ंक्शन (प्रतिक्रिया वितरण के अनुसार) का उपयोग करके प्रतिक्रिया चर वितरण के लिए रैखिक भविष्यवक्ता का नक्शा बनाते हैं , तो संभावना फ़ंक्शन बन जाता है परिवर्तन के बाद सभी परिणामों (0 और 1 के बीच संभावनाएं) का उत्पाद। हम रैखिक समारोह में लिंक फ़ंक्शन को पहचान फ़ंक्शन के रूप में मान सकते हैं (क्योंकि प्रतिक्रिया पहले से ही एक संभावना है)।y


3
आप सामान्य रूप से "इस मामले" को थोड़ा और स्पष्ट रूप से परिभाषित करना चाह सकते हैं, अधिकतम संभावना और कम से कम वर्ग एक ही बात नहीं है।
मैथ्यू गन

2
@MatthewGunn हाँ, मैंने "समान" के अलावा "के बराबर" का उपयोग किया।
लेर्नर झांग

बहुत अच्छा होगा यदि आप हमें एक उदाहरण देंगे जहां रैखिक मॉडल गैर-सामान्य त्रुटि वितरण का अनुसरण करता है, और आप इस तरह के मामले में सबसे अच्छे गुणांक का अनुमान लगाने के लिए MLE का उपयोग कैसे करते हैं। यदि संभव न हो, तो कम से कम आप हमें एक सही स्रोत की ओर संकेत कर सकते हैं, जो पॉसों के प्रतिगमन जैसे रैखिक मॉडल का उपयोग करके इसे प्रदर्शित करता है
VM_AI

12

एमएल अनुमानकर्ताओं का एक उच्च सेट है जिसमें कम से कम पूर्ण विचलन ( -Norm) और कम से कम वर्ग ( -Norm) शामिल हैं। एमएल के हुड के तहत अनुमानक (दुखद) गैर-मौजूद विराम बिंदु जैसे सामान्य गुणों की एक विस्तृत श्रृंखला साझा करते हैं। वास्तव में जब तक आप जानते हैं कि आप क्या कर रहे हैं ओएलएस सहित बहुत सी चीजों को अनुकूलित करने के विकल्प के रूप में आप एमएल दृष्टिकोण का उपयोग कर सकते हैं।L1L2

L2 -नॉर्म सीएफ गॉस में वापस जाता है और लगभग 200 साल पुराना है, जबकि आधुनिक एमएल दृष्टिकोण वापस (IMHO) ह्यूबर 1964 में चला जाता है। कई वैज्ञानिकों का उपयोग -Norms और उनके समीकरणों के लिए किया जाता है। सिद्धांत अच्छी तरह से समझा गया है और बहुत सारे प्रकाशित पत्र हैं जिन्हें उपयोगी एक्सटेंशन के रूप में देखा जा सकता है:L2

  • डेटा स्नूपिंग
  • स्टोकेस्टिक पैरामीटर
  • कमजोर बाधाओं

व्यावसायिक अनुप्रयोग केवल डेटा फिट नहीं करते हैं, वे जाँचते हैं:

  • यदि पैरामीटर महत्वपूर्ण हैं
  • यदि आपके डेटासेट में आउटलेयर हैं
  • जो बाहरी प्रदर्शन को बर्दाश्त नहीं कर सकता है क्योंकि यह प्रदर्शन को अपंग नहीं करता है
  • माप को हटाया जाना चाहिए क्योंकि यह स्वतंत्रता की डिग्री में योगदान नहीं करता है

इसके अलावा परिकल्पना के लिए बड़ी संख्या में विशिष्ट सांख्यिकीय परीक्षण हैं। यह सभी एमएल अनुमानकों पर आवश्यक नहीं है या कम से कम एक प्रमाण के साथ कहा जाना चाहिए।

एक और अपवित्र बिंदु यह है कि -नॉर्म को लागू करना बहुत आसान है, इसे बायेसियन नियमितीकरण या लेवेनबर्ग-मार्क्वार्ड जैसे अन्य एल्गोरिदम तक बढ़ाया जा सकता है।L2

नहीं भूलना: प्रदर्शन। गॉस-मार्कोव जैसे कम से कम वर्ग मामलों में सममितीय सकारात्मक निश्चित सामान्य समीकरण उत्पन्न नहीं होते हैं । इसलिए मैं प्रत्येक लिए एक अलग पुस्तकालयों का उपयोग करता हूं। इस निश्चित मामले के लिए विशेष अनुकूलन करना संभव है।Xβ=L+r(XTX)1L2

विवरण के लिए बेझिझक पूछें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.