अधिकतम संभावना अनुमान - क्यों कई मामलों में पक्षपाती होने के बावजूद इसका उपयोग किया जाता है


25

अधिकतम संभावना अनुमान अक्सर पक्षपाती अनुमानकों के रूप में होता है (उदाहरण के लिए, नमूना प्रसरण के लिए इसका अनुमान गाऊसी वितरण के लिए पक्षपाती है)।

फिर क्या यह इतना लोकप्रिय बनाता है? वास्तव में इसका इतना उपयोग क्यों किया जाता है? इसके अलावा, विशेष रूप से वैकल्पिक दृष्टिकोण से बेहतर क्या है - क्षणों की विधि?

इसके अलावा, मैंने देखा कि गौसियन के लिए, MLE अनुमानक का एक सरल स्केलिंग निष्पक्ष बनाता है। यह स्केलिंग एक मानक प्रक्रिया क्यों नहीं है? मेरा मतलब है - ऐसा क्यों है कि MLE गणना के बाद, अनुमान लगाने वाले को निष्पक्ष बनाने के लिए आवश्यक स्केलिंग ढूंढना नियमित नहीं है? मानक अभ्यास MLE अनुमानों का सादा अभिकलन प्रतीत होता है, सिवाय इसके कि जाने-माने गाऊसी मामले के लिए पाठ्यक्रम को छोड़कर जहां स्केलिंग कारक अच्छी तरह से जाना जाता है।


11
एमएल के कई विकल्प हैं, न केवल क्षणों की विधि - जो कि पक्षपाती अनुमान लगाने वालों का उत्पादन भी करती है, वैसे। इसके बजाय आप क्या पूछना चाहते हैं "कोई भी निष्पक्ष अनुमानक का उपयोग क्यों करना चाहेगा?" इस मुद्दे पर शोध शुरू करने का एक अच्छा तरीका पूर्वाग्रह-विचरण व्यापार पर एक खोज है ।
whuber

7
जैसा कि व्हीबर ने कहा, निष्पक्ष होने में कोई आंतरिक श्रेष्ठता नहीं है।
शीआन

4
मुझे लगता है कि @whuber का अर्थ है "कोई भी पक्षपाती अनुमानक का उपयोग क्यों करना चाहेगा ?" किसी को यह समझाने में ज्यादा मेहनत नहीं लगती है कि निष्पक्ष अनुमान लगाने वाला उचित हो सकता है।
क्लिफ एबी

5
En.wikipedia.org/wiki/… एक उदाहरण के लिए देखें, जहां एकमात्र निष्पक्ष अनुमानक निश्चित रूप से वह नहीं है जिसका आप उपयोग करना चाहते हैं।
Scortchi - को पुनः स्थापित मोनिका

4
@ क्लिफ का इरादा मैं इसके अधिक उत्तेजक, संभावित रूप से अधिक रहस्यमय रूप में सवाल पूछने का था। इसके पीछे गलत विचार यह है कि एक अनुमानक की गुणवत्ता का मूल्यांकन करने के कई तरीके हैं और उनमें से कई का पूर्वाग्रह से कोई लेना-देना नहीं है। उस दृष्टिकोण से, यह पूछना सबसे स्वाभाविक है कि कोई निष्पक्ष अनुमानक का प्रस्ताव क्यों करेगा । इस दृष्टि से अधिक के लिए glen_b का उत्तर देखें।
whuber

जवाबों:


18

निष्पक्षता विशेष रूप से अपने आप में महत्वपूर्ण नहीं है।

परिस्थितियों के बहुत सीमित सेट के अलावा, अधिकांश उपयोगी अनुमानक पक्षपाती हैं, हालांकि वे प्राप्त किए जाते हैं।

यदि दो अनुमानकों का एक ही विचरण होता है, तो एक पक्षपाती के लिए निष्पक्ष रूप से एक को प्राथमिकता देने के लिए एक तर्क को आसानी से माउंट किया जा सकता है, लेकिन यह एक असामान्य स्थिति है (यानी, आप यथोचित रूप से निष्पक्षता पसंद कर सकते हैं, कॉर्बिन परिबस - लेकिन उन पेसकी क्रिकेटर लगभग कभी भी पेरिबस नहीं हैं )।

आम तौर पर, यदि आप निष्पक्षता चाहते हैं तो आप इसे प्राप्त करने के लिए कुछ बदलाव जोड़ रहे हैं, और फिर सवाल यह होगा कि आप ऐसा क्यों करेंगे ?

पूर्वाग्रह यह है कि मेरे अनुमानक का अपेक्षित मूल्य औसत से कितना अधिक होगा (नकारात्मक पूर्वाग्रह बहुत कम होने के संकेत के साथ)।

जब मैं एक छोटे नमूना अनुमानक पर विचार कर रहा हूं, तो मुझे वास्तव में इसकी परवाह नहीं है। मैं आमतौर पर इस बात में अधिक दिलचस्पी रखता हूं कि मेरा अनुमानक इस उदाहरण में कितना गलत होगा - सही से मेरी विशिष्ट दूरी ... रूट-मीन-स्क्वायर त्रुटि या पूर्ण निरपेक्ष त्रुटि जैसी कोई चीज अधिक समझ में आएगी।

इसलिए यदि आपको कम विचरण और निम्न पूर्वाग्रह पसंद हैं, तो कहने के लिए न्यूनतम माध्य वर्ग त्रुटि अनुमानक समझ में आएगा; ये बहुत कम ही निष्पक्ष होते हैं।

पूर्वाग्रह और निष्पक्षता के बारे में पता होना एक उपयोगी धारणा है, लेकिन जब तक आप केवल एक ही संस्करण के साथ अनुमानकर्ताओं की तुलना नहीं कर रहे हैं, तब तक यह विशेष रूप से उपयोगी संपत्ति नहीं है।

एमएल अनुमानक कम-विचरण करते हैं; वे आमतौर पर न्यूनतम MSE नहीं होते हैं, लेकिन उनके पास अक्सर MSE कम होता है, ताकि उन्हें निष्पक्ष करने के लिए संशोधित किया जा सके (जब आप ऐसा कर सकते हैं) आपको दे देंगे।

उदाहरण के लिए, पर विचार विचरण का आकलन जब एक सामान्य वितरण से नमूने σ 2 MMSE = एस 2 (वास्तव में विचरण के लिए MMSE में हमेशाn-1से बड़ा हर होता है)।σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1


1
+1। क्या आपके दूसरे-पहले अंतिम पैराग्राफ के लिए (या शायद कुछ सिद्धांत के पीछे) कोई अंतर्ज्ञान है? एमएल अनुमानक कम-भिन्नता वाले क्यों होते हैं? निष्पक्ष अनुमानक की तुलना में उनके पास अक्सर एमएसई कम क्यों होता है? इसके अलावा, मैं विचरण के एमएमएसई अनुमानक के लिए अभिव्यक्ति को देखकर चकित हूं; किसी तरह मैंने पहले कभी इसका सामना नहीं किया। ऐसा शायद ही कभी क्यों किया जाता है? और इसका संकोचन से कोई लेना-देना नहीं है? ऐसा लगता है कि यह निष्पक्ष से शून्य की ओर "सिकुड़" गया है, लेकिन मैं इससे भ्रमित हूं क्योंकि मुझे केवल मल्टीवेरिएट संदर्भ (जेम्स-स्टीन की तर्ज पर) में संकोचन के बारे में सोचने की आदत है।
अमीबा का कहना है कि मोनिका

1
@amoeba MLE आमतौर पर पर्याप्त आँकड़ों के कार्य हैं, और कम से कम asymptotically न्यूनतम भिन्नता निष्पक्ष है, इसलिए आप उनसे बड़े नमूनों में कम विचरण करने की उम्मीद करते हैं, आमतौर पर सीमा में CRLB को प्राप्त करते हैं; यह अक्सर छोटे नमूनों में परिलक्षित होता है।एमएमएसई अनुमानक आमतौर पर शून्य की ओर सिकुड़ते हैं क्योंकि यह विचरण को कम करता है (और इसलिए एक छोटे संकोचन द्वारा शुरू किए गए 0 की ओर पूर्वाग्रह की एक छोटी राशि आमतौर पर एमएसई को कम कर देगी)।
Glen_b -Reinstate मोनिका

@ गलेन_ बी, शानदार जवाब (मैं इसे वापस आ रहा हूं)। आप एक व्याख्या या के लिए एक संदर्भ के लिए होता है σ 2 MMSE = एस 2 न्यूनतम MSE अनुमानक है? σ^MMSE2=S2n+1
रिचर्ड हार्डी

इसके अलावा, क्या इसका मतलब यह है कि विचरण का विधायक न्यूनतम-विचरण अनुमानक नहीं है? अन्यथा न्यूनतम MSE अनुमानक MLE और निष्पक्ष अनुमानक का कुछ भारित औसत (सकारात्मक भार के साथ) होगा, लेकिन अब यह उस सीमा के बाहर है। मैं इसे एक अलग सवाल के रूप में पूछ सकता हूं अगर आपको लगता है कि यह समझ में आता है।
रिचर्ड हार्डी

1
एमएसई पर एक विकिपीडिया लेख में एक पूरी व्युत्पत्ति मिली , मुझे लगता है कि यह सब समझाता है।
रिचर्ड हार्डी

16

MLE , मॉडल पैरामीटर और हाथ में डेटा को देखते हुए सबसे अधिक संभावित मूल्य देता है - जो कि एक सुंदर आकर्षक अवधारणा है। आप पैरामीटर मानों का चयन क्यों करेंगे, जो डेटा को कम संभाव्य बनाते हैं जब आप उन मानों को चुन सकते हैं जो डेटा को मानों के किसी भी सेट में सबसे अधिक संभावित मान लेते हैं ? क्या आप निष्पक्षता के लिए इस सुविधा का त्याग करना चाहेंगे? मैं नहीं कहता कि उत्तर हमेशा स्पष्ट है, लेकिन MLE के लिए प्रेरणा बहुत मजबूत और सहज है।

इसके अलावा, MLE क्षणों की विधि की तुलना में अधिक व्यापक रूप से लागू हो सकता है, जहां तक ​​मुझे पता है। अव्यक्त चर के मामलों में MLE अधिक स्वाभाविक लगता है; उदाहरण के लिए, एक मूविंग एवरेज (एमए) मॉडल या एक सामान्यीकृत ऑटोरेस्पिरेटिव सशर्त हेट्रोसेकेडसिटी (जीएआरएचसी) मॉडल को एमएलई द्वारा सीधे अनुमान लगाया जा सकता है (सीधे मेरा मतलब है कि यह एक संभावना फ़ंक्शन को निर्दिष्ट करने और एक अनुकूलन दिनचर्या में प्रस्तुत करने के लिए पर्याप्त है) - लेकिन क्षणों की विधि से नहीं (हालांकि अप्रत्यक्ष समाधान क्षणों की विधि का उपयोग कर सकते हैं)।


4
+1। बेशक, ऐसे बहुत से मामले हैं जब आप सबसे अधिक संभावित अनुमान नहीं चाहते हैं, जैसे कि गौसियन मिक्सचर मॉडल (यानी अबाधित संभावना)। सामान्य तौर पर, MLE के अंतर्ज्ञान में मदद करने के लिए एक शानदार उत्तर।
क्लिफ एबी

3
(+1) लेकिन मुझे लगता है कि आपको "सबसे अधिक संभावना" पैरामीटर मान की एक परिभाषा जोड़ने की आवश्यकता है क्योंकि यह दिया गया है कि डेटा सबसे स्पष्ट होने की संभावना है। एक अनुमानक के अन्य सहज ज्ञान युक्त वांछनीय गुण, जो बार-बार नमूने के तहत अपने दीर्घकालिक व्यवहार से असंबंधित होते हैं, इसमें यह शामिल नहीं हो सकता है कि आप किसी मॉडल को कैसे आधार बनाते हैं, और यह सही पैरामीटर मान के असंभव अनुमानों का उत्पादन नहीं करता है।
Scortchi - को पुनः स्थापित मोनिका

6
लगता है कि अभी भी "सबसे अधिक संभावना" के जोखिम को "सबसे संभावित" के रूप में पढ़ा जा रहा है।
Scortchi - को पुनः स्थापित मोनिका


2
@dsaxton: सांख्यिकीविदों ने लगभग एक सदी के लिए पैरामीटर मान दिए गए डेटा की संभावना से दिए गए पैरामीटर मान की संभावना को विभेदित किया है - देखें फिशर (1921) "एक सहसंबंध की संभावित त्रुटि" पर, Metron , 1 , पीपी 3-32 और पावितान (2013), ऑल लाइकेलिहुड : सांख्यिकीय मॉडलिंग और अनुमान का उपयोग करना - भले ही शब्द साधारण उपयोग में पर्यायवाची हों, लेकिन यह अब थोड़ा देर से लगता है।
Scortchi - को पुनः स्थापित मोनिका

12

वास्तव में, अधिक से अधिक संभावना की स्केलिंग आदेश निष्पक्ष अनुमान प्राप्त करने में अनुमान है कई आकलन समस्याओं में एक मानक प्रक्रिया। इसका कारण यह है कि mle पर्याप्त आँकड़ों का एक कार्य है और इसलिए राव-ब्लैकवेल प्रमेय द्वारा यदि आप पर्याप्त आँकड़ों के आधार पर एक निष्पक्ष अनुमानक पा सकते हैं, तो आपके पास एक न्यूनतम भिन्न निष्पक्ष अनुमानक है।

मुझे पता है कि आपका प्रश्न इससे अधिक सामान्य है, लेकिन मेरे कहने का मतलब यह है कि मुख्य अवधारणाएँ संभावित रूप से इस पर आधारित संभावना और अनुमानों से संबंधित हैं। इन अनुमानों को परिमित नमूनों में निष्पक्ष नहीं किया जा सकता है, लेकिन वे asymptotically हैं और इसके अलावा वे asymptotically कुशल हैं, अर्थात वे निष्पक्ष अनुमानकर्ताओं के लिए भिन्नता के Cramer-Rao को प्राप्त करते हैं, जो MOM अनुमानकों के लिए हमेशा ऐसा नहीं हो सकता है।


11

अपने प्रश्न का उत्तर देने के लिए कि MLE क्यों इतना लोकप्रिय है, इस बात पर विचार करें कि यद्यपि यह पक्षपातपूर्ण हो सकता है, यह मानक परिस्थितियों में संगत है। इसके अलावा, यह asymptotically कुशल है, इसलिए कम से कम बड़े नमूनों के लिए, MLE आपके द्वारा पकाया जा सकने वाले किसी भी अन्य अनुमानक के रूप में अच्छी तरह से या बेहतर करने की संभावना है। अंत में, MLE एक साधारण नुस्खा द्वारा पाया जाता है; संभावना फ़ंक्शन को लें और इसे अधिकतम करें। कुछ मामलों में, यह नुस्खा कठिन हो सकता है, लेकिन ज्यादातर समस्याओं के लिए, यह नहीं है। इसके अलावा, एक बार जब आप यह अनुमान लगा लेते हैं, तो हम फिशर की जानकारी का उपयोग करके तुरंत ही असममित मानक त्रुटियों को प्राप्त कर सकते हैं। फिशर जानकारी का उपयोग कर के बिना, यह अक्सर है वास्तव में मुश्किल त्रुटि सीमा प्राप्त करने के लिए।

यही कारण है कि MLE आकलन अक्सर अनुमानक के पास जाता है (जब तक कि आप बायेसियन न हों); यह लागू करने के लिए सरल है और संभावना के रूप में अच्छा है अगर खाना पकाने के लिए आपको और अधिक काम करने की आवश्यकता नहीं है तो कुछ भी बेहतर नहीं है।


1
क्या आप कृपया विस्तार से बता सकते हैं कि यह क्षणों की विधि की तुलना कैसे करता है, क्योंकि यह ओपी का एक महत्वपूर्ण हिस्सा लगता है?
एंटोनी परेलाडा

1
जैसा कि व्हॉबर ने बताया है, MOM अनुमानक भी पक्षपाती हैं, इसलिए MOM आकलनकर्ताओं के लिए "निष्पक्ष-नेस" लाभ नहीं है। इसके अलावा, जब MOM और MLE अनुमानकर्ता असहमत होते हैं, MLE कम MSE होता है। लेकिन यह उत्तर वास्तव में इस बारे में है कि अन्य तरीकों की तुलना में MLE की प्रवृत्ति डिफ़ॉल्ट क्यों है।
एबी एबी

2
@AntoniParellada वहाँ MLE और माँ, की तुलना में एक दिलचस्प धागा है stats.stackexchange.com/q/80380/28746
Alecos पापाडोपौलोस

3

मुझे लगता है कि कभी-कभी (अक्सर) हम एक MLE आकलनकर्ता का उपयोग करते हैं क्योंकि हमें जो मिला है, भले ही एक आदर्श दुनिया में वह वही होगा जो हम चाहते हैं। (मैं अक्सर आँकड़ों के बारे में सोचता हूँ जैसे कि इंजीनियरिंग, जहाँ हम उपयोग करते हैं जो हमें मिला है, न कि हम जो चाहते हैं।) कई मामलों में यह MLE के लिए परिभाषित और हल करना आसान है, और फिर पुनरावृत्त दृष्टिकोण का उपयोग करके एक मूल्य प्राप्त करें। जबकि किसी दिए गए स्थिति में दिए गए पैरामीटर के लिए एक बेहतर अनुमानक ("बेहतर" के कुछ मूल्य के लिए) हो सकता है, लेकिन इसे खोजने के लिए बहुत चालाक होने की आवश्यकता हो सकती है; और जब आप होशियार हो जाते हैं, तब भी आपके पास केवल एक विशेष समस्या के लिए बेहतर अनुमानक होता है।


1
जिज्ञासा से बाहर, (आदर्श दुनिया में) क्या आप चाहते हैं का एक उदाहरण है?
Glen_b -Reinstate मोनिका

2
@ गलेन_ बी: डननो। निष्पक्ष, सबसे कम विचरण, बंद रूप में गणना करना आसान है? जब आप पहली बार कम से कम वर्गों के प्रतिगमन के अनुमानकों को सीखते हैं, तो जीवन सरल लगता है जितना कि यह निकला है।
eac2222
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.