क्या हम कभी भी अधिकतम संभावना अनुमान का उपयोग करते हैं?


14

मैं सोच रहा हूं कि क्या आंकड़ों में कभी अधिकतम संभावना अनुमान का इस्तेमाल किया गया है। हम इसकी अवधारणा को सीखते हैं लेकिन मुझे आश्चर्य होता है कि यह वास्तव में कब उपयोग किया जाता है। यदि हम डेटा के वितरण को मान लेते हैं, तो हम दो मापदंडों को खोजते हैं, एक माध्य के लिए और एक विचरण के लिए, लेकिन क्या आप वास्तव में वास्तविक स्थितियों में इसका उपयोग करते हैं?

क्या कोई मुझे एक साधारण मामला बता सकता है जिसमें इसका उपयोग किया जाता है?


33
यह है सबसे अधिक प्रचलित आकलन विधि। the
जॉनके

3
मैं यह पूछने की कोशिश कर रहा था कि हम
Haitao Du

4
रसद प्रतिगमन। पोइसन रिग्रेशन। OLS MLE है जब त्रुटियों को सामान्य माना जाता है। गामा रिग्रेशन। वास्तव में कोई शास्त्रीय जीएलएम। सामान्य आबादी से मतलब का अनुमान लगाना। द्विपद परीक्षण की एक श्रृंखला से सफलता की संभावना का अनुमान। पॉसों घटना दर का अनुमान। मैं जा सकता था ...
GoF_Logistic

4
हमारी साइट की यह बहुत ही संकीर्ण खोज वास्तविक उपयोग के सैकड़ों उदाहरणों का उत्पादन करती है।
whuber

6
@ hxd1011 आप कर रहे हैं नहीं है जब आप अपने तरीकों का उपयोग कर नहीं कर रहे हैं अनुमान के या गणना विश्वास, भविष्यवाणी, या सहिष्णुता अंतराल, उदाहरण के लिए करने के लिए प्रसरण प्राप्त करने के लिए, तब भी जब आकलनकर्ता आप उपयोग कर रहे MLE आकलनकर्ता के साथ सहमत करने के लिए हो सकता है MLE का उपयोग कर। उदाहरण के लिए, आप MLE का उपयोग नहीं कर रहे हैं जब आप कोई भी टी-टेस्ट चलाते हैं। जब आप निष्पक्ष अनुमान लगाने वाले होते हैं तो आप अक्सर इसका उपयोग नहीं करते हैं। दार्शनिक रूप से, आप MLE का उपयोग तब नहीं करेंगे जब आप किसी हानि फ़ंक्शन की परवाह करते हैं या आपके पास एक पूर्व वितरण है।
whuber

जवाबों:


25

मैं सोच रहा हूं कि क्या आंकड़ों में कभी अधिकतम संभावना अनुमान का इस्तेमाल किया गया है।

निश्चित रूप से! वास्तव में काफी - लेकिन हमेशा नहीं।

हम इसकी अवधारणा को सीखते हैं लेकिन मुझे आश्चर्य होता है कि यह वास्तव में कब उपयोग किया जाता है।

जब लोगों के पास एक पैरामीट्रिक वितरण मॉडल होता है, तो वे अक्सर अधिकतम संभावना अनुमान का उपयोग करने का चयन करते हैं। जब मॉडल सही होता है, तो अधिकतम संभावना आकलनकर्ताओं के कई उपयोगी गुण होते हैं।

एक उदाहरण के लिए - सामान्यीकृत रैखिक मॉडल का उपयोग काफी व्यापक है और उस स्थिति में औसत वर्णानुक्रम द्वारा औसत का अनुमान लगाने वाले मापदंडों का अनुमान लगाया जाता है।

ऐसा हो सकता है कि कुछ मापदंडों का अनुमान अधिकतम संभावना से है और अन्य नहीं हैं। उदाहरण के लिए, एक अतिविशिष्ट पॉइज़न GLM पर विचार करें - फैलाव पैरामीटर अधिकतम संभावना से अनुमानित नहीं होगा, क्योंकि MLE उस मामले में उपयोगी नहीं है।

यदि हम डेटा के वितरण को मानते हैं, तो हमें दो पैरामीटर मिलते हैं

ठीक है, कभी-कभी आपके पास दो हो सकते हैं, लेकिन कभी-कभी आपके पास एक पैरामीटर होता है, कभी-कभी तीन या चार या अधिक।

माध्य के लिए एक और विचरण के लिए एक,

क्या आप किसी विशेष मॉडल के बारे में सोच रहे हैं? ऐसी स्थिति हर बार नहीं होती है। एक घातांक वितरण या एक पॉइसन वितरण, या द्विपद वितरण के पैरामीटर का आकलन करने पर विचार करें। उन मामलों में से प्रत्येक में, एक पैरामीटर होता है और विचरण उस पैरामीटर का एक फ़ंक्शन होता है जो माध्य का वर्णन करता है।

या एक सामान्यीकृत गामा वितरण पर विचार करें , जिसमें तीन पैरामीटर हैं। या चार-पैरामीटर बीटा वितरण , जिसमें (शायद अनिश्चित रूप से) चार पैरामीटर हैं। यह भी ध्यान दें कि (विशेष पैरामीटर के आधार पर) माध्य या विचरण या दोनों एक ही पैरामीटर द्वारा नहीं बल्कि उनमें से कई के कार्यों द्वारा दर्शाए जा सकते हैं।

उदाहरण के लिए, गामा वितरण, जिसके लिए तीन मापदण्ड हैं जो कि काफी सामान्य उपयोग देखते हैं - दो सबसे सामान्य हैं जिनके मध्यमान और विचरण दोनों दो मापदंडों के कार्य हैं।

आमतौर पर एक प्रतिगमन मॉडल या एक जीएलएम, या एक जीवित मॉडल (कई अन्य मॉडल प्रकारों के बीच) में, मॉडल कई पूर्वानुमानकर्ताओं पर निर्भर हो सकता है, इस मामले में मॉडल के तहत प्रत्येक अवलोकन से जुड़े वितरण का अपना पैरामीटर (या हो सकता है) यहां तक ​​कि कई पैरामीटर) जो कई भविष्यवक्ता चर ("स्वतंत्र चर") से संबंधित हैं।


5
"जब लोगों के पास एक पैरामीट्रिक वितरण मॉडल होता है।" अनुभवजन्य संभावना को शामिल करने के लिए गैर-पैरामीट्रिक अधिकतम संभावना अनुमान मत भूलना।
मार्क एल। स्टोन

3
@ मार्क अपेक्षाकृत अधिक दुर्लभ, यद्यपि। मैं अपने उत्तर में एक शब्द जोड़ूंगा।
Glen_b -Reinstate मोनिका

क्या हम वितरण की कल्पना करते हुए भी अधिकतम संभावना का उपयोग कर सकते हैं, उदाहरण के लिए, क्या यह सामान्य है? मुझे लगता है कि हमें इसकी आवश्यकता नहीं है, लेकिन हम अभी भी इसका उपयोग कर सकते हैं, क्या मैं सही हूं?
user122358

@ user122358 ग्लेन और मार्क ने आपको पहले ही उत्तर दिया। आप या तो वितरण मान सकते हैं या नहीं। अधिकांश समय आप एक वितरण मान लेते हैं और इस प्रकार संभावना कार्य करते हैं।
हेलोवर्ल्ड

3
"जब लोगों के पास एक पैरामीट्रिक वितरण मॉडल होता है।" आंशिक संभावना को शामिल करने के लिए अर्ध-पैरामीट्रिक अधिकतम संभावना अनुमान को न भूलें। ;)
Scortchi - को पुनः स्थापित मोनिका

8

जबकि अधिकतम संभावना अनुमानक डेटा वितरण पर मान्यताओं को देखते हुए संदिग्ध लग सकते हैं, Quasi अधिकतम संभावना अनुमानक अक्सर उपयोग किए जाते हैं। विचार MLE के लिए एक वितरण और समाधान को संभालने से शुरू करना है, फिर स्पष्ट वितरण धारणा को हटा दें और इसके बजाय यह देखें कि आपका अनुमानक अधिक सामान्य परिस्थितियों में कैसा प्रदर्शन करता है। तो क्वासी एमएलई सिर्फ एक अनुमान लगाने का एक स्मार्ट तरीका बन जाता है, और काम का थोक तब अनुमानक के गुणों को प्राप्त कर रहा है। चूंकि वितरण संबंधी धारणा को गिरा दिया जाता है, इसलिए अर्ध MLE में आमतौर पर अच्छी दक्षता वाले गुण नहीं होते हैं।

एक खिलौने के उदाहरण के रूप में, मान लीजिए कि आपके पास एक iid नमूना , और आप X के विचरण के लिए एक अनुमानक चाहते हैं । आप यह सोचते हैं द्वारा शुरू कर सकता है एक्स ~ एन ( μ , σ 2 ) , सामान्य पीडीएफ का उपयोग कर संभावना लिखते हैं, और करने के लिए मिलता argmax के लिए हल σ 2 = n - 1 Σ ( एक्स मैं - ˉ एक्स ) 2 । इसके बाद हम पूछ सकते हैं कि क्या स्थिति हैx1,x2,...,xnXXN(μ,σ2)σ^2=n1(xix¯)2एक सुसंगत आकलनकर्ता, है यह निष्पक्ष (यह नहीं है), यह जड़ n संगत, आदि क्या asypmtotic वितरण यह हैσ^2


1
इसके अलावा, आप Quasi MLE के पीछे के अंतर्ज्ञान पर इस धागे की जांच कर सकते हैं ।
रिचर्ड हार्डी

5

मशीन सीखने के लिए अधिकतम संभावना आकलन का अक्सर उपयोग किया जाता है:

ध्यान दें कि कुछ मामलों में एक व्यक्ति कुछ नियमितीकरण को जोड़ना पसंद करता है, जो कभी-कभी अधिकतम पोस्टीरियर आकलन के बराबर होता है , उदाहरण के लिए, लसो दंड डबल घातीय (लाप्लास) से पहले क्यों है?


3

क्या कोई मुझे एक साधारण मामला बता सकता है जिसमें इसका उपयोग किया जाता है?

एक बहुत ही विशिष्ट मामला लॉजिस्टिक प्रतिगमन में है। लॉजिस्टिक रिग्रेशन एक ऐसी तकनीक है जिसका उपयोग अक्सर मशीन में डेटा बिंदुओं को वर्गीकृत करने के लिए किया जाता है। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन का उपयोग यह वर्गीकृत करने के लिए किया जा सकता है कि क्या कोई ईमेल स्पैम है या स्पैम नहीं है या यह वर्गीकृत करता है कि किसी व्यक्ति को कोई बीमारी है या नहीं।

xihθ(xi)=P[yi=1]=11+eθTxi

The parameter vector θ is typically estimated using MLE.

Specifically, using optimization methods, we find the estimator θ^ such that the expression i=1nyilog(hθ^(xi))+(1yi)log(1hθ^(xi)) is minimized. This expression is the negative log likelihood, so minimizing this is equivalent to maximizing the likelihood.


1

We are using MLE all the time, but we may not feel it. I will give two simple examples to show.

Example 1

If we observe coin flip result, with 8 head out of 10 flips (assuming iid. from Bernoulli), how to guess the parameter θ (prob of head) of the coin? We may say θ=0.8, using "counting".

Why use counting? this is actually implicitly using MLE! Where the problem is

Maximizeθ   θ8(1θ)2

To solve the equation, we will need some calculus, but the conclusion is counting.

Example 2

How would we estimate a Gaussian distribution parameters from data? We use empirical mean as estimated mean and empirical variance as estimated variance, which is also coming from MLE!.


6
Example 1 is also a Bayes solution and a method of moments (MM) solution (and probably it's the solution using other procedures as well). Example 2 is the MM solution. It would be much more convincing to exhibit procedures that are exclusively MLE--for otherwise one wouldn't ever need MLE.
whuber

Why example 1 becomes a Bayes solution and Example 2 becomes the MM solution? What is MM, by the way?
user122358

@user122358 MM is the method of moments. See here, for instance: en.wikipedia.org/wiki/Method_of_moments_(statistics)
jld

0

Some maximum likelihood uses in wireless communication:

  • Decoding of digital data from noisy received signals, with or without redundant codes.
  • Estimation of time-, phase-, and frequency-offsets in receivers.
  • Estimation of the (parameters of the) propagation channel.
  • Estimation of delay, angle of arrival, and Doppler shift (e.g., radar).
  • Estimation of a mobile position (e.g., GPS).
  • Estimation of clock offsets for synchronization of all kinds of distributed settings.
  • A multitude of calibration procedures.
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.