आम शब्दों में अधिकतम संभावना अनुमान (MLE)


91

आम आदमी की शर्तों में अधिकतम संभावना अनुमान (MLE) के बारे में क्या कोई मुझे विस्तार से बता सकता है? मैं गणितीय व्युत्पत्ति या समीकरण में जाने से पहले अंतर्निहित अवधारणा को जानना चाहूंगा।


9
यह स्पष्ट नहीं है कि आप किस तरह के उत्तर के बाद हैं। क्या आप जानते हैं कि उदाहरण के लिए क्या संभावना है? यदि नहीं, तो पहले यह पता लगाना बेहतर है।
Glen_b

4
इसके अलावा, मुझे लगता है कि किसी भी स्तर पर गणित को शामिल नहीं करने वाला कोई भी उत्तर अपर्याप्त होगा।
gregmacfarlane

1
इस लिंक को आज़माएं । इसमें MLE, MAP, EM के बारे में बहुत कुरकुरा व्याख्या है। मुझे लगता है कि यह सरल शब्दों में MLE के मूल विचार को शामिल करता है।
निमिष कुलकर्णी '

2
मुझे लगता है कि यह MLE की बहुत सहज व्याख्या प्रदान करता है। मैं कहूंगा कि यदि अवधारणाएं अभी भी अस्पष्ट हैं, तो कुछ बुनियादी आंकड़ों पर ब्रश करना आदर्श होगा।
कार्तिककनपुर

जवाबों:


75

कहते हैं कि आपके पास कुछ डेटा है। मान लें कि आप यह मानने को तैयार हैं कि डेटा कुछ वितरण से आता है - शायद गॉसियन। विभिन्न गाऊसी की एक अनंत संख्या है जो डेटा से आ सकती है (जो अनंत संख्या में साधनों और भिन्नताओं के संयोजन से मेल खाती है)। MLE गॉसियन (यानी, माध्य और विचरण) को उठाएगा जो आपके डेटा के साथ "सबसे अधिक सुसंगत" है ( संगत का सटीक अर्थ नीचे समझाया गया है)।

तो, मान लीजिए कि आपको का डेटा सेट मिला है । सबसे अधिक सुसंगत गाऊसी जिसमें से डेटा आ सकता है 3 का मतलब और 16 का विचरण हो सकता है। इसे किसी अन्य गाऊसी से नमूना लिया जा सकता था। लेकिन 16 के 3 और भिन्नता वाले माध्य के साथ निम्नलिखित अर्थों में डेटा के साथ सबसे अधिक सुसंगत है: आपके द्वारा देखे गए विशेष मान प्राप्त करने की संभावना औसत और विचरण के इस विकल्प के साथ अधिक है, क्योंकि यह किसी अन्य विकल्प के साथ है।y={1,3,7}yy

प्रतिगमन पर जाना: माध्य स्थिर होने के बजाय, प्रतिगमन समीकरण द्वारा निर्दिष्ट डेटा का रेखीय कार्य है। तो, कि आपको पहले से के साथ जैसा डेटा मिला है । उस गौसियन का मतलब अब फिट किया गया प्रतिगमन मॉडल , जहांx={2,4,10}y बीटा Xβ^बीटा = [ - 1.9 , .9 ]β^=[1.9,.9]

GLMs में जाना: गौसियन को कुछ अन्य वितरण (घातीय परिवार से) से बदलें। माध्य अब डेटा का एक रैखिक कार्य है, जैसा कि प्रतिगमन समीकरण द्वारा निर्दिष्ट किया गया है, लिंक फ़ंक्शन द्वारा बदल दिया गया है। तो, यह , जहां लॉगिट के लिए (द्विपद डेटा के साथ)।g(Xβ)g(x)=ex/(1+ex)


28
" MLE उस गाऊसी को चुनेगा जो आपके डेटा को देखते हुए सबसे अधिक संभावना है। " हम्म, क्या यह वास्तव में नहीं है: MLE उस गाऊसी को चुनेगा जिसके तहत आपके डेटा की सबसे अधिक संभावना है? जो "सबसे अधिक संभावना गॉसियन" को चुनने से थोड़ा अलग है ... सबसे अधिक संभावना वाले गॉसियन को चुनने से पहले मान्यताओं के विचार की आवश्यकता नहीं होगी ?
जेक वेस्टफॉल

9
@ACD मुझे नहीं लगता कि यह सिर्फ अधूरा है, लेकिन सही अंतर्ज्ञान प्रदान करता है। उदाहरण के लिए, मैं विशेष मामलों पर चर्चा नहीं करने के साथ किसी भी समस्या को नहीं देखता हूं जैसे कि संभावना फ़ंक्शन एक से अधिक है। लेकिन देखे गए डेटा का उत्पादन करने के लिए वितरण के बीच अंतर और सबसे अधिक संभावना है कि दिए गए वितरण में अंतर अक्सर भौतिकवादी और बायेसियन अनुमानों के बीच का मूलभूत अंतर है। इसलिए यदि आप इसे इस तरह समझाते हैं, तो आप भविष्य के लिए एक अड़चन पैदा कर रहे हैं।
एरिक

6
निश्चित रूप से ठीक है, लेकिन आपके द्वारा लिखे गए की तुलना में समझने के लिए कोई भी कठिन अवधारणा सही है? मुझे ऐसा नहीं लगता। मुझे लगता है कि आपका अधिकांश उत्तर ठीक है, लेकिन मैं आपसे केवल आग्रह के लिए, थोड़े थोड़े से संपादित करने के लिए कुछ वाक्यांशों को संपादित करने के लिए "सबसे अधिक संभावना वाले गौसियन" पर चर्चा करने से बचने के लिए आग्रह करता हूं और इसके बजाय उस चीज को इंगित करता हूं जो हम चाहते हैं। एमएल के तहत "संभावना" ( बोलचाल में ) होना परिकल्पना नहीं बल्कि डेटा है। मुझे लगता है कि यह आपके अन्यथा अच्छे उत्तर के लिए एक मामूली लेकिन महत्वपूर्ण संपादन हो सकता है।
जेक वेस्टफेल

7
@ मोम: अंत में आगे बढ़ने और इस जवाब को ठीक करने के लिए बहुत बहुत धन्यवाद! मुझे लगता है कि भविष्य के पाठकों के लिए यहां स्पष्ट रूप से लिखने का मतलब हो सकता है: एरिक और जेक द्वारा उपरोक्त टिप्पणी में व्यक्त की गई आलोचना उत्तर के बाद अब लागू नहीं होती है।
अमीबा

7
बस में कूदने के लिए: मैं अपने जवाब के लिए दिए गए सभी ध्यान और सुधारों की सराहना करता हूं। संपादन के बारे में शुरू में संकोच करने के लिए क्षमा याचना (जो अच्छे हैं) - मैं अपनी क्षीणता की सादगी को देखकर अनिच्छुक था। बड़े पैमाने पर ऐसा नहीं हुआ।
जेनेरिक_सियर

66

अधिकतम संभावना अनुमान (MLE) एक ऐसी तकनीक है जो सबसे अधिक संभावित फ़ंक्शन को खोजने के लिए है जो प्रेक्षित डेटा की व्याख्या करती है। मुझे लगता है कि गणित आवश्यक है, लेकिन इसे आपको डरने न दें!

मान लें कि हमारे पास समतल में बिंदुओं का एक सेट है , और हम फ़ंक्शन पैरामीटर और जानना चाहते हैं जो कि सबसे अधिक संभावना डेटा को फिट करते हैं (इस मामले में हम फ़ंक्शन को जानते हैं क्योंकि मैंने इसे बनाने के लिए निर्दिष्ट किया था उदाहरण, लेकिन मेरे साथ सहन)।बीटा σx,yβσ

data   <- data.frame(x = runif(200, 1, 10))
data$y <- 0 + beta*data$x + rnorm(200, 0, sigma)
plot(data$x, data$y)

डेटा अंक

एक MLE करने के लिए, हमें फ़ंक्शन के रूप के बारे में धारणा बनाने की आवश्यकता है। एक रेखीय मॉडल में, हम मानते हैं कि अंक एक सामान्य (गाऊसी) संभाव्यता वितरण का अनुसरण करते हैं, जिसका मतलब है और variance : । इस प्रायिकता घनत्व फ़ंक्शन का समीकरण है:xβσ2y=N(xβ,σ2)

12πσ2exp((yixiβ)22σ2)

हम जो खोजना चाहते हैं, वह सभी बिंदुओं लिए इस संभावना को अधिकतम करने वाला पैरामीटर और है । यह "संभावना" फ़ंक्शन,βσ(xi,yi)L

लॉग(एल)=nΣमैं=1-n

L=i=1nyi=i=1n12πσ2exp((yixiβ)22σ2)
विभिन्न कारणों से, संभावना फ़ंक्शन के लॉग का उपयोग करना आसान है:
log(L)=i=1nn2log(2π)n2log(σ2)12σ2(yixiβ)2

हम इसे R में एक फ़ंक्शन के रूप में साथ कोड कर सकते हैं ।θ=(β,σ)

linear.lik <- function(theta, y, X){
  n      <- nrow(X)
  k      <- ncol(X)
  beta   <- theta[1:k]
  sigma2 <- theta[k+1]^2
  e      <- y - X%*%beta
  logl   <- -.5*n*log(2*pi)-.5*n*log(sigma2) - ( (t(e) %*% e)/ (2*sigma2) )
  return(-logl)
}

यह फ़ंक्शन, और विभिन्न मूल्यों पर , एक सतह बनाता है।σβσ

surface <- list()
k <- 0
for(beta in seq(0, 5, 0.1)){
  for(sigma in seq(0.1, 5, 0.1)){
    k <- k + 1
    logL <- linear.lik(theta = c(0, beta, sigma), y = data$y, X = cbind(1, data$x))
    surface[[k]] <- data.frame(beta = beta, sigma = sigma, logL = -logL)
  }
}
surface <- do.call(rbind, surface)
library(lattice)
wireframe(logL ~ beta*sigma, surface, shade = TRUE)

संभावना सतह

जैसा कि आप देख सकते हैं, इस सतह पर कहीं अधिकतम बिंदु है। हम ऐसे पैरामीटर पा सकते हैं जो आर के अंतर्निहित अनुकूलन कमांड के साथ इस बिंदु को निर्दिष्ट करते हैं। यह वास्तव में पैरामीटर्स को उजागर करने के करीब आता है 0,β=2.7,σ=1.3

linear.MLE <- optim(fn=linear.lik, par=c(1,1,1), lower = c(-Inf, -Inf, 1e-8), 
                    upper = c(Inf, Inf, Inf), hessian=TRUE, 
                    y=data$y, X=cbind(1, data$x), method = "L-BFGS-B")
linear.MLE$par


## [1] -0.1303868  2.7286616  1.3446534

साधारण कम से कम वर्गों है एक रेखीय मॉडल के लिए अधिकतम संभावना है, इसलिए यह भावना है कि बनाता है lmहमें एक ही जवाब देना होगा। (ध्यान दें कि मानक त्रुटियों को निर्धारित करने में का उपयोग किया जाता है)।σ2

summary(lm(y ~ x, data))

## 
## Call:
## lm(formula = y ~ x, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3616 -0.9898  0.1345  0.9967  3.8364 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.13038    0.21298  -0.612    0.541    
## x            2.72866    0.03621  75.363   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.351 on 198 degrees of freedom
## Multiple R-squared:  0.9663, Adjusted R-squared:  0.9661 
## F-statistic:  5680 on 1 and 198 DF,  p-value: < 2.2e-16

इस अच्छे और उपयोगी उत्तर के लिए @gregmacfarlane को धन्यवाद। एक मामूली बात: क्या हमें पहले R कोड में बीटा और sigma2 को परिभाषित नहीं करना चाहिए data$y <- 0 + beta*data$x + rnorm(200, 0, sigma2) ? और 0 +उपयोगी है?
एमरिलविले

1
हां betaऔर sigma2इस कोड को चलाने के लिए परिभाषित करने की आवश्यकता होगी। मैंने उन्हें छिपा दिया ताकि हम मापदंडों को "खोज" कर सकें, जो एमएलई चलने पर लगभग हमेशा अज्ञात होते हैं।
gregmacfarlane 17

आप सही भी हैं कि 0 +कुछ भी वास्तव में कुछ भी नहीं करता है; मैंने इसे केवल इसलिए शामिल किया क्योंकि प्रतिगमन मॉडल में आमतौर पर एक अवरोधन होता है। और अगर MLE को अनुकूलित करने की कोशिश कर रहे थे beta, sigma2 और alpha , मैं बहुत सतह की साजिश नहीं दिखा सकता था (जब तक कि आप एक आर पैकेज के बारे में नहीं जानते जो चार आयामों में साजिश करेगा!)
gregmacfarlane 17

2
@gregmacfarlane ने शानदार जवाब दिया और मेरी बहुत मदद की। लेकिन विचलन बनाम मानक विचलन पर कुछ त्रुटियां हैं। कृपया यहाँ देखें। आँकड़े.स्टैकएक्सचेंज.com
डू

2
@ hxd1011 इस गलती को इंगित करने के लिए धन्यवाद; मैंने त्रुटि सुधार ली है।
ग्रागमैफर्लेन

28

एक पैरामीटर का अधिकतम संभावना (एमएल) अनुमान उस पैरामीटर का मूल्य है जिसके तहत आपके वास्तविक देखे गए डेटा पैरामीटर के किसी भी अन्य संभावित मूल्यों के सापेक्ष सबसे अधिक संभावना है।

विचार यह है कि "सत्य" पैरामीटर मानों की कोई भी संख्या है जो आपके गैर-शून्य (शायद छोटे) संभावना के साथ आपके वास्तव में देखे गए डेटा का नेतृत्व कर सकती है। लेकिन एमएल का अनुमान पैरामीटर मान देता है जो आपके अवलोकन किए गए डेटा को उच्चतम संभावना के साथ ले जाता है।

यह उस पैरामीटर के मूल्य के साथ भ्रमित नहीं होना चाहिए जो वास्तव में आपके डेटा का उत्पादन करने की सबसे अधिक संभावना है!

मुझे इस अंतर पर सोबर (2008, पीपी। 9-10) से निम्न मार्ग पसंद है। इस मार्ग में, हमने कुछ देखे गए डेटा को निरूपित और एक परिकल्पना निरूपित किया है ।एचOH

आपको याद रखना होगा कि "संभावना" एक तकनीकी शब्द है। H, Pr (O | H), और H, Pr (H | O) की पूर्ववर्ती संभावना, अलग-अलग मात्राएँ हैं और उनके अलग-अलग मूल्य हो सकते हैं। H की संभावना वह संभावना है जो H O पर निर्भर करता है, O द्वारा H पर होने की संभावना नहीं है। मान लीजिए कि आपको अपने घर के अटारी से आने वाली आवाज़ सुनाई देती है। आप इस परिकल्पना पर विचार करते हैं कि वहाँ गेंदबाज़ी करते हैं। इस परिकल्पना की संभावना बहुत अधिक है, क्योंकि अगर अटारी में ग्रेमलिन की गेंदबाजी होती है, तो शायद शोर होगा। लेकिन निश्चित रूप से आप यह नहीं सोचते हैं कि शोर बहुत संभावित है कि वहाँ गेंदबाज़ी कर रहे हैं। इस उदाहरण में, Pr (O | H) उच्च है और Pr (H | O) निम्न है। ग्रेमलिन परिकल्पना की उच्च संभावना है (तकनीकी अर्थ में) लेकिन कम संभावना।

उपरोक्त उदाहरण के संदर्भ में, एमएल ग्रेमलिन परिकल्पना का समर्थन करेगा। इस विशेष हास्य उदाहरण में, यह स्पष्ट रूप से एक बुरा विकल्प है। लेकिन बहुत से अन्य यथार्थवादी मामलों में, एमएल अनुमान बहुत ही उचित हो सकता है।

संदर्भ

सोबर, ई। (2008)। साक्ष्य और विकास: विज्ञान के पीछे तर्क। कैम्ब्रिज यूनिवर्सिटी प्रेस।


8
यह मुझे पहला उत्तर प्रतीत होता है जो इस महत्वपूर्ण बिंदु को स्पष्ट और सरल रूप से बनाता है। लेकिन ध्यान दें, कि यह केवल "अपने मनाया आंकड़ों के उच्चतम साथ नेतृत्व होता संभावना 'उच्चतम साथ अपने मनाया डेटा के लिए नेतृत्व किया है |" यदि आपके डेटा असतत (द्विपद डेटा) की तरह हैं, लेकिन संयुक्त घनत्व यदि आपका डेटा निरंतर कर रहे हैं' (सामान्य डेटा की तरह)।
गंग

6
धन्यवाद @ गुंग। मुझे उस तकनीकी के बारे में पता है जिसका आप उल्लेख करते हैं, लेकिन मैं थोड़ा चिंतित था कि "संयुक्त घनत्व" की कोई भी चर्चा "आम आदमी की शर्तों" के लिए थोड़ा खिंचाव होगी ...
जेक वेस्टफॉल

मैं आपसे सहमत हूं / आप, और मुझे लगा कि आप इस बारे में जानते हैं। मैंने सोचा था कि मैं इसका उल्लेख करूंगा क्योंकि यह इस धागे पर कहीं और आया है।
गंग

16

MLE ब्याज के पैरामीटर का मूल्य है जो आपके द्वारा देखे गए डेटा के अवलोकन की संभावना को अधिकतम करता है। दूसरे शब्दों में, यह उस पैरामीटर का मान है जो देखे गए डेटा को सबसे अधिक देखा जाता है।


2
और अगर इस प्रकार अधिकतम होने की संभावना है, तो इसके फ्लिप-साइड पर, एक सतत यादृच्छिक चर से प्रायिकता घनत्व फ़ंक्शन क्या है? क्या MLE अभी भी एक संभावना को अधिकतम करता है? और यदि नहीं, तो यह क्या करता है?
एलेकोस पापाडोपोलोस

@AlecosPapadopoulos यह मेरी समझ है कि संभावना फ़ंक्शन को पैरामीटर की प्रायिकता फ़ंक्शन माना जा सकता है, और MLE पैरामीटर मान है जो उस प्रायिकता फ़ंक्शन को अधिकतम करता है। हालाँकि आपका प्रश्न बताता है कि अधिक बारीकियाँ हैं?
हेइज़ेनबर्ग

4
@ हेइसेनबर्ग जवाब ने संभावना फ़ंक्शन को नमूने के संयुक्त संभाव्यता फ़ंक्शन के रूप में माना (जिसके लिए एमएल अधिकतम पैरामीटर प्रदान करता है, और इसलिए किसी भी नमूने के लिए संभाव्यता को अधिकतम करता है)। और यह सही है जब आरवी के असतत होते हैं, लेकिन तब नहीं जब वे निरंतर होते हैं, चूंकि संयुक्त घनत्व, निर्माण द्वारा एक संयुक्त विकलांगता नहीं है। मैं इसे "अतिसूक्ष्मवाद" के रूप में चित्रित नहीं करूंगा, यह असतत और निरंतर दुनिया के बीच एक बुनियादी अंतर है।
एलेकोस पापाडोपोलोस

@AlecosPapadopoulos मैं देख रहा हूँ। तो आप "संभावना फ़ंक्शन" बनाम "घनत्व फ़ंक्शन" शब्द के उपयोग के साथ समस्या लेते हैं। वह सही है।
हाइजेनबर्ग

ϵϵϵ

10

यह है (बहुत) गणित का उपयोग किए बिना कुछ कहना संभव है, लेकिन अधिकतम संभावना का वास्तविक सांख्यिकीय अनुप्रयोगों के लिए आप गणित की जरूरत है।

अधिकतम संभावना अनुमान से संबंधित है कि दार्शनिक सर्वश्रेष्ठ स्पष्टीकरण , या अपहरण के लिए क्या कहते हैं । हम हर समय इसका उपयोग करते हैं! नोट, मैं नहीं कहता कि अधिक से अधिक संभावना है अपहरण, उस शब्द के बहुत व्यापक है, और बायेसियन आकलन के कुछ मामलों में (एक अनुभवजन्य पूर्व के साथ) और संभवतः वे भी अपहरण के रूप में देखा जा सकता है। Http://plato.stanford.edu/entries/abduction/#Aca से लिए गए कुछ उदाहरण यह भी देखें कि https://en.wikipedia.org/wiki/Abductive_reasoning (कंप्यूटर विज्ञान में "अपहरण" का उपयोग गैर के संदर्भ में भी किया जाता है। -प्रौद्योगिक मॉडल।)

  1. "आपको पता है कि टिम और हैरी ने हाल ही में एक भयानक पंक्ति की थी जिसने उनकी दोस्ती को समाप्त कर दिया था। अब कोई आपको बताता है कि उसने सिर्फ टिम और हैरी को एक साथ जॉगिंग करते देखा था। इसके लिए सबसे अच्छा स्पष्टीकरण जो आप सोच सकते हैं कि वे बना है। आप निष्कर्ष निकालते हैं कि वे फिर से दोस्त हैं। " ऐसा इसलिए है क्योंकि यह निष्कर्ष उस अवलोकन को बनाता है जिसे आप विकल्प के तहत अधिक संभावित रूप से समझाने की कोशिश करते हैं, कि वे अभी भी बात नहीं कर रहे हैं।

एक और उदाहरण: आप एक बालवाड़ी में काम करते हैं, और एक दिन एक बच्चा अजीब तरीके से चलना शुरू कर देता है, और यह कहते हुए कि उसने अपने पैर तोड़ दिए। आप जांच करते हैं और कुछ भी गलत नहीं पाते हैं। तब आप यथोचित अनुमान लगा सकते हैं कि उनके माता-पिता में से एक ने अपने पैर तोड़ दिए, क्योंकि बच्चे अक्सर वर्णित के रूप में कार्य करते हैं, इसलिए यह "सबसे अच्छी व्याख्या का अनुमान है" और (अनौपचारिक) अधिकतम संभावना है। (और, ज़ाहिर है, यह स्पष्टीकरण गलत हो सकता है, यह केवल संभावित है, निश्चित नहीं है। अपहरण / अधिकतम संभावना निश्चित निष्कर्ष नहीं दे सकती है)।

अपहरण डेटा में पैटर्न खोजने के बारे में है, और फिर उन संभावित सिद्धांतों की खोज करना जो संभवतः उन पैटर्न को संभावित बना सकते हैं। फिर संभावित स्पष्टीकरण चुनना, जो मनाया पैटर्न को अधिकतम रूप से संभावित बनाता है, बस अधिकतम संभावना है!

विज्ञान में अपहरण का मुख्य उदाहरण विकासवाद है । कोई भी एक अवलोकन नहीं है जो विकास का तात्पर्य करता है, लेकिन विकास अवलोकन पैटर्न को अन्य स्पष्टीकरणों की तुलना में अधिक संभावित बनाता है।

एक अन्य विशिष्ट उदाहरण चिकित्सा निदान है? कौन सी संभव चिकित्सा स्थिति लक्षणों के मनाया पैटर्न को सबसे अधिक संभावित बनाती है? फिर, यह भी अधिकतम संभावना है! (या, इस मामले में, शायद बायेसियन अनुमान एक बेहतर फिट है, हमें विभिन्न संभावित स्पष्टीकरणों की पूर्व संभावना को ध्यान में रखना चाहिए)। लेकिन यह एक तकनीकीता है, इस मामले में हमारे पास अनुभवजन्य पुजारी हो सकते हैं, जिन्हें सांख्यिकीय मॉडल के एक प्राकृतिक भाग के रूप में देखा जा सकता है, और जिसे हम मॉडल कहते हैं , जिसे हम पूर्व कहते हैं, वह कुछ मनमाना (*) सांख्यिकीय सम्मेलन है।

MLE के आम शब्द स्पष्टीकरण के बारे में मूल प्रश्न पर वापस जाने के लिए, यहाँ एक सरल उदाहरण है: जब मेरी बेटियाँ जहाँ 6 और 7 वर्ष की हैं, मैंने उनसे यह पूछा। हमने दो कलश (दो जूता-बक्से) बनाए, एक में हमने 2 काले रंग की गेंदें, 8 लाल, दूसरी में जहां स्विच किए थे। फिर हमने कलश मिलाए, और हमने एक कलश बेतरतीब ढंग से खींचा। फिर हमने उस कलश से यादृच्छिक एक गेंद ली। यह लाल था।

फिर मैंने पूछा: किस कलश से आपको लगता है कि लाल गेंद खींची गई थी? लगभग एक सेकंड सोचने के बाद, उन्होंने जवाब दिया (गाना बजानेवालों में): 8 लाल गेंदों के साथ!

फिर मैंने पूछा: आपको ऐसा क्यों लगता है? और नए सिरे से, लगभग एक सेकंड के बाद (फिर से इंच): "क्योंकि तब लाल गेंद खींचना आसान होता है!"। अर्थात्, आसान = अधिक संभावित । यह अधिकतम संभावना थी (संभावना मॉडल को लिखने के लिए यह एक आसान अभ्यास है), और यह "सबसे अच्छी व्याख्या का अनुमान है", अर्थात अपहरण।

(*) मैं क्यों कहता हूं "मनमाना?" चिकित्सा निदान की समस्या को जारी रखने के लिए, कहते हैं कि रोगी कुछ अलग तरह का व्यक्ति है जो पहले चिकित्सक द्वारा देखी गई स्थिति का निदान करने के लिए भिन्न है। फिर, कहते हैं, रोगी के साथ बातचीत में यह उठता है कि उसने कुछ समय पहले उष्णकटिबंधीय अफ्रीका में कहीं का दौरा किया था। यह डेटा का एक नया टुकड़ा है, लेकिन विशिष्ट मॉडलों में इसका प्रभाव (इस तरह की स्थिति में इस्तेमाल किया जाता है, यह औपचारिक या अनौपचारिक है) कठिन संभावित स्पष्टीकरण से पहले बदलना होगा, क्योंकि मलेरिया जैसे उष्णकटिबंधीय रोग अब अधिक हो जाएंगे पूर्व संभावना। इसलिए नया डेटा पूर्व में विश्लेषण में प्रवेश करता है ।


"अपहरण का तर्क और अधिकतम संभावना अनुमान" के लिए गुगली करना बहुत अधिक प्रासंगिक हिट देता है।
kjetil b halvorsen

1
(१/२) हाय केजेटिल, यह एक शानदार उत्तर है, और मैं इसकी सराहना करता हूं। (साथ ही आपकी बेटियों के बारे में यह भी प्यारा है। :)) किसी भी दर पर, मैं "संभावना" की अपनी मजबूत समझ बनाने में संघर्ष कर रहा हूं, और मैंने यहां पर अपने प्रश्न को औपचारिक रूप दिया है
क्रिएट्रॉन

1
L(θ|x)=P(x|θ)

9

θθ

θθθ

(यदि डेटा 'प्रायिकता घनत्व' को 'प्रायिकता' के लिए निरंतर पढ़ा जाता है। इसलिए यदि उन्हें इंच में मापा जाता है तो घनत्व प्रति इंच की संभावना में मापा जाएगा।)


3
y

@ DimitriyV.Masterov वास्तव में, वे नहीं हैं। यहां तक ​​कि जब आप कर सकते हैं, अगर मुझे सही याद है, तो संभावना केवल परिभाषित की गई थी (फिशर द्वारा, मुझे लगता है) 'एक गुणा गुणक तक'।
Glen_b

@ दिमित्री, अच्छी बात; मैंने इसे जोड़ा है।
Scortchi

1
@Glen, अधिकांश उद्देश्यों के लिए - संभावना अनुपात परीक्षण, अधिकतम संभावना अनुमान - आप निरंतर छोड़ सकते हैं। गैर-नेस्टेड मॉडल के बीच एआईसी की तुलना के लिए आप नहीं कर सकते। लगता है कि यह एक आम आदमी की परिभाषा में प्रवेश की जरूरत नहीं है वैसे भी।
Scortchi

1
जब तक आप एक ही निरंतर छोड़ते हैं, तब भी आप कर सकते हैं।
Glen_b

6

चलो एक खेल खेलते हैं: मैं एक अंधेरे कमरे में हूं, कोई भी यह नहीं देख सकता है कि मैं क्या करता हूं, लेकिन आप जानते हैं कि या तो (एक) मैं एक पासा फेंकता हूं और '1 के रूप में' सफलता 'की संख्या गिनता हूं या (बी) मैं एक सिक्का उछालता हूं और मैं 'सफलता' के रूप में प्रमुखों की संख्या गिनता हूँ।

जैसा कि मैंने कहा, आप यह नहीं देख सकते कि दोनों में से मैं कौन सा काम करता हूं लेकिन मैं आपको सिर्फ एक ही जानकारी देता हूं: मैं आपको बताता हूं कि मैंने 100 बार पासा फेंका है या मैंने 100 बार सिक्का उछाला है और मुझे 17 सफलताएं मिली हैं ।

सवाल यह अनुमान लगाने का है कि मैंने पासा फेंका है या सिक्का उछाला है।

आप शायद जवाब देंगे कि मैंने पासा फेंका।

यदि आप करते हैं, तो आपने संभवतः 'संभावना को अधिकतम करके एक अनुमान लगाया है' क्योंकि अगर मैं 100 प्रयोगों में से 17 सफलताओं का निरीक्षण करता हूं, तो यह अधिक संभावना है कि मैंने एक पासा फेंका है कि मैंने एक सिक्का फेंक दिया है।

तो आपने जो किया है वह 'सफलता की संभावना' (एक पासा के लिए 1/6 और एक सिक्के के लिए 1/2) के उस मूल्य को ले रहा है जो 100 में 17 सफलताओं का निरीक्षण करने की सबसे अधिक संभावना है। 'अधिक संभावना' का अर्थ है कि मौका है कि आपके पास एक पासा के 100 में 17 गुना '1' है, 100 सिक्के के टॉस में 17 सिर होने की संभावना से अधिक है।


जैसा कि मैंने अपने जवाब में कहा, 'अपहरण' या 'सबसे अच्छी व्याख्या के लिए'।
kjetil b halvorsen 19

@kjetil b halvorsen: मुझे समझ नहीं आ रहा है कि आप क्या कहना चाहते हैं?

मैं केवल अपने उत्तर की तुलना करने की कोशिश करता हूं। उन शब्दों का उपयोग अन्य क्षेत्रों (दार्शनिक, सीएस) में कमोबेश एक ही विचार के लिए किया जाता है: वह व्याख्या चुनें जो समग्र रूप से तथ्यों के लिए सबसे उपयुक्त हो, एक संभाव्य मॉडल के साथ जो अधिकतम संभावना की ओर ले जाता है।
kjetil b halvorsen

@kjetil b halvorsen: क्या मैं तब यह निष्कर्ष निकाल सकता हूं कि मेरा उदाहरण ठीक है? आम आदमी के शब्दों में भी यही कहना है :-)?

1

XμμμLμfμ

L(μ|X)=i=1Nf(xi,μ)

या लॉग-लाइकैलिटी:

lnL(μ|X)=i=1Nlnf(xi,μ)

μf

μ

उदाहरण

पहले कुछ नकली डेटा उत्पन्न करते हैं:

set.seed(123)
x <- rnorm(1000, 1.78)

μX

llik <- function(mu) sum(log(dnorm(x, mu)))

μ

ll <- vapply(seq(-6, 6, by=0.001), llik, numeric(1))

plot(seq(-6, 6, by=0.001), ll, type="l", ylab="Log-Likelihood", xlab=expression(mu))
abline(v=mean(x), col="red")

वही अधिक अनुकूलन एल्गोरिथ्म के साथ तेजी से हासिल किया जा सकता है जो एक अधिक चतुर तरीके से फ़ंक्शन के अधिकतम मूल्य के लिए दिखता है जो कि क्रूर बल जा रहा है । ऐसे कई उदाहरण हैं, जैसे R में सबसे बुनियादी में से एक है optimize:

optimize(llik, interval=c(-6, 6), maximum=TRUE)$maximum

यहाँ छवि विवरण दर्ज करें

μ1.78μoptimize

यह उदाहरण दिखाता है कि आप अपने पैरामीटर के "सर्वोत्तम" मान को खोजने के लिए संभावना फ़ंक्शन को अधिकतम करने के लिए कई तरीकों का उपयोग कैसे कर सकते हैं।


0

{y1,y2,,yn}θ={μ,σ2}{y1,y2,,yn}θ={μ,σ2}p(y1,y2,,yn|θ)

L(θ|y1,y2,,yn)θL(θ)θ{μ,σ2}L{μ,σ2}L(θ)


0

मान लीजिए आपके पास एक सिक्का है। इसे टॉस करने से सिर या पूंछ मिल सकती है। लेकिन आपको नहीं पता कि यह एक उचित सिक्का है या नहीं। इसलिए आप इसे 1000 बार टॉस करें। यह 1000 बार सिर के रूप में आता है, और पूंछ के रूप में कभी नहीं।

0.52000

MLE आपको इस तरह की स्थिति में सबसे अच्छा स्पष्टीकरण खोजने में मदद करने की कोशिश करता है - जब आपके पास कुछ परिणाम होता है, और आप यह पता लगाना चाहते हैं कि पैरामीटर का मान क्या है जो उस परिणाम को देने की सबसे अधिक संभावना है। यहाँ, हमारे पास 2000 tosses में से 2000 सिर हैं - इसलिए हम एक MLE का उपयोग यह पता लगाने के लिए करेंगे कि एक हेड को सबसे अच्छा होने की संभावना क्या बताती है कि 2000 tosses में से 2000 हेड प्राप्त करना।

यह अधिकतम संभावना अनुमानक है । यह पैरामीटर का अनुमान लगाता है (यहां, यह एक संभावना वितरण फ़ंक्शन है) जो आपके द्वारा वर्तमान में देखे जा रहे परिणाम का उत्पादन करने की सबसे अधिक संभावना है।

1


-1

जिस तरह से मैं MLE समझ रहा हूं वह यह है: आपको केवल वही देखने को मिलता है जो प्रकृति आपको देखना चाहती है। आप जो चीजें देखते हैं वे तथ्य हैं। इन तथ्यों की एक अंतर्निहित प्रक्रिया है जो इसे उत्पन्न करती है। ये प्रक्रिया छिपी हुई है, अज्ञात है, इसे खोजने की आवश्यकता है। फिर प्रश्न यह है: देखे गए तथ्य को देखते हुए, इस प्रक्रिया को P1 उत्पन्न करने की संभावना क्या है? क्या संभावना है कि प्रक्रिया P2 ने इसे उत्पन्न किया है? और इसी तरह ... इनमें से एक संभावना सबसे अधिक होने वाली है। MLE एक फ़ंक्शन है जो उस अधिकतम संभावना को निकालता है।

एक सिक्का टॉस के बारे में सोचो; सिक्का पक्षपाती है। पूर्वाग्रह की डिग्री कोई नहीं जानता। यह ओ (सभी पूंछ) से लेकर 1 (सभी सिर) तक हो सकता है। एक उचित सिक्का 0.5 (सिर / पूंछ समान रूप से होने की संभावना) होगा। जब आप 10 टॉस करते हैं, और आप 7 हेड्स का अवलोकन करते हैं, तो MLE बायस की वह डिग्री होती है, जो 10 टॉस में 7 हेड्स के प्रेक्षित तथ्य को प्रोड्यूस करने की अधिक संभावना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.