वहाँ एक उदाहरण है जहाँ MLE मतलब का एक पक्षपाती अनुमान पैदा करता है?


17

क्या आप इस बात का एक MLE अनुमानक का उदाहरण प्रदान कर सकते हैं कि पक्षपाती है?

मैं एक उदाहरण की तलाश नहीं कर रहा हूं जो नियमित परिस्थितियों का उल्लंघन करके सामान्य रूप से MLE अनुमानकों को तोड़ता है।

सभी उदाहरण जो मैं इंटरनेट पर देख सकता हूं, वह विचरण को संदर्भित करता है, और मुझे माध्य से संबंधित कुछ भी नहीं मिल रहा है।

संपादित करें

@MichaelHardy ने एक उदाहरण प्रदान किया जहां हमें एक निश्चित प्रस्तावित मॉडल के तहत MLE का उपयोग करते हुए समान वितरण के साधन का एक पक्षपाती अनुमान मिलता है।

तथापि

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

सुझाव देता है कि एमएलई एक समान रूप से न्यूनतम निष्पक्ष अनुमानक है, स्पष्ट रूप से एक अन्य प्रस्तावित मॉडल के तहत।

इस बिंदु पर यह अभी भी मेरे लिए बहुत स्पष्ट नहीं है कि MLE अनुमान से क्या मतलब है अगर यह बहुत ही परिकल्पित मॉडल पर निर्भर है जो एक नमूना मतलब अनुमानक कहने का विरोध करता है जो मॉडल तटस्थ है। अंत में मुझे आबादी के बारे में कुछ अनुमान लगाने में दिलचस्पी है और वास्तव में एक परिकल्पित मॉडल के पैरामीटर के आकलन के बारे में परवाह नहीं है।

EDIT 2

जैसा कि @ChristophHanck ने अतिरिक्त जानकारी के साथ मॉडल को दिखाया और पूर्वाग्रह का परिचय दिया, लेकिन MSE को कम करने का प्रबंधन नहीं किया।

हमारे पास अतिरिक्त परिणाम भी हैं:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (स्लाइड 2) http: // /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (स्लाइड)

"यदि ˆθ का सबसे कुशल निष्पक्ष अनुमानक ie मौजूद है (अर्थात ias निष्पक्ष है और इसका विचरण CRLB के बराबर है) तो अनुमान की अधिकतम संभावना विधि इसे उत्पन्न करेगी।"

"इसके अलावा, अगर एक कुशल अनुमानक मौजूद है, तो यह एमएल अनुमानक है।"

चूंकि मुक्त मॉडल मापदंडों के साथ MLE निष्पक्ष और कुशल है, इसलिए परिभाषा में यह "अधिकतम संभावना अनुमानक" है?

EDIT 3

@AlecosPapadopoulos में गणित मंच पर आधा सामान्य वितरण के साथ एक उदाहरण है।

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

यह वर्दी के मामले में इसके किसी भी पैरामीटर की एंकरिंग नहीं कर रहा है। मैं कहूंगा कि वह इसे सुलझाता है, हालांकि उसने औसत अनुमानक के पूर्वाग्रह का प्रदर्शन नहीं किया है।


10
शून्य और थीटा पर एक समान का मतलब है।
क्रिस्टोफ़ हनक

1
मैं "आबादी के बारे में कुछ का अनुमान लगाने" और "एक परिकल्पित मॉडल के एक पैरामीटर" के बीच आपके अंतर का पालन नहीं कर सकता। सभी पैरामीट्रिक आँकड़ों में, हम कुछ मापदंडों के आधार पर जनसंख्या को मापते हैं। इस प्रकार, हम मिसकैरेज के मुद्दों में भाग सकते हैं, लेकिन यह मुद्दे पर प्रासंगिक नहीं लगता है।
क्रिस्टोफ़ हनक

5
उदाहरण के लिए, एक जनसंख्या को इसके मापदंडों / क्षणों की विशेषता की जा सकती है, जैसे कि माध्य और विचरण (जो सामान्य जनसंख्या के लिए पर्याप्त होगा, उदाहरण के लिए)। और: मुझे नहीं लगता कि लोग इस मंच पर किसी और के साथ आपके साथ कम या ज्यादा पांडित्यपूर्ण हैं।
क्रिस्टोफ़ हेंक

2
आप "पैरामीटर" और "मतलब है" के बीच स्विच करने के हाथ के स्पष्ट सफ़ाई के बारे में दुखी महसूस कर रहे हैं, मुझे अपने मतलब के मामले में एक निश्चित गैर नकारात्मक वितरण को परिभाषित करते हैं घनत्व के साथ, 1μ के अपने समर्थन पर[0,2μ]...12μ[0,2μ]
silverfish

1
आपके संपादित 2 के बारे में, इनमें से कई परिणाम नियमितता शर्तों के तहत प्राप्त होते हैं जो इस धागे में चर्चा किए गए एकसमान उदाहरण के लिए संतुष्ट नहीं होते हैं, जिसके लिए नमूना स्थान पैरामीटर पर निर्भर करता है।
क्रिस्टोफ़ हेंक

जवाबों:


32

क्रिस्टोफ़ हैनक ने अपने प्रस्तावित उदाहरण का विवरण पोस्ट नहीं किया है। मैं ले यह वह अंतराल पर समान वितरण का मतलब है एक आईआईडी नमूने के आधार पर एक्स 1 , ... , एक्स एन से आकार के और अधिक n = 1।[0,θ],X1,,Xnn=1.

माध्य θ/2

माध्य का MLE max{X1,,Xn}/2.

यही कारण है कि जब से पक्षपाती है तो ( अधिकतम / 2 ) < θ / 2।Pr(max<θ)=1,E(max/2)<θ/2.

पुनश्च: शायद हम नोट करना चाहिए कि इसका मतलब का सबसे अच्छा निष्पक्ष आकलनकर्ता है नहीं नमूना मतलब है, बल्कि है n + 1θ/2नमूना माध्य का एक घटिया आकलनकर्ता हैθ/2क्योंकि कुछ नमूने के लिए, नमूना माध्य से कम है1

n+12nmax{X1,,Xn}.
θ/2और यह स्पष्ट रूप से असंभव है के लिएθ/2की तुलना में कम होने के लिएअधिकतम/2.पी एस के अंत12max{X1,,Xn},θ/2max/2.

मुझे संदेह है कि पारेतो वितरण एक और ऐसा मामला है। यहाँ संभाव्यता माप है: अपेक्षित मानα है

α(κx)α dxx for x>κ.
अपेक्षित मान का MLE n हैαα1κ. जहांमिनट=मिनट{एक्स1,...,एक्सn}
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

मैंने मतलब के लिए MLE के अपेक्षित मूल्य पर काम नहीं किया है, इसलिए मुझे नहीं पता कि इसका पूर्वाग्रह क्या है।


12
Cagdas, यह एक countexample के लिए पूछने के लिए वैध नहीं है और फिर इनकार करते हैं कि आप कुछ और प्रस्तावित करेंगे! यह एक ऐसे फल का उदाहरण पूछने के लिए है जो लाल नहीं है, एक ब्लूबेरी दिखाया जा रहा है, और फिर यह कहना कि इसकी गिनती नहीं है क्योंकि आपको ब्लूबेरी पसंद नहीं है।
व्हिबर

7
यह आपके द्वारा पूछे गए प्रश्न के लिए प्रासंगिक नहीं है।
whuber

8
@CagdasOzgenc: MLE पक्षपाती है या नहीं यह मॉडल पर निर्भर करता है। बिना मॉडल के MLE जैसी कोई चीज नहीं है। और यदि आप मॉडल को बदलते हैं, तो आप MLE को बदल देते हैं।
माइकल हार्डी

8
@CagdasOzgenc यहां एक सामाजिक प्रश्न है: नमूना का मतलब क्या है का एक निष्पक्ष अनुमानक? अनुमान लगाने के लिए आपके पास एक मॉडल होना चाहिए।
मैथ्यू ड्र्यू

9
आईड नमूना का मतलब जनसंख्या का निष्पक्ष अनुमानक है, लेकिन किसी व्यक्ति को किसी चीज के निष्पक्ष अनुमानक की जरूरत से ज्यादा संरचना के बिना किसी चीज की अधिकतम-संभावना आकलनकर्ता से बात नहीं की जा सकती है।
माइकल हार्डी

18

यहाँ एक उदाहरण है जो मुझे लगता है कि कुछ आश्चर्यजनक लग सकता है:

लॉजिस्टिक रिग्रेशन में, गैर-निर्धारक परिणामों के साथ किसी भी परिमित नमूने के आकार के लिए (अर्थात ), कोई भी अनुमानित प्रतिगमन गुणांक केवल पक्षपाती नहीं है, प्रतिगमन गुणांक का अर्थ वास्तव में अपरिभाषित है।0<pi<1

ऐसा इसलिए है क्योंकि किसी भी परिमित नमूने के आकार के लिए, परिणामों की सही पृथक्करण प्राप्त करने के लिए नमूनों की संख्या (प्रतिगमन मापदंडों की संख्या की तुलना में बड़ी होने पर) एक सकारात्मक संभावना है (भले ही बहुत छोटा हो। जब ऐसा होता है, तो अनुमानित प्रतिगमन गुणांक या तो होंगे या reg । या तो किया जा रहा है की सकारात्मक संभावना होने - या उम्मीद मूल्य अपरिभाषित है निकलता है।

इस विशेष मुद्दे पर अधिक जानकारी के लिए, Hauck-Donner-effect देखें


1
यह काफी चालाक है। मुझे आश्चर्य है कि अगर हक-डोनर प्रभाव की गैर-मौजूदगी पर तार्किक प्रतिगमन गुणांक का MLE निष्पक्ष सशर्त है?
गंग - मोनिका

3
@gung: संक्षिप्त उत्तर: हक-डोनर प्रभाव को नजरअंदाज करते हुए, पूर्ण प्रतिगमन गुणांक में अभी भी ऊपर की ओर पूर्वाग्रह है (यानी नकारात्मक गुणांक में नीचे की ओर पूर्वाग्रह हैं, सकारात्मक में ऊपर की ओर पूर्वाग्रह हैं)। दिलचस्प है, अनुमानित संभावनाओं में 0.5 की ओर पूर्वाग्रह प्रतीत होता है। मैंने इस पोस्ट पर इसके बारे में लिखना शुरू कर दिया है , लेकिन अनुमानित संभावनाओं के आधार पर अपने परिणामों को नहीं डाला है।
एबी एबी

10

हालाँकि @MichaelHardy ने बात बनाई है, यहाँ एक अधिक विस्तृत तर्क दिया गया है कि अधिकतम का MLE क्यों (और इसलिए, इसका मतलब , व्युत्क्रम से) निष्पक्ष नहीं है, हालाँकि यह एक अलग मॉडल में है (देखें नीचे संपादित करें)।θ/2

हम ऊपरी समान वितरण के लिए बाध्य अनुमान । यहाँ, रैंडम सैंपल y के लिए y ( n ) MLE है । हम बताते हैं कि y ( n ) निष्पक्ष नहीं है। इसका cdf F हैU[0,θ]y(n)yy(n) इस प्रकार, इसका घनत्व है y(एन)(एक्स)={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
इसलिए, E [ Y ( n ) ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

संपादित करें: यह वास्तव में ऐसा मामला है कि (टिप्पणियों में चर्चा देखें) MLE उस मामले के लिए निष्पक्ष है, जिसमें निचली बाउंड और ऊपरी बाउंड b दोनों अज्ञात हैं। फिर, न्यूनतम Y ( 1 ) एक के लिए MLE है , (विवरण छोड़ा गया) अपेक्षित मान E ( Y ( 1 ) ) = n a + babY(1)a जबकि E(Y(n))=nb+a

E(Y(1))=na+bn+1
ताकि MLE(a+b)/2 केलिए Y ( 1 ) +Y ( n ) हो
E(Y(n))=nb+an+1
(a+b)/2 अपेक्षित मूल्य E( Y ( 1 ) + Y ( n ) के साथ
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: हेनरी के बिंदु पर विस्तार से बताने के लिए, यहाँ मीन के अनुमानकों के MSE के लिए थोड़ा सा अनुकरण है, यह दिखाते हुए कि यदि MLE को हम नहीं जानते हैं कि कम बाउंड शून्य है निष्पक्ष है, दो वेरिएंट के लिए MSE समान हैं , यह सुझाव देते हुए कि अनुमानक जो निचली सीमा के ज्ञान को शामिल करता है, परिवर्तनशीलता को कम करता है।

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

क्योंकि विकिपीडिया के साथ शुरू करने के लिए एक अलग मॉडल का प्रस्ताव है। यहीं से मेरा भ्रम दूर होता है।
कागदस ओजेंकेन

a=0(max+0)/2

2
मैंने विवरणों पर काम नहीं किया है, लेकिन उस मॉडल में MLE निष्पक्ष नहीं हो सकता है यदि न्यूनतम उसी राशि से निचली सीमा को घटाता है जैसे कि अधिकतम अधिकतम को कम करता है, ताकि मध्य बिंदु बिना पूर्वाग्रह के अनुमान लगाया जा रहा है।
क्रिस्टोफ़ हेंक

4
@ कागदासओजेंक: निष्पक्षता केवल या यहां तक ​​कि बेहतर का सबसे महत्वपूर्ण उपाय नहीं है । समर्थन के एक छोर को ठीक से जानने के बाद, आप माध्य का अनुमान लगाने में त्रुटियों के बीच संतुलन खो सकते हैं, लेकिन आप अंत में (उदाहरण के लिए) रेंज का बेहतर अनुमान लगाते हैं
हेनरी

6
छोटे नमूना आकारों के सभी मानदंडों के लिए अधिकतम संभावना अनुमानक हमेशा "सर्वश्रेष्ठ" नहीं होते हैं। तो क्या? वे या तो होने का नाटक नहीं करते हैं। यदि आप अपनी समस्या के लिए एक अलग अनुमानक का उपयोग करना चाहते हैं जिसमें नमूना आकारों के लिए कुछ मानदंड के अनुसार बेहतर गुण हैं जो आपके वास्तविक नमूना आकार के पड़ोस में हैं, तो आप ऐसा करने के लिए स्वतंत्र हैं। मैं ऐसा करता हूं, और दूसरे लोग भी ऐसा करते हैं। कोई भी यह दावा नहीं कर रहा है कि MLE का उपयोग करना सभी स्थितियों में उचित है क्योंकि यह MLE है।
जुम्मन

5

यहाँ पर मेरे उत्तर में चूक को पूरा करना। ओपी द्वारा संदर्भित।

n वितरण। इस वितरण के घनत्व और क्षण हैं

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.


2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB

1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO

3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.