किस मॉडल के लिए MLE का पूर्वाग्रह तेजी से विचरण से गिरता है?


14

θ^θnθ - θ *θ^θ आम तौर पर कम हो जाती है के रूप में हे ( 1 / n )O(1/n)। त्रिकोण असमानता और उम्मीद के गुणों का उपयोग करना, यह है कि इस त्रुटि दर है कि दोनों "पूर्वाग्रह" का तात्पर्य दिखाया जा सकता है θ -θ*Eθ^θऔर "विचलन" θ - θEθ^θ^ही में कमी हे ( 1 / n )O(1/n)दर। बेशक, मॉडल के लिए पूर्वाग्रह होना संभव है जो एक तेज दर से सिकुड़ता है। कई मॉडल (जैसे ऑर्डिनरी कम से कम वर्ग प्रतिगमन) में कोई पूर्वाग्रह नहीं है।

मैं मॉडल पूर्वाग्रह है में रुचि रहा है कि तेजी से सिकुड़ती हे ( 1 / n )O(1/n), लेकिन जहां त्रुटि इस तेज दर से सिकुड़ती नहीं है क्योंकि विचलन अभी भीO(1/ √) के रूप में सिकुड़ता हैn )O(1/n)। विशेष रूप से, मैं एक मॉडल के पूर्वाग्रह के लिए दरO(1/n) मेंसिकुड़ने के लिए पर्याप्त शर्तें जानना चाहूंगाO(1/n)


क्या θ - θ *= ( θ - θ * ) 2θ^θ=(θ^θ)2 ? या?
एलेकोस पापाडोपोलोस

मैं विशेष रूप से L2 मानदंड के बारे में पूछ रहा था, हाँ। लेकिन मुझे अन्य मानदंडों में भी दिलचस्पी होगी अगर यह सवाल का जवाब देने में आसान बनाता है।
माइक इज़्बीकी

( Θ - θ * ) 2(θ^θ)2 है हे पी ( 1 / n )Op(1/n)
एलेकोस पापाडोपोलोस

क्षमा करें, मैंने आपकी टिप्पणी को गलत बताया। में L2 आदर्श के लिए d आयाम, एक - = d i = 1 ( a ( i - b i ) 2ab=di=1(aibi)2 , और इसलिए अभिसरणO(1)की दर से होता है / n )। मैं सहमत हूं कि अगर हमने इसे चुकता किया तो यहO(1/n) केरूप में परिवर्तित हो जाएगा। O(1/n)O(1/n)
माइक इज़्बीकी

क्या आपने रिज रिग्रेशन (Hoerl & Kennard 1970) पेपर देखा है? मेरा मानना ​​है कि यह डिज़ाइन मैट्रिक्स + पेनल्टी पर शर्तें देता है जहाँ यह सही होने की उम्मीद है।
डीसी

जवाबों:


5

सामान्य तौर पर, आपको ऐसे मॉडल की आवश्यकता होती है जहां MLE asymptotically सामान्य नहीं है, लेकिन कुछ अन्य वितरण में परिवर्तित होता है (और यह तेज दर पर ऐसा करता है)। यह आमतौर पर तब होता है जब अनुमान के तहत पैरामीटर पैरामीटर स्थान की सीमा पर होता है। सहज रूप से, इसका मतलब है कि MLE "केवल एक तरफ से" पैरामीटर को अप्रोच करेगा, इसलिए यह "अभिसरण गति में सुधार करता है" क्योंकि यह पैरामीटर के चारों ओर "आगे और पीछे" जाने से "विचलित" नहीं होता है।

एक मानक उदाहरण, MLE के लिए है θ के आईआईडी नमूने में यू ( 0 , θ ) वर्दी आर.वी. की द MLE यहां अधिकतम आदेश आंकड़ा है,θU(0,θ)

Θ n=यू(एन)

θ^n=u(n)

इसका परिमित नमूना वितरण है

एफ θ एन = ( θ n ) nθ एन ,θ = n ( θ n ) n - 1θ एन

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

( θ एन ) = nn + 1 θबी ( θ ) = - 1n + 1 θ

E(θ^n)=nn+1θB(θ^)=1n+1θ

So B(ˆθn)=O(1/n)B(θ^n)=O(1/n). But the same increased rate will hold also for the variance.

One can also verify that to obtain a limiting distribution, we need to look at the variable n(θˆθn)n(θθ^n),(i.e we need to scale by nn) since

P[n(θˆθn)z]=1P[ˆθnθ(z/n)]

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

1ez/θ

which is the CDF of the Exponential distribution.

I hope this provides some direction.


This is getting close, but I'm specifically interested in situations where the bias shrinks faster than the variance.
Mike Izbicki

2
@MikeIzbicki Hmm... the bias convergence depends on the first moment of the distribution, and the (square root of the) variance is also a "first-order" magnitude. I am not sure then that this is possible to happen, because it appears that it would imply that the moments of the limiting distribution "arise" at convergence rates that are not compatible with each other... I' ll think about it though.
Alecos Papadopoulos

2

Following comments in my other answer (and looking again at the title of the OP's question!), here is an not very rigorous theoretical exploration of the issue.

We want to determine whether Bias B(ˆθn)=E(ˆθn)θB(θ^n)=E(θ^n)θ may have different convergence rate than the square root of the Variance,

B(ˆθn)=O(1/nδ),Var(ˆθn)=O(1/nγ),γδ???

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

We have

B(ˆθn)=O(1/nδ)limnδE(ˆθn)<Klimn2δ[E(ˆθn)]2<K

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

[E(ˆθn)]2=O(1/n2δ)

[E(θ^n)]2=O(1/n2δ)(1)

while

Var(ˆθn)=O(1/nγ)limnγE(ˆθ2n)[E(ˆθn)]2<M

Var(θ^n)=O(1/nγ)limnγE(θ^2n)[E(θ^n)]2<M

limn2γE(ˆθ2n)n2γ[E(ˆθn)]2<M

limn2γE(θ^2n)n2γ[E(θ^n)]2<M

limn2γE(ˆθ2n)limn2γ[E(ˆθn)]2<M

limn2γE(θ^2n)limn2γ[E(θ^n)]2<M(2)

We see that (2)(2) may hold happen if

A) both components are O(1/n2γ)O(1/n2γ), in which case we can only have γ=δγ=δ.

B) But it may also hold if

limn2γ[E(ˆθn)]20[E(ˆθn)]2=o(1/n2γ)

limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)(3)

For (3)(3) to be compatible with (1)(1), we must have

n2γ<n2δδ>γ

n2γ<n2δδ>γ(4)

So it appears that in principle it is possible to have the Bias converging at a faster rate than the square root of the variance. But we cannot have the square root of the variance converging at a faster rate than the Bias.


How would you reconcile this with the existence of unbiased estimators like ordinary least squares? In that case, B(ˆθ)=0B(θ^)=0, but Var(ˆθ)=O(1/n)Var(θ^)=O(1/n).
Mike Izbicki

@MikeIzbicki Is the concept of convergence/big-O applicable in this case? Because here B(ˆθ)B(θ^) is not "O()O()-anything" to begin with.
Alecos Papadopoulos

In this case, Eˆθ=θEθ^=θ, so B(ˆθ)=Eˆθθ=0=O(1)=O(1/n0)B(θ^)=Eθ^θ=0=O(1)=O(1/n0).
Mike Izbicki

@MikeIzbicki But also B(ˆθ)=O(n)B(θ^)=O(n) or B(ˆθ)=O(1/n) or any other you care to write down. So which one is the rate of convergence here?
Alecos Papadopoulos

@MikeIzbicki I have corrected my answer to show that it is possible in principle to have the Bias converging faster, although I still think the "zero-bias" example is problematic.
Alecos Papadopoulos
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.