Lognormal वितरण के पल अनुमानक के पूर्वाग्रह


25

मैं कुछ संख्यात्मक प्रयोग कर रहा हूं, जिसमें एक लॉगनॉर्मल डिस्ट्रिब्यूशन नमूना लिया गया है , और दो तरीकों से क्षणों का अनुमान लगाने की कोशिश की जा रही हैXLN(μ,σ)E[Xn]

  1. के नमूना माध्य को देखते हुएXn
  2. नमूने का उपयोग करके और अनुमान लगाना (X), \ log ^ 2 (X) के लिए नमूना का उपयोग करता है , और फिर इस तथ्य का उपयोग करते हुए कि एक lognormal वितरण के लिए, हमारे पास \ mathbb {E} / X ^ n है। ] = \ exp (n \ mu + (n \ sigma) ^ 2/2)μσ2log(X),log2(X)E[Xn]=exp(nμ+(nσ)2/2)

सवाल यह है :

मुझे प्रायोगिक तौर पर लगता है कि दूसरी विधि बहुत बेहतर प्रदर्शन करती है, पहला वाला, जब मैं नमूनों की संख्या निश्चित रखता हूं, और कुछ कारक टी द्वारा \ mu, \ sigma ^ 2 बढ़ाता हूं μ,σ2। क्या इस तथ्य के लिए कुछ सरल स्पष्टीकरण है?

मैं एक आंकड़ा संलग्न कर रहा हूं जिसमें x- अक्ष T है, जबकि y अक्ष E[X2] मान हैं और \ mathbb के वास्तविक मूल्यों की तुलना {E} [X ^ 2] = \E[X2]=exp(2μ+2σ2) अनुमानित मानों के लिए exp (2 \ mu + 2 \ sigma ^ 2) (नारंगी रेखा)। विधि 1 - नीला डॉट्स, विधि 2 - हरा डॉट्स। y- अक्ष लॉग स्केल में है

$ \ Mathbb {E} [X ^ 2] $ के लिए सही और अनुमानित मूल्य।  ब्लू डॉट्स $ \ mathbb {E} [X ^ 2] $ (विधि 1) के लिए नमूना साधन हैं, जबकि हरी डॉट्स विधि 2 का उपयोग करने वाले अनुमानित मूल्य हैं। नारंगी लाइन की गणना ज्ञात $ \ mu $, $ \ से की जाती है। sigma $ 2 उसी समीकरण के रूप में विधि 2. y अक्ष लॉग स्केल में है

संपादित करें:

नीचे एक न्यूनतम गणित कोड है जो आउटपुट के साथ एक टी के लिए परिणाम प्रस्तुत करता है:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

आउटपुट:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

ऊपर, दूसरा परिणाम r ^ 2 का नमूना माध्य है r2, जो दो अन्य परिणामों से नीचे है


2
एक निष्पक्ष अनुमानक का मतलब यह नहीं है कि नीला डॉट्स अपेक्षित मूल्य (नारंगी वक्र) के पास होना चाहिए। एक अनुमानक निष्पक्ष हो सकता है यदि उसके पास बहुत कम होने की संभावना है और छोटे (शायद गायब होने वाले छोटे) होने की संभावना बहुत अधिक है। यही कारण है कि टी बढ़ रहा है और विचरण बहुत बड़ा हो जाता है (मेरा उत्तर देखें)।
मैथ्यू गुन

निष्पक्ष अनुमानकर्ताओं को कैसे प्राप्त किया जाए, इसके लिए कृपया आँकड़े .stackexchange.com/questions/105717 देखें । माध्य और विचरण के UMVUE उत्तर और टिप्पणियों में दिए गए हैं।
whuber

जवाबों:


22

उन परिणामों में कुछ हैरान करने वाला है

  1. पहली विधि एक निष्पक्ष अनुमानक प्रदान करती है , अर्थात् में इसके मतलब के रूप में। इसलिए नीला बिंदु अपेक्षित मूल्य (नारंगी वक्र) के आसपास होना चाहिए;E[X2][एक्स2]
    1Ni=1NXi2
    E[X2]
  2. दूसरी विधि , अर्थात् एक पक्षपाती आकलनकर्ता प्रदान करती है। जब और क्रमशः और निष्पक्ष अनुमानक हैं, और यह इस प्रकार अजीब होता है कि हरे रंग के डॉट्स संरेखित होते हैं नारंगी वक्र के साथ। [ exp ( एन μ + n 2 σ 2 / 2 ) ] > exp ( एन μ + ( एन σ ) 2 / 2 ) μE[X2]
    E[exp(nμ^+n2σ^2/2)]>exp(nμ+(nσ)2/2)
    μ^μσ²σ^²μσ²

लेकिन वे समस्या को और संख्यात्मक गणनाओं के लिए नहीं होने वाले हैं: मैं आर में प्रयोग को दोहराया और एक ही रंग कोड के साथ निम्न चित्र और के उसी क्रम मिला की और की है, जो प्रत्येक आकलनकर्ता विभाजित का प्रतिनिधित्व करता है सच्ची उम्मीद से:σ टीμTσT

10⁶ लॉग-सामान्य सिमुलेशन पर आधारित दो अनुभवजन्य दूसरे क्षण

यहाँ इसी R कोड है:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

इसलिए वास्तव में और वृद्धि के रूप में दूसरे अनुभवजन्य क्षण का पतन है कि मैं उक्त दूसरे अनुभवजन्य क्षण के विचलन में भारी वृद्धि का श्रेय और वृद्धि के रूप में ।σ μ σμσμσ

इस जिज्ञासु घटना की मेरी व्याख्या यह है कि, जबकि स्पष्ट रूप से का मतलब है , यह केंद्रीय मूल्य नहीं है: वास्तव में का माध्य बराबर है । यादृच्छिक चर को रूप में दर्शाया जाता है, जहां , यह स्पष्ट है कि, जब बड़ी है पर्याप्त, यादृच्छिक चर लगभग के परिमाण का नहीं है । दूसरे शब्दों में अगर हैएक्स 2 एक्स 2 2 μ एक्स 2 exp { 2 μ + 2 σ ε } ε ~ एन ( 0 , 1 ) σ σ ε σ 2E[X2]X2X2e2μX2exp{2μ+2σϵ}ϵN(0,1)σσϵσ2XLN(μ,σ)

P(X2>E[X2])=P(log{X2}>2μ+2σ2)=P(μ+σϵ>μ+σ2)=P(ϵ>σ)=1Φ(σ)
जो मनमाने ढंग से छोटा हो सकता है।

1
मैं भी हैरान हूँ। मैं परिणामों के साथ एक न्यूनतम कोड जोड़ रहा हूं (गणितज्ञ)
user29918

ठीक है। धन्यवाद! कुछ नंबरों को डालते हुए, मैं अब देखता हूं कि मेरे अल्प नमूना आकार वास्तव में कार्य के लिए नहीं था!
user29918

2
@ user29918: क्षमा करें, मुझे समस्या के रूप में नमूना आकार नहीं दिखता है, बल्कि यह तथ्य है कि लॉग-सामान्य बहुत तिरछा हो जाता है जब अनंत हो जाता है जब तक कि अर्थहीन हो जाता है । σ
शीआन

2
@ शीआन अच्छा सामान! । यह सटीक रूप से समीकरणों में कैप्चर करता है कि मैं क्या था (बल्कि अभेद्य रूप से) शब्दों में व्यक्त करने की कोशिश कर रहा था, जैसे कि बढ़ता है, यह तेजी से होने की संभावना (और निश्चित रूप से निकट बड़े लिए ) है कि एक अवलोकन मतलब से नीचे है। वास्तव में संभावना इतनी अधिक है कि यह अत्यधिक संभावना है कि पूरा नमूना मतलब से नीचे है! σ σP(X2>E[X2])=1Φ(σ)σσ
मैथ्यू गन

2
इस प्रकार का स्पर्शोन्मुख बहुत उपयोगी नहीं है कि क्षणों को सही ढंग से अनुमानित करने के लिए आवश्यक सिमुलेशन की संख्या तेजी से साथ बढ़ती है । σ
शीआन

13

मैंने सोचा था कि मैं कुछ अंजीर फेंक दूंगा जिसमें दिखाया गया है कि उपयोगकर्ता 29918 और शीआन के भूखंड दोनों संगत हैं। अंजीर 1 प्लॉट जो user29918 ने किया था, और अंजीर 2 (उसी डेटा पर आधारित), वही करता है जो शीआन ने अपने प्लॉट के लिए किया था। समान परिणाम, अलग प्रस्तुति।

क्या हो रहा है कि जैसे-जैसे टी बढ़ता है, विशाल हो जाता है और अनुमानक लोट्टो टिकट खरीदकर पावरबॉल लोट्टो की आबादी का अनुमान लगाने की कोशिश करता है! समय का एक बड़ा प्रतिशत, आप अदायगी को कम आंकेंगे (क्योंकि कोई नमूना अवलोकन जैकपॉट को हिट नहीं करता है) और समय का एक छोटा प्रतिशत, आप बड़े पैमाने पर अदायगी को अनदेखा करेंगे (क्योंकि नमूने में एक जैकपॉट विजेता है)। नमूना मतलब एक निष्पक्ष अनुमान है लेकिन यह हजारों और हजारों ड्रॉ के साथ, सटीक होने की उम्मीद नहीं है! वास्तव में, जैसा कि लोट्टो को जीतना कठिन और कठिन हो जाता है, आपका नमूना मतलब जनसंख्या के नीचे होगा, जिसका अर्थ है कि अधिकांश समय।1nixi2

आगे की टिप्पणी:

  1. एक निष्पक्ष अनुमानक का मतलब यह नहीं है कि अनुमानक के पास होने की उम्मीद है! नीले डॉट्स उम्मीद के पास नहीं होने चाहिए। उदाहरण के लिए। यादृच्छिक पर चुना गया एक एकल अवलोकन जनसंख्या के माध्य का निष्पक्ष अनुमान देता है, लेकिन उस अनुमानक के पास होने की उम्मीद नहीं की जाएगी।
  2. यह मुद्दा सामने आ रहा है क्योंकि विचरण बिल्कुल खगोलीय होता जा रहा है। जैसा कि विचरण बैटशिट जाता है, पहली विधि के लिए अनुमान केवल कुछ टिप्पणियों के लिए प्रेरित किया जा रहा है। तुम भी एक छोटे, छोटेपन की संभावना, इन्सानियत, इन्सानियत के छोटे बड़े होने लगते हो ...
  3. यह एक सहज व्याख्या है। शीआन की अधिक औपचारिक व्युत्पत्ति है। उसका परिणाम अर्थ है कि as बड़ा हो जाता है, यह अविश्वसनीय रूप से कभी भी इस अर्थ के ऊपर अवलोकन आकर्षित करने की संभावना नहीं बन जाता है, यहां तक ​​कि हजारों टिप्पणियों के साथ भी। । "लोट्टो जीतने" की मेरी भाषा एक घटना को संदर्भित करती है जहां । σ एक्स 2 > [ एक्स 2 ]P(X2>E[X2])=1Φ(σ)σX2>E[X2]यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.