एक सामान्य-सामान्य वितरण में अंकगणित माध्य वितरण से छोटा क्यों है?


13

तो, मेरे पास एक यादृच्छिक प्रक्रिया है जो लॉग-सामान्य रूप से वितरित यादृच्छिक चर उत्पन्न करता है । यहाँ इसी संभावना घनत्व समारोह है:X

चित्रा एक lognormal संभावना घनत्व समारोह का प्रतिनिधित्व करते हैं

मैं उस मूल वितरण के कुछ क्षणों के वितरण का अनुमान लगाना चाहता था , चलो कहते हैं कि पहला क्षण: अंकगणितीय माध्य। ऐसा करने के लिए, मैंने 100 यादृच्छिक चर को 10000 बार आकर्षित किया ताकि मैं अंकगणितीय माध्य के 10000 अनुमानों की गणना कर सकूं।

अनुमान लगाने के दो अलग-अलग तरीके हैं (मतलब कम से कम, यही मैंने समझा: मैं गलत हो सकता है):

  1. सामान्य रूप से अंकगणित की गणना सामान्य तरीके से:
    X¯=i=1NXiN.
  2. या पहले सामान्य वितरण से और अनुमान : और फिर माध्य के रूप मेंσμ
    μ=i=1Nlog(Xi)Nσ2=i=1N(log(Xi)μ)2N
    X¯=exp(μ+12σ2).

समस्या यह है कि इन सभी अनुमानों के अनुरूप वितरण व्यवस्थित रूप से भिन्न हैं:

चित्र पर दिखाए गए अनुसार दो अनुमानक अलग-अलग वितरण देते हैं।

"सादा" माध्य (लाल धराशायी रेखा के रूप में दर्शाया गया) आम तौर पर घातीय रूप (हरे रंग का सादा रेखा) से प्राप्त मान से कम मान प्रदान करता है। हालांकि दोनों साधनों की गणना सटीक एक ही डेटासेट पर की जाती है। कृपया ध्यान दें कि यह अंतर व्यवस्थित है।

ये वितरण समान क्यों नहीं हैं?


और लिए आपके सच्चे मापदंड क्या हैं ? μσ
क्रिस्टोफ़ हनक

μ=3 और , लेकिन कृपया ध्यान दें कि मैं इन मापदंडों का अनुमान लगाने में दिलचस्पी रखता हूं, इसलिए इन कच्चे नंबरों से चीज़ की गणना करने के बजाय मोंटे-कार्लो दृष्टिकोण। σ=1.5
जॉन डब्ल्यू

यकीन है, यह आपके परिणामों की प्रतिकृति के लिए है।
क्रिस्टोफ हनक

4
दिलचस्प बात यह है कि इस घटना का लोगनॉर्मलिटी से कोई लेना-देना नहीं है। यह देखते हुए सकारात्मक संख्या साथ लघुगणक , यह अच्छी तरह से उनके समांतर माध्य (एएम) में जाना जाता है उनके ज्यामितीय माध्य (जीएम) की तुलना में कभी नहीं है कम । दूसरी दिशा में, AM से जीएम से गुणा कभी नहीं अधिक से अधिक है जहां के विचरण है । इस प्रकार, बिंदीदार लाल वक्र किसी भी मूल वितरण (सकारात्मक यादृच्छिक संख्या का वर्णन) के लिए ठोस हरे वक्र के बाईं ओर स्थित होना चाहिए । xiyixi/nexp(yi/n)exp(sy2/2)sy2yi
whuber

यदि माध्य का बहुत बड़ा भाग छोटी संख्या की संभावना से आता है, तो एक परिमित नमूना अंकगणित माध्य जनसंख्या को उच्च संभाव्यता के साथ कम कर सकता है। (उम्मीद में यह निष्पक्ष है, लेकिन एक छोटे से कम अंतर
मैथ्यू गुन

जवाबों:


12

जिन दो अनुमानकों की आप तुलना कर रहे हैं वे क्षण आकलनकर्ता (1.) और MLE (2.) की विधि हैं, यहां देखें । दोनों संगत कर रहे हैं (इतनी बड़ी के लिए , वे एक निश्चित अर्थ में कर रहे हैं की संभावना सही मूल्य के करीब )।Nexp[μ+1/2σ2]

MM अनुमानक के लिए, यह बड़ी संख्याओं के कानून का प्रत्यक्ष परिणाम है, जो कहता है कि । MLE के लिए, निरंतर मैपिंग प्रमेय का तात्पर्य उस रूप में और ।X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμσ^2pσ2

MLE, हालांकि, निष्पक्ष नहीं है।

वास्तव में, जेन्सेन की असमानता हमें बताती है कि, छोटे के लिए, MLE को पक्षपाती होने की उम्मीद है (नीचे अनुकरण भी देखें): और हैं (बाद वाले मामले में, लगभग) है, लेकिन के लिए एक नगण्य पूर्वाग्रह के साथ , द्वारा निष्पक्ष आकलनकर्ता विभाजित के रूप में ) अच्छी तरह से एक सामान्य वितरण के मापदंडों के निष्पक्ष आकलनकर्ता माने जाते और (मैं टोपी का उपयोग आकलनकर्ता इंगित करने के लिए)।Nμ^σ^2N=100N1μσ2

इसलिए, । चूंकि घातीय एक उत्तल कार्य है, इसका तात्पर्य यह है कि E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

को एक बड़ी संख्या में बढ़ाने की कोशिश करें , जो सच्चे मूल्य के आसपास दोनों वितरणों को केंद्र में रखना चाहिए।N=100

R में लिए यह मोंटे कार्लो चित्रण देखें :N=1000

यहाँ छवि विवरण दर्ज करें

के साथ बनाया गया:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

हम ध्यान दें कि दोनों वितरण अब (अधिक या कम) सही मूल्य के आसपास केंद्रित हैं 2/2 , MLE, जैसा कि अक्सर होता है, अधिक कुशल है।exp(μ+σ2/2)

एक वास्तव में स्पष्ट रूप से दिखा सकता है कि यह स्पर्शोन्मुख variances की तुलना करके ऐसा होना चाहिए। यह बहुत अच्छा CV उत्तर हमें बताता है कि MLE का विचरण जबकि MM अनुमानक, CLT के एक प्रत्यक्ष आवेदन द्वारा, जो नमूनों के औसत पर लागू होता है, लॉग-सामान्य वितरण के विचरण का, दूसरा पहले की तुलना में बड़ा है, क्योंकि asऔर ।

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
exp{σ2}>1+σ2+σ4/2,exp(x)=Σमैं = 0 एक्समैं/मैं! σ2>0
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

यह देखने के लिए कि MLE वास्तव में छोटे लिए पक्षपाती है , मैं 50,000 प्रतिकृति के लिए सिमुलेशन दोहराता हूं और एक नकली बायलॉज प्राप्त करता हूं :NN <- c(50,100,200,500,1000,2000,3000,5000)

यहाँ छवि विवरण दर्ज करें

हम देखते हैं कि MLE वास्तव में छोटे लिए गंभीर रूप से पक्षपाती है । मैं एक समारोह के रूप में एमएम अनुमानक के पूर्वाग्रह के कुछ अनिश्चित व्यवहार के बारे में थोड़ा आश्चर्यचकित हूं । एमएम के लिए छोटे लिए सिम्युलेटेड पूर्वाग्रह की संभावना बाहरी लोगों के कारण होती है जो गैर-लॉग इन एमएम अनुमानक को MLE से अधिक प्रभावित करते हैं। एक सिमुलेशन रन में, सबसे बड़ा अनुमान निकलाएन एन = 50NNN=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 

आह ठीक है। यह वास्तव में मेरे लिए नहीं था कि एक विधि एक ही डेटा दिए गए अन्य की तुलना में अधिक कुशल हो सकती है। इसलिए मैं कह सकता हूं कि अगर सही ढंग से समझा जाए तो MLE समाधान दूसरी विधि की तुलना में संबंध में तेजी से परिवर्तित होता है। धन्यवाद! N
जॉन डब्ल्यूडब्ल्यू

1
मैंने पूर्वाग्रह के बारे में थोड़ा संपादन किया। के लिए पूर्वाग्रह वास्तव में एम एम आकलनकर्ता के लिए नकारात्मक है, लेकिन यह एक सामान्य परिणाम की तरह नहीं लगता है, के एक समारोह के रूप में पूर्वाग्रह के लिए साजिश को देखने के । एनN=100N
क्रिस्टोफ हनक

2
खैर, मुझे भी आश्चर्य है कि दो तरीकों के बीच इतना बड़ा अंतर है, हालांकि यह उदाहरण प्रदर्शित करने के लिए बिल्कुल सही है कि "बस औसत सामान" भयानक क्यों हो सकता है!
जॉन डब्ल्यूयू

1
@ जॉन, मैंने थोड़ा विश्लेषण किया कि एमएलई के छोटे संस्करण क्यों हैं।
क्रिस्टोफ हांक जूल

1
विसंगति इस तथ्य से उपजी है कि पूर्वाग्रह एक नमूना नमूना समस्या है, अर्थात, यह गायब हो जाता है क्योंकि अनंत तक जाता है। स्पर्शोन्मुख विचरण (जैसा कि नाम कहता है) तुलना केवल वही दिखाती है जो सीमा में होता है, जैसा कि । एन NN
बजे क्रिस्टोफ़ हेंक जूल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.