केंद्रीय सीमा प्रमेय और पारेटो वितरण


10

जवाबों:


15

कथन सामान्य रूप से सही नहीं है - पेरेटो वितरण का एक सीमित अर्थ है यदि इसका आकार पैरामीटर ( लिंक पर ) 1 से अधिक है।α

जब माध्य और विचरण दोनों मौजूद होते हैं ( ), केंद्रीय सीमा प्रमेय के सामान्य रूप - जैसे शास्त्रीय, ल्यपुनोव, लिंडबर्ग लागू होंगेα>2

शास्त्रीय केंद्रीय सीमा प्रमेय का विवरण यहां देखें

उद्धरण अजीब तरह का है, क्योंकि केंद्रीय सीमा प्रमेय (किसी भी उल्लेख किए गए रूपों में) नमूना मतलब के लिए ही लागू नहीं होता है, लेकिन एक मानकीकृत मतलब के लिए (और अगर हम इसे उस चीज़ पर लागू करने की कोशिश करते हैं जिसका अर्थ और भिन्नता है परिमित नहीं, हमें बहुत सावधानी से यह बताने की आवश्यकता होगी कि हम वास्तव में किस बारे में बात कर रहे हैं, क्योंकि अंश और हर में उन चीजों को शामिल किया गया है जिनकी परिमित सीमा नहीं है)।

फिर भी (केंद्रीय सीमा प्रमेयों के बारे में बात करने के लिए सही ढंग से व्यक्त नहीं किए जाने के बावजूद) इसमें कुछ अंतर्निहित बिंदु है - नमूना का मतलब जनसंख्या के अभिसरण से नहीं होगा ( बड़ी संख्या का कमजोर कानून पकड़ में नहीं आता है, चूंकि अभिन्न को परिभाषित करने का अर्थ परिमित नहीं है)।


जैसा कि केजेटिल ठीक से टिप्पणियों में बताते हैं, अगर हम अभिसरण की दर से बचने के लिए भयानक हैं (अर्थात व्यवहार में इसका उपयोग करने में सक्षम होने के लिए), हमें "कितनी दूर" / "कितनी जल्दी" पर बाध्य होने की आवश्यकता है सन्निकटन किक करता है। यदि हम एक सामान्य सन्निकटन से कुछ व्यावहारिक उपयोग चाहते हैं, तो (कहना) के लिए एक पर्याप्त सन्निकटन होने का कोई फायदा नहीं है ।n>1010100

केंद्रीय सीमा प्रमेय गंतव्य के बारे में है, लेकिन हमें इस बारे में कुछ नहीं बताता है कि हम वहां कितनी तेजी से पहुंचते हैं; हालांकि, बेरी-एसेन प्रमेय प्रमेय जैसे परिणाम हैं जो दर (एक विशेष अर्थ में) को बाध्य करते हैं। बेरी-एसेन के मामले में, यह तीसरे पूर्ण क्षण ( के मानकीकृत माध्य के वितरण समारोह और मानक सामान्य cdf के बीच सबसे बड़ी दूरी को सीमा में बांधता है ।E(|X|3)

तो परेटो के मामले में, यदि α>3, हम कम से कम कुछ पर ही बाध्य हो सकते हैं कि कुछ पर अनुमान कितना बुरा हो सकता है n, और हम कितनी जल्दी वहां पहुँच रहे हैं। (दूसरी ओर, cdfs में अंतर को बांधना आवश्यक रूप से बाध्य करने के लिए विशेष रूप से "व्यावहारिक" चीज नहीं है - जो आप रुचि रखते हैं वह विशेष रूप से पूंछ क्षेत्र के अंतर पर एक बाध्य से संबंधित नहीं हो सकता है)। फिर भी, यह कुछ है (और कम से कम कुछ स्थितियों में एक cdf बाध्य अधिक सीधे उपयोगी है)।


2
लेकिन अगर विचरण अभी मुश्किल से मौजूद है, तो यह है α>2लेकिन बहुत करीब है, सिद्धांत में आवेदन करते समय केंद्रीय सीमा प्रमेय, बहुत खराब अनुमानों का कारण बन सकता है। सन्निकटन की गुणवत्ता पर कुछ नियंत्रण करने के लिए आपको बेरी-एसेन प्रमेय की तरह कुछ की आवश्यकता होती है, जिसके लिए तीसरे क्षण की आवश्यकता होती है,α>3
kjetil b halvorsen

@kjetil तो काफी; व्यवहार में आपको केवल दूसरे क्षणों से अधिक की आवश्यकता है क्योंकि अभिसरण बेकार में धीमा हो सकता है।
Glen_b -Reinstate मोनिका

1
हां, मैं यह दिखाने के लिए उत्तर जोड़ूंगा कि!
kjetil b halvorsen

2
केंद्रीय वितरण प्रमेय का पालन नहीं करने वाले कुछ वितरणों को एक स्थिर कानून में परिवर्तित करने के लिए मानकीकृत किया जा सकता है।
माइकल आर। चेर्निक

यहाँ महान चर्चा। विशैक स्टेक्सचेंज में लोगों के जवाब / टिप्पणियों का अनुसरण करने का एक तरीका था;)
चान-हो सुह

9

मैं एक उत्तर दिखाऊंगा कि केंद्रीय सीमा प्रमेय (सीएलटी) से अनुमान कितना खराब है, पारेतो वितरण के लिए हो सकता है, यहां तक ​​कि ऐसे मामले में जहां सीएलटी के लिए मान्यताएं पूरी होती हैं। धारणा यह है कि एक परिमित विचरण होना चाहिए, जो पारेतो के लिए इसका अर्थ हैα>2। ऐसा क्यों है इसकी अधिक सैद्धांतिक चर्चा के लिए, मेरा जवाब यहां देखें: परिमित और अनंत भिन्नता के बीच क्या अंतर है

मैं पैराटो डिस्ट्रीब्यूशन से पैरामीटर के साथ डेटा अनुकरण करूंगा α=2.1, ताकि विचरण "बस मुश्किल से मौजूद है"। के साथ मेरे सिमुलेशन फिर से करेंα=3.1अंतर देखने के लिए! यहाँ कुछ आर कोड है:

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

और यहाँ साजिश है:

नकली pareto का मतलब है, हिस्टोग्राम

एक नमूना के आकार पर भी देख सकते हैं n=10000हम सामान्य सन्निकटन से बहुत दूर हैं। यह कि अनुभवजन्य भिन्नताएँ वास्तविक सैद्धांतिक भिन्नता की तुलना में बहुत कम हैंσ2=1इस तथ्य के कारण है कि अत्यधिक दाहिने पूंछ में वितरण के कुछ हिस्सों से विचरण में हमारा बहुत बड़ा योगदान है जो अधिकांश नमूनों में नहीं दिखाई देते हैं। यह हमेशा उम्मीद की जानी चाहिए, जब विचरण "बस मुश्किल से मौजूद है" । इसके बारे में सोचने का एक व्यावहारिक तरीका निम्नलिखित है। Pareto वितरण अक्सर आय (या धन) के वितरण के मॉडल के लिए प्रस्तावित है। आय की उम्मीद (या धन) का बहुत ही कम अरबों से बहुत बड़ा योगदान होगा। व्यावहारिक नमूना आकार के साथ नमूने के नमूने में किसी भी अरबपति को शामिल करने की बहुत कम संभावना होगी!


3

मुझे पहले से ही दिए गए उत्तर पसंद हैं, लेकिन लगता है कि "लेट पर्सन एक्सप्लेनेशन" के लिए बहुत अधिक तकनीकी हैं इसलिए मैं कुछ अधिक सहज (एक समीकरण द्वारा शुरू) कोशिश करूंगा।

घनत्व का मतलब p की तरह परिभाषित किया गया है:

μ=xp(x)dx
तो मोटे तौर पर, मतलब "योग खत्म" है x"घनत्व पर उत्पाद के बीच x तथा xअपने आप। कबx पर घनत्व अनंत जाता है p(x) पर्याप्त रूप से गायब हो जाना चाहिए ताकि उत्पाद xp(x)अनंत तक नहीं जाता है (और इसके परिणामस्वरूप योग भी)। कबp(x) पर्याप्त रूप से गायब नहीं होता है, उत्पाद अनंत में जाता है, अभिन्न अनंत में जाता है, μ मौजूद नहीं है और अंत में, pकोई मतलब नहीं है। यह कुछ पैरामीटर मानों के लिए पेरेटो का मामला है।

फिर, केंद्रीय सीमा प्रमेय अनुभवजन्य माध्य के बीच की दूरी का वितरण स्थापित करती है x¯=1nixi और मतलब है μ के विचरण के एक समारोह के रूप में p तथा n (asympotically के साथ n)। आइए देखें कि अनुभवजन्य अर्थ कैसे होता हैx¯ की संख्या के एक कार्य के रूप में व्यवहार करता है n एक गाऊसी घनत्व के लिए p:

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

यहाँ छवि विवरण दर्ज करें

यह एक विशिष्ट अहसास है, नमूना माध्य घनत्व का अभिप्राय काफी हद तक समुचित रूप से करता है (और केंद्रीय सीमा सिद्धांत द्वारा दिए गए तरीके से औसत रूप से)। बिना किसी मतलब के पेयरेटो वितरण के लिए ऐसा ही करते हैं (प्रतिस्थापन rnorm (एन, 1,1); पर्टो द्वारा (एन, 1.1,1);)

यहाँ छवि विवरण दर्ज करें

यह एक विशिष्ट सिमुलेशन भी है, समय-समय पर, नमूना का मतलब उत्पाद में इंटीग्रल फॉर्मूला का उपयोग करते हुए स्पष्ट रूप से केवल बीक्युस को जोर से भटकाता है। p(x)xके उच्च मूल्यों की आवृत्ति x इस तथ्य की भरपाई के लिए कोई छोटा नहीं है xऊंचा है। तो माध्य मौजूद नहीं है और नमूना माध्य किसी विशिष्ट मान में परिवर्तित नहीं होता है और केंद्रीय सीमा प्रमेय के पास कहने के लिए कुछ भी नहीं है।

अंत में, ध्यान दें कि केंद्रीय सीमा प्रमेय अनुभवजन्य माध्य, माध्य, नमूना आकार से संबंधित है nऔर विचरण। इतना विचरण(xμ)2p(x)dx भी मौजूद होना चाहिए (विवरण के लिए kjetil b halvorsen उत्तर देखें)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.