क्या कोई पेरेटो वितरण और केंद्रीय सीमा प्रमेय (जैसे यह लागू होता है? क्यों / क्यों नहीं?) के बीच के रिश्ते का एक सरल (व्यक्ति को) स्पष्टीकरण प्रदान कर सकता है। मैं निम्नलिखित कथन को समझने की कोशिश कर रहा हूं:
क्या कोई पेरेटो वितरण और केंद्रीय सीमा प्रमेय (जैसे यह लागू होता है? क्यों / क्यों नहीं?) के बीच के रिश्ते का एक सरल (व्यक्ति को) स्पष्टीकरण प्रदान कर सकता है। मैं निम्नलिखित कथन को समझने की कोशिश कर रहा हूं:
जवाबों:
कथन सामान्य रूप से सही नहीं है - पेरेटो वितरण का एक सीमित अर्थ है यदि इसका आकार पैरामीटर ( लिंक पर ) 1 से अधिक है।
जब माध्य और विचरण दोनों मौजूद होते हैं ( ), केंद्रीय सीमा प्रमेय के सामान्य रूप - जैसे शास्त्रीय, ल्यपुनोव, लिंडबर्ग लागू होंगे
शास्त्रीय केंद्रीय सीमा प्रमेय का विवरण यहां देखें
उद्धरण अजीब तरह का है, क्योंकि केंद्रीय सीमा प्रमेय (किसी भी उल्लेख किए गए रूपों में) नमूना मतलब के लिए ही लागू नहीं होता है, लेकिन एक मानकीकृत मतलब के लिए (और अगर हम इसे उस चीज़ पर लागू करने की कोशिश करते हैं जिसका अर्थ और भिन्नता है परिमित नहीं, हमें बहुत सावधानी से यह बताने की आवश्यकता होगी कि हम वास्तव में किस बारे में बात कर रहे हैं, क्योंकि अंश और हर में उन चीजों को शामिल किया गया है जिनकी परिमित सीमा नहीं है)।
फिर भी (केंद्रीय सीमा प्रमेयों के बारे में बात करने के लिए सही ढंग से व्यक्त नहीं किए जाने के बावजूद) इसमें कुछ अंतर्निहित बिंदु है - नमूना का मतलब जनसंख्या के अभिसरण से नहीं होगा ( बड़ी संख्या का कमजोर कानून पकड़ में नहीं आता है, चूंकि अभिन्न को परिभाषित करने का अर्थ परिमित नहीं है)।
जैसा कि केजेटिल ठीक से टिप्पणियों में बताते हैं, अगर हम अभिसरण की दर से बचने के लिए भयानक हैं (अर्थात व्यवहार में इसका उपयोग करने में सक्षम होने के लिए), हमें "कितनी दूर" / "कितनी जल्दी" पर बाध्य होने की आवश्यकता है सन्निकटन किक करता है। यदि हम एक सामान्य सन्निकटन से कुछ व्यावहारिक उपयोग चाहते हैं, तो (कहना) के लिए एक पर्याप्त सन्निकटन होने का कोई फायदा नहीं है ।
केंद्रीय सीमा प्रमेय गंतव्य के बारे में है, लेकिन हमें इस बारे में कुछ नहीं बताता है कि हम वहां कितनी तेजी से पहुंचते हैं; हालांकि, बेरी-एसेन प्रमेय प्रमेय जैसे परिणाम हैं जो दर (एक विशेष अर्थ में) को बाध्य करते हैं। बेरी-एसेन के मामले में, यह तीसरे पूर्ण क्षण ( के मानकीकृत माध्य के वितरण समारोह और मानक सामान्य cdf के बीच सबसे बड़ी दूरी को सीमा में बांधता है ।
तो परेटो के मामले में, यदि , हम कम से कम कुछ पर ही बाध्य हो सकते हैं कि कुछ पर अनुमान कितना बुरा हो सकता है , और हम कितनी जल्दी वहां पहुँच रहे हैं। (दूसरी ओर, cdfs में अंतर को बांधना आवश्यक रूप से बाध्य करने के लिए विशेष रूप से "व्यावहारिक" चीज नहीं है - जो आप रुचि रखते हैं वह विशेष रूप से पूंछ क्षेत्र के अंतर पर एक बाध्य से संबंधित नहीं हो सकता है)। फिर भी, यह कुछ है (और कम से कम कुछ स्थितियों में एक cdf बाध्य अधिक सीधे उपयोगी है)।
मैं एक उत्तर दिखाऊंगा कि केंद्रीय सीमा प्रमेय (सीएलटी) से अनुमान कितना खराब है, पारेतो वितरण के लिए हो सकता है, यहां तक कि ऐसे मामले में जहां सीएलटी के लिए मान्यताएं पूरी होती हैं। धारणा यह है कि एक परिमित विचरण होना चाहिए, जो पारेतो के लिए इसका अर्थ है। ऐसा क्यों है इसकी अधिक सैद्धांतिक चर्चा के लिए, मेरा जवाब यहां देखें: परिमित और अनंत भिन्नता के बीच क्या अंतर है
मैं पैराटो डिस्ट्रीब्यूशन से पैरामीटर के साथ डेटा अनुकरण करूंगा , ताकि विचरण "बस मुश्किल से मौजूद है"। के साथ मेरे सिमुलेशन फिर से करेंअंतर देखने के लिए! यहाँ कुछ आर कोड है:
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
और यहाँ साजिश है:
एक नमूना के आकार पर भी देख सकते हैं हम सामान्य सन्निकटन से बहुत दूर हैं। यह कि अनुभवजन्य भिन्नताएँ वास्तविक सैद्धांतिक भिन्नता की तुलना में बहुत कम हैंइस तथ्य के कारण है कि अत्यधिक दाहिने पूंछ में वितरण के कुछ हिस्सों से विचरण में हमारा बहुत बड़ा योगदान है जो अधिकांश नमूनों में नहीं दिखाई देते हैं। यह हमेशा उम्मीद की जानी चाहिए, जब विचरण "बस मुश्किल से मौजूद है" । इसके बारे में सोचने का एक व्यावहारिक तरीका निम्नलिखित है। Pareto वितरण अक्सर आय (या धन) के वितरण के मॉडल के लिए प्रस्तावित है। आय की उम्मीद (या धन) का बहुत ही कम अरबों से बहुत बड़ा योगदान होगा। व्यावहारिक नमूना आकार के साथ नमूने के नमूने में किसी भी अरबपति को शामिल करने की बहुत कम संभावना होगी!
मुझे पहले से ही दिए गए उत्तर पसंद हैं, लेकिन लगता है कि "लेट पर्सन एक्सप्लेनेशन" के लिए बहुत अधिक तकनीकी हैं इसलिए मैं कुछ अधिक सहज (एक समीकरण द्वारा शुरू) कोशिश करूंगा।
घनत्व का मतलब की तरह परिभाषित किया गया है:
फिर, केंद्रीय सीमा प्रमेय अनुभवजन्य माध्य के बीच की दूरी का वितरण स्थापित करती है और मतलब है के विचरण के एक समारोह के रूप में तथा (asympotically के साथ )। आइए देखें कि अनुभवजन्य अर्थ कैसे होता है की संख्या के एक कार्य के रूप में व्यवहार करता है एक गाऊसी घनत्व के लिए :
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
यह एक विशिष्ट अहसास है, नमूना माध्य घनत्व का अभिप्राय काफी हद तक समुचित रूप से करता है (और केंद्रीय सीमा सिद्धांत द्वारा दिए गए तरीके से औसत रूप से)। बिना किसी मतलब के पेयरेटो वितरण के लिए ऐसा ही करते हैं (प्रतिस्थापन rnorm (एन, 1,1); पर्टो द्वारा (एन, 1.1,1);)
यह एक विशिष्ट सिमुलेशन भी है, समय-समय पर, नमूना का मतलब उत्पाद में इंटीग्रल फॉर्मूला का उपयोग करते हुए स्पष्ट रूप से केवल बीक्युस को जोर से भटकाता है। के उच्च मूल्यों की आवृत्ति इस तथ्य की भरपाई के लिए कोई छोटा नहीं है ऊंचा है। तो माध्य मौजूद नहीं है और नमूना माध्य किसी विशिष्ट मान में परिवर्तित नहीं होता है और केंद्रीय सीमा प्रमेय के पास कहने के लिए कुछ भी नहीं है।
अंत में, ध्यान दें कि केंद्रीय सीमा प्रमेय अनुभवजन्य माध्य, माध्य, नमूना आकार से संबंधित है और विचरण। इतना विचरण भी मौजूद होना चाहिए (विवरण के लिए kjetil b halvorsen उत्तर देखें)।