सिमुलेशन के साथ महत्व के नमूने के लिए अपेक्षित कवरेज से कम

मैं इस सवाल का जवाब देने की कोशिश कर रहा था कि आर में महत्व नमूनाकरण विधि के साथ अभिन्न मूल्यांकन करें । मूल रूप से, उपयोगकर्ता की गणना करने की आवश्यकता है

\int_{0}^{π} च (एक्स) घ एक्स = \int_{0}^{π} \frac{1}{क्योंकि (एक्स)^{2} + {एक्स}^{2}} घ एक्स

$\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx$

महत्व वितरण के रूप में घातीय वितरण का उपयोग करना

क्ष (एक्स) = λ \exp^{- λ एक्स}

$q(x)=\lambda\ \exp^{-\lambda x}$

और का मान ज्ञात जो अभिन्न (यह करने के लिए बेहतर सन्निकटन देता है )। मैं पर के माध्य मान के मूल्यांकन के रूप में समस्या का पुनरावर्तन करता हूं : अभिन्न तो सिर्फ । $\lambda$ self-study $\mu$ $f(x)$ $[0,\pi]$ $\pi\mu$

इस प्रकार, $p(x)$ का pdf हो , और : लक्ष्य अब अनुमान लगाना है $X\sim\mathcal{U}(0,\pi)$ $Y\sim f(X)$

μ = इ [Y] = इ [च (एक्स)] = \int_{आर} च (एक्स) पी (एक्स) घ एक्स = \int_{0}^{π} \frac{1}{क्योंकि (एक्स)^{2} + {एक्स}^{2}} \frac{1}{π} घ एक्स

$\mu=\mathbb{E}[Y]=\mathbb{E}[f(X)]=\int_{\mathbb{R}}f(x)p(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}\frac{1}{\pi}dx$

महत्व के नमूने का उपयोग करना। मैंने R में एक सिमुलेशन प्रदर्शन किया:

# clear the environment and set the seed for reproducibility
rm(list=ls())
gc()
graphics.off()
set.seed(1)

# function to be integrated
f <- function(x){
    1 / (cos(x)^2+x^2)
}

# importance sampling
importance.sampling <- function(lambda, f, B){
    x <- rexp(B, lambda) 
    f(x) / dexp(x, lambda)*dunif(x, 0, pi)
}

# mean value of f
mu.num <- integrate(f,0,pi)$value/pi

# initialize code
means  <- 0
sigmas <- 0
error  <- 0
CI.min <- 0
CI.max <- 0
CI.covers.parameter <- FALSE

# set a value for lambda: we will repeat importance sampling N times to verify
# coverage
N <- 100
lambda <- rep(20,N)

# set the sample size for importance sampling
B <- 10^4

# - estimate the mean value of f using importance sampling, N times
# - compute a confidence interval for the mean each time
# - CI.covers.parameter is set to TRUE if the estimated confidence 
#   interval contains the mean value computed by integrate, otherwise
# is set to FALSE
j <- 0
for(i in lambda){
    I <- importance.sampling(i, f, B)
    j <- j + 1
    mu <- mean(I)
    std <- sd(I)
    lower.CB <- mu - 1.96*std/sqrt(B)  
    upper.CB <- mu + 1.96*std/sqrt(B)  
    means[j] <- mu
    sigmas[j] <- std
    error[j] <- abs(mu-mu.num)
    CI.min[j] <- lower.CB
    CI.max[j] <- upper.CB
    CI.covers.parameter[j] <- lower.CB < mu.num & mu.num < upper.CB
}

# build a dataframe in case you want to have a look at the results for each run
df <- data.frame(lambda, means, sigmas, error, CI.min, CI.max, CI.covers.parameter)

# so, what's the coverage?
mean(CI.covers.parameter)
# [1] 0.19

कोड मूल रूप से महत्व नमूना का एक सीधा कार्यान्वयन है, यहां उपयोग किए गए संकेतन के बाद । महत्त्व का नमूना तब कई अनुमान प्राप्त करने के लिए $N$ बार दोहराया जाता है , और हर बार 95% अंतराल वास्तविक माध्य को कवर करता है या नहीं इस पर एक जांच की जाती है। $\mu$

जैसा कि आप देख सकते हैं, लिए वास्तविक कवरेज सिर्फ 0.19 है। और बढ़ती जैसे मूल्यों के लिए मदद नहीं करता है (कवरेज भी छोटे, 0.15 है)। ये क्यों हो रहा है? $\lambda=20$ $B$ $10^6$

r simulation exponential importance-sampling

— DeltaIV
स्रोत

परिमित समर्थन अभिन्न के लिए एक अनंत समर्थन महत्व फ़ंक्शन का उपयोग करना इष्टतम नहीं है क्योंकि सिमुलेशन का एक हिस्सा शून्य का अनुकरण करने के लिए उपयोग किया जाता है, इसलिए बोलने के लिए। कम से कम एक्सपोनेंशियल को पर , जो करना और अनुकरण करना आसान है।

π

$\pi$

— शीआन

@ शीआन यकीन है, मैं सहमत हूं, अगर मुझे महत्व नमूनाकरण द्वारा उस अभिन्न का मूल्यांकन करना था, तो मैं उस महत्व वितरण का उपयोग नहीं करूंगा, लेकिन मैं मूल प्रश्न का उत्तर देने की कोशिश कर रहा था, जिसे घातीय वितरण का उपयोग करना आवश्यक था। मेरी समस्या यह थी कि, भले ही यह दृष्टिकोण इष्टतम से दूर हो, कवरेज अभी भी (औसतन) रूप में बढ़ना चाहिए । और यही ग्रीनपार्क ने दिखाया।

B \to \infty

$B\to\infty$

— DeltaIV

महत्व के वितरण की पसंद के लिए महत्व नमूनाकरण काफी संवेदनशील है। चूंकि आपने चुना है , इसलिए जो नमूने आप उपयोग कर रहे हैं, उनका विचरण । यह आपको मिलने वाला वितरण है $\lambda = 20$ rexp $1/20$ $1/400$

हालाँकि, आप जिस अभिन्न मूल्यांकन करना चाहते हैं, वह 0 से । तो आप एक का उपयोग करना चाहते हैं जो आपको इस तरह की सीमा प्रदान करता है। मैं उपयोग करता हूं । $\pi =3.14$ $\lambda$ $\lambda = 1$

का उपयोग करते हुए मैं 0 से के पूर्ण अभिन्न स्थान का पता लगाने में सक्षम हो , और ऐसा लगता है कि केवल पर कुछ ड्रॉ बर्बाद हो जाएगा। अब मैं आपके कोड को फिर से जमा करता हूं, और केवल बदल देता हूं । $\lambda = 1$ $\pi$ $\pi$ $\lambda = 1$

# clear the environment and set the seed for reproducibility
rm(list=ls())
gc()
graphics.off()
set.seed(1)

# function to be integrated
f <- function(x){
  1 / (cos(x)^2+x^2)
}

# importance sampling
importance.sampling <- function(lambda, f, B){
  x <- rexp(B, lambda) 
  f(x) / dexp(x, lambda)*dunif(x, 0, pi)
}

# mean value of f
mu.num <- integrate(f,0,pi)$value/pi

# initialize code
means  <- 0
sigmas <- 0
error  <- 0
CI.min <- 0
CI.max <- 0
CI.covers.parameter <- FALSE

# set a value for lambda: we will repeat importance sampling N times to verify
# coverage
N <- 100
lambda <- rep(1,N)

# set the sample size for importance sampling
B <- 10^4

# - estimate the mean value of f using importance sampling, N times
# - compute a confidence interval for the mean each time
# - CI.covers.parameter is set to TRUE if the estimated confidence 
#   interval contains the mean value computed by integrate, otherwise
# is set to FALSE
j <- 0
for(i in lambda){
  I <- importance.sampling(i, f, B)
  j <- j + 1
  mu <- mean(I)
  std <- sd(I)
  lower.CB <- mu - 1.96*std/sqrt(B)  
  upper.CB <- mu + 1.96*std/sqrt(B)  
  means[j] <- mu
  sigmas[j] <- std
  error[j] <- abs(mu-mu.num)
  CI.min[j] <- lower.CB
  CI.max[j] <- upper.CB
  CI.covers.parameter[j] <- lower.CB < mu.num & mu.num < upper.CB
}

# build a dataframe in case you want to have a look at the results for each run
df <- data.frame(lambda, means, sigmas, error, CI.min, CI.max, CI.covers.parameter)

# so, what's the coverage?
mean(CI.covers.parameter)
#[1] .95

यदि आप साथ खेलते हैं, तो आप देखेंगे कि यदि आप इसे वास्तव में छोटा (.00001) या बड़ा बनाते हैं, तो कवरेज संभावनाएँ खराब होंगी। $\lambda$

संपादित करें -------

एक बार जब आप से , तो घटने वाली कवरेज संभावना के संबंध में , यह सिर्फ एक यादृच्छिक घटना है, इस तथ्य के आधार पर कि आप प्रतिकृति का उपयोग करते हैं। पर कवरेज संभावना के लिए विश्वास अंतराल , है $B = 10^4$ $B = 10^6$ $N = 100$ $B = 10^4$

.19 \pm 1.96 * \sqrt{\frac{.19 * (1 - .19)}{100}} = .19 \pm 0.0769 = (0.1131, 0.2669) ।

$.19 \pm 1.96*\sqrt{\dfrac{.19*(1-.19)}{100}} = .19 \pm .0769 = (.1131, .2669)\,.$

तो आप वास्तव में यह नहीं कह सकते हैं कि बढ़ने से कवरेज की संभावना काफी कम हो जाती है। $B = 10^6$

वास्तव में एक ही बीज के लिए आपके कोड में, को , फिर , कवरेज प्रायिकता है ।123 और कवरेज संभावना है । $N = 100$ $N = 1000$ $B = 10^4$ $B = 10^6$ $.158$

अब, लगभग .123 का विश्वास अंतराल .123 है

.123 \pm 1.96 \sqrt{\frac{.123 * (1 - .123)}{1000}} = .123 \pm 0.0203 = (0.102, 0.143) ।

$.123 \pm 1.96\sqrt{\dfrac{.123*(1 - .123)}{1000}} = .123 \pm .0203 = (.102, .143)\,.$

इस प्रकार, अब प्रतिकृति के साथ, आपको लगता है कि कवरेज प्रोबायबिलिटी काफी बढ़ जाती है। $N = 1000$

— Greenparker
स्रोत

हां, मुझे पता है कि कवरेज बदल जाता है

λ

$\lambda$ : विशेष रूप से सर्वश्रेष्ठ कवरेज प्राप्त किया जाता है

0.1 < λ < 2

$0.1<\lambda<2$ । अब, मैं समझता हूं कि चूंकि नमूना माध्य के लिए CI CLT पर आधारित है, इसलिए यह एक विषम परिणाम है। इस प्रकार, यह अच्छी तरह से हो सकता है कि बदल रहा है

λ

$\lambda$ "असममित शासन" से संपर्क करने के लिए आवश्यक नमूनों की संख्या को प्रभावित करता है, इसलिए बोलने के लिए। लेकिन बात यह है कि क्यों

λ = 20

$\lambda =20$ नमूना आकार से कवरेज घट जाती है

10^{4}

$10^4$ नमूना आकार के लिए

10^{6}

$10^6$ ? निश्चित रूप से यह बढ़ जाना चाहिए, अगर खराब कवरेज केवल एक उच्च के कारण था

λ

$\lambda$ मूल्य?

— DeltaIV

@DeltaIV मैंने इस प्रश्न का उत्तर देने के लिए एक संपादन किया। जिस्ट है,

N = 100

$N = 100$ निश्चितता के साथ कुछ भी कहने के लिए पर्याप्त प्रतिकृति नहीं है।

— ग्रीनपार्क

आह शानदार! मैंने कवरेज अनुपात के लिए आत्मविश्वास अंतराल बनाने के बारे में नहीं सोचा था , बजाय केवल मतलब के लिए। एक नाइटपिक के रूप में, मैंने एक अनुपात के विश्वास अंतराल के लिए वाल्ड विश्वास अंतराल का उपयोग नहीं किया होगा। हालाँकि, चूंकि अनुपात 0 और 1 से दूर है और प्रतिकृतियों की संख्या (आपके दूसरे मामले में,)

N = 1000

$N=1000$ ) अपेक्षाकृत बड़े, शायद विल्सन या जेफ्रीज़ अंतराल का उपयोग करने से कोई फर्क नहीं पड़ता। मैं यह देखने के लिए थोड़ा इंतजार करूंगा कि क्या अन्य उत्तर हैं, लेकिन मैं कहूंगा कि आप पूरी तरह से +100 के लायक हैं :)

— डेल्फी