क्या एक तिरछे वितरण के साधन के लिए एक विश्वसनीय गैर-समरूप विश्वास अंतराल है?


30

लॉग-सामान्य जैसे बहुत तिरछा वितरण सटीक बूटस्ट्रैप विश्वास अंतराल के परिणामस्वरूप नहीं होता है। यहां एक उदाहरण दिखाया गया है कि बाएं और दाएं पूंछ के क्षेत्र आदर्श 0.025 से बहुत दूर हैं कोई फर्क नहीं पड़ता कि आप किस बूटस्ट्रैप विधि को आर में आजमाते हैं:

require(boot)
n    <- 25
B    <- 1000
nsim <- 1000
set.seed(1)
which <- c('basic', 'perc', 'norm', 'bca', 'stud')
mul <- 0; sdl <- 1.65   # on log scale
dist <- c('normal', 'lognormal')[2]
switch(dist, normal    = {g <- function(x) x; mu <- mul},
             lognormal = {g <- exp; mu <- exp(mul + sdl * sdl / 2)})
count <- matrix(0, nrow=length(which), ncol=2,
                dimnames=list(which, c('lower', 'upper')))
stat <- function(x, j) {
## See http://www.psychology.mcmaster.ca/bennett/boot09/percentileT.pdf
  x <- x[j]
  m <- mean(x)
  s <- sd(x)
  n <- length(x)
  sem <- s / sqrt(n)
  m.var <- sem ^ 2
  c(m, m.var)
}
for(i in 1 : nsim) {
  if(i %% 100 == 0) cat(i, '')
  x <- g(rnorm(n, mul, sdl))
  b  <- boot(x, stat, R=B)
  ci <- boot.ci(b, type=which)
  for(w in which) {
    nam <- switch(w, perc='percent', norm='normal', basic='basic',
                  stud='student', bca='bca')
    z <- rev(rev(ci[[nam]])[1:2])
    count[w, 'lower'] <- count[w, 'lower'] + (z[1] > mu)
    count[w, 'upper'] <- count[w, 'upper'] + (z[2] < mu)
  }
}
cat('\n')
count / nsim

परिणाम नीचे है:

      lower upper
basic 0.000 0.329
perc  0.003 0.257
norm  0.000 0.287
bca   0.015 0.185
stud  0.005 0.129

के लिए एकल बूटस्ट्रैप अभी भी पर्याप्त रूप से सही कवरेज प्रदान नहीं करते हैं:n=400

      lower upper
basic 0.001 0.114
perc  0.005 0.093
norm  0.002 0.102
bca   0.017 0.067
stud  0.011 0.058

तार्किक वितरण भी तार्किक वितरण से सटीक अंतर अंतराल प्रदान करने में विफल रहता है।

क्या वहाँ एक सामान्य उद्देश्य दृष्टिकोण है जो पहले से वितरण को जानने पर निर्भर नहीं करता है? क्या किसी ने तुक के सामान्यीकृत वितरण के लिए डेटा फिटिंग करके इस मतलब के लिए विश्वास अंतराल प्राप्त करने की कोशिश की है (यह वितरण अत्यधिक लचीला है)? सीडीएफ के लिए कोलमोगोरोव-स्मिरनोव विश्वास बैंड का उपयोग करने के बारे में क्या? CDF पर ऊपरी और निचले सीमा पर माध्य की गणना करना रूढ़िवादी होगा? यदि कोई विधि व्यापक प्रयोज्यता है, तो मैं कुछ रूढ़िवाद के लिए समझौता करूंगा।λ

लक्ष्यों को बहाल करने के लिए, मैं एक आम तौर पर लागू दृष्टिकोण की मांग कर रहा हूं ताकि आबादी के लिए आत्मविश्वास अंतराल प्राप्त हो सके

  1. यदि कच्चे डेटा का वितरण असममित है तो अंतराल असममित है
  2. अंतराल में दोनों पूंछों में सही कवरेज है (उदाहरण के लिए, दोनों में 0.025 त्रुटि संभावना)
  3. प्रक्रिया में विश्लेषक को अंतर्निहित वितरण या वितरण सममित बनाने के लिए आवश्यक परिवर्तन के बारे में कुछ भी निर्दिष्ट करने की आवश्यकता नहीं होती है

ध्यान दें कि केंद्रीय सीमा प्रमेय यहां अप्रासंगिक है; मेरे पास एक छोटा सा नमूना आकार है और विश्वास अंतराल दोनों पूंछों में सटीक होने के लिए असममित होना चाहिए। पैरामीट्रिक आधारित आत्मविश्वास अंतराल एक लॉगऑन मॉडल के तहत और अभी भी खराब कवरेज है (बाएं पूंछ त्रुटि 0.012, दाएं 0.047 जब दोनों 0.025 होना चाहिए)।μ = 0 , σ = 1.65 n = 20000टीμ=0,σ=1.65n=20000

इस बारे में सोचने के लिए समस्या के दो व्यापक तरीके हैं जिन पर मैं चर्चा करना चाहता हूं।

  1. माध्य एक मात्रा नहीं है जो स्वयं को गैर-सममितीय ऋणात्मकता के लिए उधार देता है, कम से कम जब अनुमान की सटीकता की आवश्यकता होती है। नमूना माध्य किसी भी निरंतर वितरण के लिए सार्थक है और हमारे पास माध्यिका के लिए एक सरल सटीक आत्मविश्वास अंतराल है। सामान्य वितरण से आकार एक नमूने में माध्यिका के लिए विश्वास अंतराल औसत से नीचे कोड देखें) के लिए सटीक -based विश्वास अंतराल से अधिक लंबा है । शायद 1.28 का यह कारक मजबूती और पूर्ण वितरण की स्वतंत्रता के लिए भुगतान करने के लिए एक उचित मूल्य है।1.28 × टीn=201.28×टी
  2. भले ही कोई भी बूटस्ट्रैप अत्यंत तिरछे वितरण से नमूनों के लिए पर्याप्त रूप से सटीक आत्मविश्वास सीमा नहीं देगा, लेकिन डबल बूटस्ट्रैप दोनों पूंछों में विश्वास कवरेज में काफी सुधार कर सकता है। Nankervis के कुछ अच्छे परिणाम हैं और एक उत्कृष्ट कम्प्यूटेशनल एल्गोरिदम प्रदान करता है। लेकिन कोई भी सॉफ्टवेयर मैं इसे लागू नहीं कर पाया।

आर कोड चित्रण 1. ऊपर:

## Exact CI for median from DescTools package SignTest.default
## See also ttp://www.stat.umn.edu/geyer/old03/5102/notes/rank.pdf,
## http://de.scribd.com/doc/75941305/Confidence-Interval-for-Median-Based-on-Sign-Test
cimed <- function(x, alpha=0.05, na.rm=FALSE) {
  if(na.rm) x <- x[! is.na(x)]
  n <- length(x)
  k <- qbinom(p=alpha / 2, size=n, prob=0.5, lower.tail=TRUE)
  ## Actual CL: 1 - 2 * pbinom(k - 1, size=n, prob=0.5) >= 1 - alpha
  sort(x)[c(k, n - k + 1)]
}

n <- 20
m <- 20000
cil <- cilt <- 0
z <- qt(0.975, n - 1)

for(i in 1 : m) {
  x <- rnorm(n)
  cil  <- cil + diff(cimed(x))
  cilt <- cilt + 2 * z * sqrt(var(x) / n)
}
cil  <- cil / m
cilt <- cilt / m

c(cil, cilt, cilt / cil, cil / cilt)

1
यह कम्प्यूटेशनल रूप से गहन है, लेकिन क्या हुआ अगर आपने अनुभवजन्य सीएफडी लिया, बेतरतीब ढंग से ब्राउनियन पुलों का निर्माण शुरू किया; प्रत्येक ब्राउनियन पुल, पारिस्थितिक और कुछ काल्पनिक cdf के बीच डेल्टा का प्रतिनिधित्व करता है। काल्पनिक सीएफडी का उपयोग करते हुए माध्य की गणना करें और इसे केएस परीक्षण द्वारा निर्धारित कारक द्वारा वजन करें। थोड़ी देर के लिए इसे दोहराते हुए, आपके पास साधनों का एक भारित डेटा सेट होगा और आत्मविश्वास अंतराल की गणना कर सकता है।
निर फ्रीडमैन

मेरे पास एक काल्पनिक cdf नहीं है। और क्या होगा यदि आप केएस से सिर्फ ऊपरी और निचले 0.95 विश्वास क्षेत्र का उपयोग करते हैं और उनसे मतलब की गणना करते हैं, अर्थात, यह बहुत ही रूढ़िवादी होगा।
फ्रैंक हरेल

आनुभविक सीएफडी में एक बेतरतीब ढंग से उत्पन्न ब्राउनियन पुल को जोड़कर काल्पनिक सीएफडी की शुरुआत की गई है। इसके अलावा, मैं विश्वास क्षेत्र से मतलब लेने का सुझाव नहीं दे रहा हूं। मैं कई काल्पनिक वितरण, उचित रूप से भारित और फिर विश्वास अंतराल प्राप्त करके कई साधन प्राप्त करने का सुझाव दे रहा हूं। यह मूल रूप से बूटस्ट्रैपिंग के लिए एक अलग दृष्टिकोण है, मुझे लगता है कि परिणाम अलग हो सकते हैं।
निर फ्रीडमैन

यह देखना दिलचस्प होगा कि इसे कितनी कुशलता से प्रोग्राम किया जा सकता है और विश्वास अंतराल कवरेज कितना सही है। सलाह के लिये धन्यवाद। मुझे आश्चर्य है कि अगर Bayesian बूटस्ट्रैप कि नकल करेगा। मैंने एक और संदर्भ में बायेशियन बूटस्ट्रैप की कोशिश की है और इससे आत्मविश्वास अंतराल कवरेज में सुधार नहीं हुआ है।
फ्रैंक हैरेल

जवाबों:


11

मैं इस तरह के गैर-पैरामीट्रिक पद्धति के बारे में कुछ निराशावादी हूं, कम से कम अंतर्निहित वितरण पर कुछ प्रकार की बाधाओं की शुरूआत के बिना।

nn

αααnα

इसलिए यदि आप उचित स्पर्शोन्मुख कवरेज की तलाश में हैं, तो निश्चित रूप से यह CLT द्वारा प्राप्त किया जा सकता है। हालाँकि, आपका प्रश्न यह बताता है कि आप परिमित कवरेज में रुचि रखते हैं। जैसा कि मेरे उदाहरण से पता चलता है, हमेशा एक रोग संबंधी मामला होगा जो किसी भी परिमित लंबाई सीआई को बर्बाद कर देता है।

अब, आपके पास अभी भी एक गैर-पैरामीट्रिक सीआई हो सकता है जो आपके वितरण में बाधाओं को जोड़कर अच्छा परिमित कवरेज प्राप्त करता है। उदाहरण के लिए, लॉग-अवतल बाधा एक गैर-पैरामीट्रिक बाधा है। हालाँकि, यह आपकी समस्या के लिए अपर्याप्त है, क्योंकि लॉग-नॉर्म लॉग-अवतल नहीं है।

α


2
बहुत बढ़िया विचार। मैं उन प्रकार की बाधाओं की आवश्यकता करने में संकोच करता हूं क्योंकि मुझे अक्सर बिमोडल वितरण और अन्य जटिलताएं दिखाई देती हैं।
फ्रैंक हरेल

1
@FrankHarrell: गैर-पैरामीट्रिक लॉग-अवतल घटकों के साथ मिश्रण मॉडल के साथ काम किया गया है। हालाँकि, मैं इस समय की कल्पना नहीं कर सकता कि समग्र साधन के लिए आत्मविश्वास पैदा करने के लिए अच्छे तरीके हैं, खासकर अगर घटकों की संख्या अग्रिम में ज्ञात नहीं है।
क्लिफ एबी

2

किसी भी नमूने की अंतर्निहित मान्यताओं में से एक प्रतिनिधित्व है। अब वितरण की पूंछ कम संभावना है कि कोई भी छोटा नमूना किसी भी विधि के लिए पर्याप्त रूप से प्रतिनिधि होगा जो सीआई के लिए मज़बूती से हल करेगा क्योंकि नमूना वितरण का प्रतिनिधित्व करने में सक्षम नहीं होगा।

उदाहरण के लिए, 250 पाउंड के सैंपल साइज के साथ एक्सपोनेंशियल डिस्ट्रीब्यूशन पर एक साधारण पर्क सीआई चलाने से बहुत ही बढ़िया परिणाम मिलते हैं। वे 25 के नमूने के साथ बहुत बेहतर हैं, हालांकि अभी भी आदर्श नहीं हैं।

मैं क्लिफ एबी से सहमत हूं कि सामान्य समाधान नहीं होगा लेकिन आपको अत्यधिक वितरण की परिकल्पना नहीं करनी है। मोटे तौर पर छोटे नमूनों के साथ काम करने वाली कोई चीज नहीं होगी। और कुछ मामलों में नमूने बहुत बड़े हो सकते हैं (लेकिन गलत होना अच्छा होगा)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.