पक्षपाती बूटस्ट्रैप: क्या यह देखा गया है कि सीआई को देखे गए आँकड़ों के आसपास केन्द्रित करना ठीक है?


13

यह बूटस्ट्रैप के समान है : अनुमान विश्वास अंतराल के बाहर है

मेरे पास कुछ डेटा है जो एक आबादी में जीनोटाइप के मायने रखता है। मैं शैनन के सूचकांक का उपयोग करके आनुवंशिक विविधता का अनुमान लगाना चाहता हूं और बूटस्ट्रैपिंग का उपयोग करके एक आत्मविश्वास अंतराल भी उत्पन्न करता हूं। मैंने देखा है, हालांकि, बूटस्ट्रैपिंग के माध्यम से अनुमान बेहद पक्षपाती है और एक आत्मविश्वास अंतराल में परिणाम देता है जो मेरे देखे गए आंकड़े के बाहर स्थित है।

नीचे एक उदाहरण है।

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

डेटा जनरेशन

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

गणना

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

पूर्वाग्रह-सुधार के साथ सीआई जनरेट करना

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

यह मानते हुए कि t के प्रसरण का उपयोग t0 के विचरण के लिए किया जा सकता है ।

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

क्या t0 के आसपास CI केंद्रित रिपोर्ट करना सही होगा ? क्या बूटस्ट्रैप उत्पन्न करने का एक बेहतर तरीका है?

जवाबों:


12

ओपी द्वारा दिए गए सेटअप में ब्याज का पैरामीटर शैनन एन्ट्रॉपी जो प्रायिकता वेक्टर का एक कार्य है; । नमूने के आधार पर अनुमानक ( अनुकृति में ) प्लग-इन अनुमानक नमूने समान वितरण का उपयोग करके उत्पन्न किए गए थे, जिसके लिए शैनन एन्ट्रापीचूंकि शान्नोन एन्ट्रापी को समान वितरण में अधिकतम किया जाता है, इसलिए प्लग-इन अनुमानक नीचे की ओर पक्षपाती होना चाहिए । एक सिमुलेशन से पता चलता है कि

θ(p)=i=150pilogpi,
pR50nn=100
θ^n=θ(p^n)=i=150p^n,ilogp^n,i.
log(50)=3.912.bias(θ^100)0.28 जबकि । प्लग-इन अनुमानक सुसंगत है, लेकिन -method लिए समान वितरण के लिए लागू नहीं होता है , क्योंकि शैनन एंट्रॉपी का व्युत्पन्न 0. है। इस प्रकार की इस विशेष पसंद के लिए , स्पर्शोन्मुख तर्कों के आधार पर विश्वास अंतराल स्पष्ट नहीं है। bias(θ^500)0.05Δpp

पर्सेंटाइल अंतराल के वितरण पर आधारित है, जहां है, जो अनुमानक से नमूने टिप्पणियों से प्राप्त किया गया है । विशेष रूप से, यह के वितरण के लिए 2.5% मात्रात्मक से 97.5% मात्रात्मक का अंतराल है । जैसा कि ओपी के बूटस्ट्रैप सिमुलेशन से पता चलता है, स्पष्ट रूप से नीचे की ओर बायस्ड भी है जो कि अनुमानक के रूप में है , जिसके परिणामस्वरूप प्रतिशतता अंतराल होता है। पूरी तरह से ग़लत।θ(pn)pnnp^nθ(pn)θ(pn)θ(p^n)

बुनियादी (और सामान्य) अंतराल के लिए, मात्राओं की भूमिकाएँ परस्पर जुड़ी होती हैं। इसका तात्पर्य यह है कि अंतराल उचित प्रतीत होता है (यह 3.912 को कवर करता है), हालांकि 3.912 से परे फैले अंतराल तार्किक रूप से सार्थक नहीं हैं। इसके अलावा, मुझे नहीं पता कि बुनियादी अंतराल में सही कवरेज होगा या नहीं। इसका औचित्य निम्नलिखित अनुमानित वितरण पहचान पर आधारित है:

θ(pn)θ(p^n)Dθ(p^n)θ(p),
जो (अपेक्षाकृत) छोटे जैसे के लिए संदिग्ध हो सकता है ।nn=100

एक मानक त्रुटि आधारित अंतराल का अंतिम सुझाव ओपी के बड़े पूर्वाग्रह के कारण या तो काम नहीं करेगा । यह पूर्वाग्रह-सही अनुमान लगाने वाले के लिए काम कर सकता है , लेकिन फिर आपको सबसे पहले पूर्वाग्रह-सही अनुमानक के लिए सही मानक त्रुटियों की आवश्यकता है।θ(p^n)±1.96se^n

मैं प्रोफ़ाइल लॉग-लाइबिलिटी के आधार पर संभावना अंतराल पर विचार करूंगा । मुझे डर है कि मैं इस उदाहरण के लिए प्रोफ़ाइल लॉग-लाइकलाइज़ की गणना करने का कोई सरल तरीका नहीं जानता, सिवाय इसके कि आपको के अलग-अलग निश्चित मानों के लिए लॉग-लाइक ओवर को अधिकतम करने की आवश्यकता है ।θ(p)pθ(p)


5
दशकों के लिए एंट्रॉपी के लिए "प्लग-इन" अनुमानक का उपयोग करने के साथ पूर्वाग्रह की समस्या की सराहना की गई है। यह पत्र कम-पक्षपाती अनुमानों का विश्लेषण करता है। ऑर्डर करने के लिए एक पूर्वाग्रह सुधार , जो दिनांक 1955 (लिंक पेपर के eq 4 देखें), ओपी द्वारा प्रस्तुत मामले पर लागू किया जा सकता है। सुधार 0.245 है, बूटस्ट्रैप द्वारा पहचाने गए पूर्वाग्रह के लगभग समान है। शायद बूटस्ट्रैप का उपयोग यहां एंट्रॉपी के आकलन के लिए किया जाना चाहिए, न कि केवल इसकी आत्मविश्वास सीमा। 1/n
ईडीएम

@ ईडीएम यह बहुत उपयोगी जानकारी है। मैं इस विशेष पूर्वाग्रह समस्या पर साहित्य नहीं जानता था। यह वास्तव में उपयोगी हो सकता है यदि आप टिप्पणी को एक ऐसे उत्तर में बदल सकते हैं जो पूर्वाग्रह सुधार की व्याख्या करता है और विश्वास अंतराल प्राप्त करने के लिए बूटस्ट्रैपिंग के साथ इसका उपयोग कैसे किया जा सकता है।
NRH

मैं इस साहित्य को नहीं जानता था, जब तक कि यह सवाल और आपका जवाब नहीं आया। जो कुछ हद तक शर्मनाक है, क्योंकि शैनन एन्ट्रापी का उपयोग अक्सर बायोमेडिकल साइंस के मेरे क्षेत्र में एक उपाय के रूप में किया जाता है। मैं देखूंगा कि मैं अतिरिक्त उत्तर के रूप में एक साथ क्या रख सकता हूं।
EdM

1
बूटस्ट्रैप नमूनों की संख्या बढ़ाने से वास्तव में मदद नहीं मिलेगी। यह काफी बड़ा होना चाहिए ताकि आप विश्वसनीय रूप से के वितरण के लिए ब्याज की मात्रा का अनुमान लगा सकें , लेकिन अन्यथा बूटस्ट्रैप नमूनों की संख्या बढ़ाने से पूर्वाग्रह नहीं हटेंगे या नहीं बनेंगे आत्मविश्वास किसी भी अधिक उपयुक्त है। θ(pn)
NRH

1
क्षमा करें, ZNK, मैंने आपके प्रश्न को गलत समझा। यदि आप नमूना आकार बढ़ाते हैं , तो पूर्वाग्रह छोटा होगा, हाँ! अनुमानक सुसंगत है। संक्षेप में एक समान वितरण के लिए मैं कुछ अंतर के लिए आत्मविश्वास की वास्तविक कवरेज के बारे में संदेह करूंगा, भले ही उत्तर में वर्णित कारणों के लिए बड़े लिए। अन्य सभी वितरणों के लिए CLT लागू होता है, और विभिन्न विधियाँ लिए asymptotically सही कवरेज का उत्पादन करेगी । nnn
NRH

7

जैसा कि @NRH द्वारा उत्तर दिया गया है, समस्या यह नहीं है कि बूटस्ट्रैपिंग ने पक्षपाती परिणाम दिया। यह एक नमूना से डेटा के आधार पर शैनन एन्ट्रापी का सरल "प्लग इन" अनुमान है, जो वास्तविक जनसंख्या मूल्य से नीचे की ओर पक्षपाती है।

इस समस्या को 1950 के दशक में इस सूचकांक की परिभाषा के कुछ वर्षों के भीतर पहचाना गया था। यह पत्र अंतर्निहित मुद्दों पर चर्चा करता है, संबद्ध साहित्य के संदर्भ में।

समस्या यह है कि इस एन्ट्रापी उपाय के लिए व्यक्तिगत संभावनाओं के गैर-संबंध से उत्पन्न होती है। इस मामले में, नमूना n में जीन i के लिए मनाया जीनोटाइप अंश , , सत्य संभाव्यता का निष्पक्ष अनुमानक है, । लेकिन जब उस मान को एम जीन पर एन्ट्रॉपी के लिए "प्लग इन" फॉर्मूला लागू किया जाता है:पीएन,मैंp^n,ipn,i

θ^n=θ(p^n)=i=1Mp^n,ilogp^n,i.

गैर-रैखिक संबंध का मतलब है कि परिणामी मूल्य वास्तविक आनुवंशिक विविधता का एक पक्षपातपूर्ण अंडर-एस्टीमेट है।

पूर्वाग्रह जीन की संख्या, और टिप्पणियों की संख्या, पर निर्भर करता है । पहले आदेश के लिए, प्लग-इन अनुमान एक राशि द्वारा सही एंट्रॉपी से कम होगा । उच्च क्रम सुधार का मूल्यांकन ऊपर दिए गए पेपर में किया जाता है।एन ( एम - 1 ) / 2 एनMN(M1)/2N

आर में पैकेज हैं जो इस मुद्दे से निपटते हैं। simbootविशेष रूप से पैकेज एक समारोह है estShannonfकि इन पूर्वाग्रह सुधार बनाता है, और एक समारोह sbdivविश्वास के अंतराल की गणना के लिए। खरोंच से शुरू करने की कोशिश करने के बजाय अपने विश्लेषण के लिए ऐसे स्थापित ओपन-सोर्स टूल का उपयोग करना बेहतर होगा।


तो अपने आप में अनुमानक नमूना आकार के कारण गलत है? simbootपैकेज दिखता का वादा, लेकिन मेरे प्रयोजनों के लिए उपयुक्त के रूप में यह एक नियंत्रण नमूना की जरूरत है विश्वास के अंतराल अनुमान लगाने के लिए प्रतीत नहीं होता।
ZNK

1
"त्रुटिपूर्ण" बिलकुल सही नहीं है; अनुमानक "पक्षपाती" है कि इसका अपेक्षित मूल्य वास्तविक जनसंख्या मूल्य के समान नहीं है। इसका मतलब यह नहीं है कि यह "गलत" है; पक्षपाती अनुमानक उपयोगी हो सकते हैं, जैसा कि आकलनकर्ताओं के चयन में पूर्वाग्रह-भिन्नता व्यापार द्वारा सचित्र है । तो simbootअपनी जरूरतों को पूरा नहीं करता है, जैसे अन्य आर संकुल के लिंक के लिए गूगल "शैनन एन्ट्रापी पूर्वाग्रह r" entropy, entropartऔर EntropyEstimation
एड्म

1
इस तथ्य से उत्पन्न होने वाले अतिरिक्त मुद्दे हैं कि आबादी में मौजूद कुछ जीनोटाइप किसी विशेष नमूने में याद किए जाने की संभावना है। कुछ आबादी- और पारिस्थितिकी-आधारित आर संकुल के पास इस समस्या से निपटने के तरीके हैं।
EdM
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.