पूर्वाग्रह का बूटस्ट्रैप अनुमान कब मान्य है?


31

अक्सर यह दावा किया जाता है कि बूटस्ट्रैपिंग एक अनुमानक में पूर्वाग्रह का अनुमान प्रदान कर सकता है।

यदि कुछ स्टेटिस्टिक के लिए अनुमान है, और बूटस्ट्रैप प्रतिकृतियां हैं ( ), तो पूर्वाग्रह का बूटस्ट्रैप अनुमान जो कि बहुत ही सरल और शक्तिशाली लगता है, अस्थिर होने के बिंदु तक।t^t~ii{1,,N}

biast1Nit~it^

मैं अपना सिर इधर-उधर नहीं कर सकता कि बिना सांख्यिकी के निष्पक्ष अनुमानक के यह कैसे संभव है। उदाहरण के लिए, यदि मेरा अनुमानक केवल एक स्थिर रिटर्न देता है जो टिप्पणियों से स्वतंत्र है, तो पूर्वाग्रह का उपरोक्त अनुमान स्पष्ट रूप से अमान्य है।

हालांकि यह उदाहरण पैथोलॉजिकल है, मैं यह नहीं देख सकता कि अनुमानक और वितरण के बारे में क्या उचित धारणाएं हैं जो यह गारंटी देंगे कि बूटस्ट्रैप अनुमान उचित है।

मैंने औपचारिक संदर्भों को पढ़ने की कोशिश की, लेकिन मैं एक सांख्यिकीविद् नहीं हूं और न ही गणितज्ञ, इसलिए कुछ भी स्पष्ट नहीं किया गया था।

क्या कोई भी उच्च स्तर का सारांश प्रदान कर सकता है जब अनुमान वैध होने की उम्मीद की जा सकती है? यदि आप उस विषय पर अच्छे संदर्भों के बारे में जानते हैं जो बहुत अच्छा होगा।


संपादित करें:

अनुमानक की चिकनाई को अक्सर बूटस्ट्रैप के काम करने की आवश्यकता के रूप में उद्धृत किया जाता है। क्या ऐसा हो सकता है कि किसी को परिवर्तन की स्थानीय अक्षमता की भी आवश्यकता हो? निरंतर मानचित्र स्पष्ट रूप से संतुष्ट नहीं करता है।


2
एक निरंतर अनुमानक उस स्थिरांक का निष्पक्ष अनुमानक होता है इसलिए यह स्वाभाविक है कि पूर्वाग्रह का बूटस्ट्रैप अनुमानक शून्य है।
शियान

जवाबों:


4

आपके द्वारा बताई गई समस्या व्याख्या की समस्या है, वैधता की नहीं। आपके निरंतर अनुमानक के लिए बूटस्ट्रैप पूर्वाग्रह अवैध नहीं है, यह वास्तव में सही है।

पूर्वाग्रह के बूटस्ट्रैप अनुमान के बीच एक आकलनकर्ता है θ = रों ( एक्स ) और एक पैरामीटर θ = टी ( एफ ) , जहां एफ किसी अज्ञात वितरण और x से एक नमूना एफ । फ़ंक्शन t ( F ) कुछ ऐसा है जो आप सिद्धांत रूप में गणना कर सकते हैं कि क्या आपके पास आबादी थी। कभी-कभी हम ले रों ( एक्स ) = टी ( एफ ) , प्लग-इन के अनुमान टी (θ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^), अनुभवजन्य वितरण का उपयोग कर एफ के स्थान पर एफ । यह संभवतः आप ऊपर वर्णित है। सभी मामलों में पूर्वाग्रह का बूटस्ट्रैप अनुमान है मैं एक एस एफ = एफ [ रों ( एक्स * ) ] - टी ( एफ ) , जहां एक्स * से बूटस्ट्रैप नमूने हैं एक्सt(F)F^F

biasF^=EF^[s(x)]t(F^),
xx

निरंतर उसी स्थिर के लिए एक सही प्लग-इन अनुमान है:c जनसंख्या और नमूना , अनुभवजन्य वितरण, जो अनुमान लगाता है । यदि आप मूल्यांकन कर सकते हैं , तो आप । आप प्लग में अनुमान की गणना जब तुम भी मिल । कोई पूर्वाग्रह नहीं, जैसा कि आप उम्मीद करेंगे।FF^Ft(F)=cct(F^)=cc

एक प्रसिद्ध मामला है जहां प्लग-इन एस्टीम में एक पूर्वाग्रह है जो विचरण का अनुमान लगा रहा है, इसलिए बेसेल का सुधार है। नीचे मैं यह प्रदर्शित करता हूं। बूटस्ट्रैप पूर्वाग्रह का अनुमान बहुत बुरा नहीं है: t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

हम इसके बजाय को जनसंख्या का मतलब मान सकते हैं और , स्थिति जहां ज्यादातर मामलों में एक स्पष्ट पूर्वाग्रह होना चाहिए: t(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

फिर से बूटस्ट्रैप अनुमान बहुत बुरा नहीं है।


मैंने यह उत्तर इसलिए जोड़ा है क्योंकि अन्य उत्तर यह प्रतीत होते हैं कि यह एक समस्या है कि पूर्वाग्रह का बूटस्ट्रैप अनुमान 0 है जब एक स्थिर है। मुझे विश्वास नहीं होता कि यह है। t

मुझे आपका उत्तर और आपका डेमो पसंद है, लेकिन मुझे नहीं लगता कि आपकी परिभाषा सही है "पूर्वाग्रह का बूटस्ट्रैप अनुमान आपके नमूने के एक कार्य और आबादी में मूल्यांकन किए गए समान फ़ंक्शन के बीच पूर्वाग्रह का अनुमान है।" जबकि आप जो लिखते हैं वह अच्छी तरह से परिभाषित है, अगर यह परिभाषा थी, तो बूटस्ट्रैप का उपयोग करने का कोई तरीका नहीं होगा, उदाहरण के लिए, जनसंख्या विचरण के लिए एक अनुमानक के रूप में नमूना विचरण।
डेविड आरपी

@ डेविड आप सही हैं, टिप्पणी करने के लिए धन्यवाद। मैंने जवाब अपडेट कर दिया है।
ईपनार

मुझे यह राइटअप बहुत पसंद है! मेरा एकमात्र सवाल "पूर्वाग्रह के बूटस्ट्रैप अनुमान" के बारे में है। मुझे लगता है कि आपने जो लिखा है, वह अनुमानक का वास्तविक पूर्वाग्रह है (लेकिन सही वितरण के बजाय अनुभवजन्य वितरण के लिए), क्योंकि आप बूटस्ट्रैप नमूनों पर एक उम्मीद कर रहे हैं। मुझे लगता है कि बूटस्ट्रैप अनुमानक बी बूटस्ट्रैप नमूनों पर एक परिमित राशि होगा?
14

1
@ डेविड मुझे खुशी है कि आप कर रहे हैं! क्या मैं रिपोर्ट तकनीकी रूप से पूर्वाग्रह के बूटस्ट्रैप अनुमान है (क्योंकि आप का उपयोग के स्थान पर θ और की बूटस्ट्रैप उम्मीद रों ( ) पर अपनी उम्मीद के स्थान पर एफ )। लेकिन सबसे व्यावहारिक अनुप्रयोगों में एफ [ रों ( एक्स * ) ] असभ्य है और हम मोंटे कार्लो से यह अनुमान लगाने के रूप में आप कहते हैं। t(F^)θs()FEF^[s(x)]
Einar

3

आप एक गलती करते हैं और शायद यही कारण है कि यह भ्रामक है। तुम कहो:

यदि मेरा अनुमानक केवल एक स्थिरांक देता है जो टिप्पणियों से स्वतंत्र है, तो पूर्वाग्रह का उपरोक्त अनुमान स्पष्ट रूप से अमान्य है

बूटस्ट्रैप इस बात के बारे में नहीं है कि आपका तरीका कितना पक्षपाती है, बल्कि आपके डेटा को देखते हुए किसी फ़ंक्शन द्वारा प्राप्त किए गए परिणाम आपके कितने हैं।

यदि आप अपने डेटा का विश्लेषण करने के लिए उचित सांख्यिकीय पद्धति का चयन करते हैं, और इस पद्धति की सभी धारणाएं पूरी होती हैं, और आपने अपना गणित सही ढंग से किया है, तो आपकी सांख्यिकीय पद्धति आपको "सर्वश्रेष्ठ" संभावित अनुमान प्रदान करेगी जो आपके डेटा का उपयोग करके प्राप्त किया जा सकता है ।

बूटस्ट्रैप का विचार आपके डेटा से उसी तरह से नमूना लेना है जैसे आपने अपने मामलों को आबादी से नमूना लिया था - इसलिए यह आपके नमूने की एक तरह की प्रतिकृति है। यह आपको अपने मूल्य का अनुमानित वितरण (एफ्रोंस शब्दों का उपयोग करके) प्राप्त करने की अनुमति देता है और इसलिए आपके अनुमान के पूर्वाग्रह का आश्वासन देता है।

हालाँकि, मेरा तर्क है कि आपका उदाहरण भ्रामक है और इसलिए यह बूटस्ट्रैप पर चर्चा करने के लिए सबसे अच्छा उदाहरण नहीं है। चूंकि दोनों पक्षों में गलतफहमी थी, इसलिए मैं अपना उत्तर अपडेट करूं और अपनी बात को स्पष्ट करने के लिए इसे और अधिक औपचारिक तरीके से लिखूं।

के लिए पूर्वाग्रह θ सही मूल्य की जा रही अनुमान θ के रूप में परिभाषित किया गया है:θ^θ

bias(θ^n)=Eθ(θ^n)θ

कहा पे:

θ^n=g(x1,x2,...,xn)

जहां अनुमानक है।g()

लैरी वासरमैन ने अपनी पुस्तक "ऑल स्टैटिस्टिक्स" में नोट किया है :

एक अनुमानक के लिए एक उचित आवश्यकता यह है कि इसे सही पैरामीटर मान में परिवर्तित किया जाए क्योंकि हम अधिक से अधिक डेटा एकत्र करते हैं। यह परिभाषा निम्नलिखित परिभाषा द्वारा निर्धारित की गई है:
6.7 परिभाषा। एक बिंदु आकलनकर्ता θ एन एक पैरामीटर के θ है संगत करता है, तो θ एन पी θθ^nθθ^nPθ

निरंतर अनुमानक, : g ( X ) = λ का एक स्थिर कार्य होने के कारण यह आवश्यकता पूरी नहीं करता है क्योंकि यह डेटा से स्वतंत्र है और टिप्पणियों की बढ़ती संख्या इसे वास्तविक मूल्य तक नहीं पहुंचाएगी (जब तक कि शुद्ध भाग्य या बहुत ठोस नहीं है एक प्रायोरी पर मान्यताओं λ यह है कि λ = θ )।xg(X)=λθλλ=θ

लगातार आकलनकर्ता एक उचित आकलनकर्ता होने के लिए बुनियादी आवश्यकता को पूरा नहीं करता और इसलिए, यह है यह पूर्वाग्रह अनुमान लगाने के लिए असंभव है क्योंकि θ एन दृष्टिकोण नहीं है θ भी साथ n । इसे बूटस्ट्रैप और किसी अन्य विधि के साथ करना असंभव है, इसलिए यह बूटस्ट्रैप के साथ कोई समस्या नहीं है।θ^nθn


5
मुझे डर है कि इस जवाब से भ्रम की स्थिति पैदा होती है। एक निरंतर अनुमानक अधिकांश परिभाषाओं के अनुसार एक अनुमानक है - और कुछ मामलों में यह एक स्वीकार्य भी है। आपका प्रश्न अनुमान पूर्वाग्रह के साथ नमूनाकरण पूर्वाग्रह को भ्रमित करता है, जो लगभग सभी पाठकों को भ्रमित करने के लिए बाध्य है। "सर्वश्रेष्ठ संभावित अनुमान" के बारे में आपका पैराग्राफ अच्छा है लेकिन यह "सर्वश्रेष्ठ" को मापने के आवश्यक प्रश्न को दर्शाता है। पूर्वाग्रह केवल इसका एक घटक है (यदि सभी में)।
whuber

जबकि मैं ओपी का जवाब देने के लिए पर्याप्त योग्य नहीं हूं, मुझे डर है कि व्हीबर को एक बिंदु मिल गया है। इसके अलावा, क्या जनसंख्या को एक अनुमानक कहना उचित है? अंतिम वाक्य से संबंधित, मुझे लगता है कि एनस्ट्रैप विश्लेषण के तहत अनुमानक के पूर्वाग्रह का एक अनुमान प्रदान करता है और नमूना विधि का नहीं।
मुगें

मैं समझता हूं कि बूटस्ट्रैपिंग व्यवस्थित त्रुटियों का पता नहीं लगा सकती है, लेकिन कम से कम कुछ सीमा में यह सांख्यिकीय पूर्वाग्रह का पता लगाने वाला है। मुझे लगता है कि आपकी बात दोनों के बीच अंतर करने में सूक्ष्मता के बारे में है, लेकिन यह अभी भी मेरे लिए स्पष्ट नहीं है। आप पूर्वाग्रह की धारणा के बारे में बात कर रहे हैं जो मैंने कभी नहीं सुना - अनुमानकर्ता का नहीं, बल्कि डेटा का। पूर्वाग्रह की इस धारणा की औपचारिक परिभाषा क्या है?
बूटस्ट्रैप्ड

3
निश्चित रूप से एक गलतफहमी है: टिम, आप "अनुमानक" या "पूर्वाग्रह" का उपयोग इस तरह से नहीं कर रहे हैं जो इस प्रश्न में स्थापित संदर्भ के लिए पारंपरिक है, जबकि बूटस्ट्रैप्ड है। इसके अलावा, आप गलत हैं कि बूटस्ट्रैप अनुमानों के संदर्भ में "पूर्वाग्रह" से लैस लोगों में व्यवस्थित त्रुटियों और गलत का पता लगा सकता है। उत्तर में भी विभिन्न त्रुटियां हैं। उदाहरण के लिए, एक निरंतर आकलनकर्ता के पूर्वाग्रह (बराबर, कहते हैं, के लिए एक पैरामीटर के) θ है परिभाषा से λ - θ । कृपया संदर्भ देखेंλθ λθ
whuber

8
θ^0n<10100

3

t

biast1Nit~it

आप अनुभवजन्य वितरण पर मूल्यांकन किए गए वास्तविक सांख्यिकीय का उपयोग करना चाहते हैं (यह अक्सर आसान होता है, क्योंकि मूल नमूना एक परिमित सेट होता है), अनुमान के बजाय। कुछ मामलों में, ये समान हो सकते हैं (उदाहरण के लिए, अनुभवजन्य माध्य नमूना माध्य के समान है), लेकिन वे सामान्य रूप से नहीं होंगे। आपने एक मामला दिया जहां वे अलग-अलग हैं, लेकिन कम पैथोलॉजिकल उदाहरण विचरण के लिए सामान्य निष्पक्ष अनुमानक है, जो परिमित वितरण के लिए लागू होने पर जनसंख्या विचरण के समान नहीं है।

t

TL / DR: बूटस्ट्रैप विधि जादुई नहीं है। पूर्वाग्रह का एक निष्पक्ष अनुमान प्राप्त करने के लिए, आपको एक परिमित वितरण पर बिल्कुल ब्याज के पैरामीटर की गणना करने में सक्षम होना चाहिए।


1
मैं आपके अंकन के अर्थ के बारे में अनिश्चित हूँ। द्वारा इन व्याख्यान नोट्स के अनुसार पीट हॉल (यूसी डेविस), द्वारा इन व्याख्यान नोट्स कोस्मा शालिज़ी (CMU), और यह पेज एफ्रोन के और Tibshirani की किताब इंगित करने के लिए लग रहे हैं कि क्या मैं इसे गलत नहीं, बस पूरी तरह से सामान्य नहीं (यानी, मेरे पास है यहाँ अनुमानक में प्लग का उपयोग कर रहा हूँ, लेकिन यह आवश्यक नहीं है)।
बूटस्ट्रैप

t=t^θ(F1)tθ^t^tt
इवान राइट

t=t^

1
tN

ttt~it

0

मुझे उन बूटस्ट्रैप प्रक्रियाओं के बारे में सोचना उपयोगी लगता है जो उनके द्वारा वितरित किए जाने वाले वितरण के कार्य के संदर्भ में हैं - मैंने एक अलग बूटस्ट्रैप प्रश्न के इस उत्तर में एक उदाहरण दिया ।

आपने जो अनुमान दिया, वह क्या है - एक अनुमान। कोई नहीं कहता है कि यह उन समस्याओं से ग्रस्त नहीं है जो सांख्यिकीय अनुमान हो सकते हैं। यह आपको उदाहरण के लिए, उदाहरण के लिए पूर्वाग्रह का एक गैर-शून्य अनुमान देगा, जिसे हम सभी जानते हैं कि इसे शुरू करने के लिए निष्पक्ष है। इस पूर्वाग्रह आकलनकर्ता के साथ एक समस्या यह है कि यह नमूना परिवर्तनशीलता से ग्रस्त है, जब बूटस्ट्रैप को मोंटे कार्लो के रूप में कार्यान्वित किया जाता है, बजाय सभी संभावित उपसमूहों (और व्यवहार में उस सैद्धांतिक बूटस्ट्रैप का कोई भी नहीं) की पूरी गणना के साथ।

BB


7
मुझे लगता है कि बूटस्ट्रैप्ड का मूल प्रश्न मोंटे कार्लो परिवर्तनशीलता के मुद्दे पर रूढ़िवादी है। यहां तक ​​कि अगर हम अनन्तता के लिए बूटस्ट्रैप प्रतिकृति की संख्या लेते हैं, तो प्रश्न में सूत्र निरंतर अनुमानक के पूर्वाग्रह के लिए एक शून्य अनुमान देगा, और विचरण के सामान्य निष्पक्ष अनुमान के पूर्वाग्रह के लिए एक नॉनज़रो अनुमान देगा।
इवान राइट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.