बूटस्ट्रैपिंग में .632+ नियम क्या है?


107

यहाँ @gung .632+ नियम का संदर्भ देता है। एक त्वरित Google खोज इस नियम का क्या अर्थ है और किस उद्देश्य से इसका उपयोग किया जाता है, इसका उत्तर समझने में आसान नहीं है। क्या कोई कृपया .632+ नियम को स्पष्ट करेगा?

जवाबों:


115

मैं 0.632 अनुमानक को मिलेगा, लेकिन यह कुछ हद तक लंबा विकास होगा:

मान लीजिए कि हमें भविष्यवाणी करने के लिए चाहते हैं के साथ एक्स फ़ंक्शन का उपयोग , जहां कुछ मानकों कि डेटा का उपयोग कर अनुमान लगाया गया है पर निर्भर हो सकता ( वाई , एक्स ) , उदाहरण के लिए ( एक्स ) = एक्स βYXff(Y,X)f(X)=Xβ

भविष्यवाणी त्रुटि का एक भोली अनुमान जहांएलकुछ नुकसान समारोह, जैसे है त्रुटि नुकसान चुकता। इसे अक्सर प्रशिक्षण त्रुटि कहा जाता है। एफ्रॉन एट अल। इसे स्पष्ट त्रुटि दर या पुनर्जीवन दर कहते हैं। यह बहुत अच्छा नहीं है क्योंकि हम अपने डेटा(xi,yi)का उपयोगfफिट करने के लिए करते हैं। इस परिणाम में¯आरआरनीचे पक्षपाती होने। आप जानना चाहते हैं किनए मूल्यों की भविष्यवाणी करने मेंआपका मॉडलएफकितना अच्छाकरता है।

err¯=1Ni=1NL(yi,f(xi))
L(xi,yi)ferr¯f

अक्सर हम अपेक्षित अतिरिक्त-नमूना भविष्यवाणी त्रुटि का अनुमान लगाने के लिए एक सरल तरीके के रूप में क्रॉस-सत्यापन का उपयोग करते हैं (हमारे प्रशिक्षण सेट में डेटा पर हमारा मॉडल कितना अच्छा करता है?)।

Err=E[L(Y,f(X))]

यह करने के लिए एक लोकप्रिय तरीका करने के लिए है गुना पार सत्यापन। अपने डेटा को K समूहों (जैसे 10) में विभाजित करें । प्रत्येक समूह k के लिए , शेष K - 1 समूहों पर अपना मॉडल फिट करें और k वें समूह पर परीक्षण करें । हमारी क्रॉस-वैलिडेटेड अतिरिक्त-नमूना भविष्यवाणी त्रुटि सिर्फ औसत r r C V = 1 हैKKkK1kजहांκहै कुछ सूचकांक समारोह है कि विभाजन को इंगित करता है जो करने के लिए अवलोकनमैंआवंटित किया जाता है और-κ(मैं)(एक्समैं)है की भविष्यवाणी मूल्यएक्समैंमें नहीं डेटा का उपयोग करκ(मैं)वें सेट।

ErrCV=1Ni=1NL(yi,fκ(i)(xi))
κifκ(i)(xi)xiκ(i)

यह अनुमानक सही भविष्यवाणी त्रुटि के लिए लगभग निष्पक्ष है जब और बड़ा विचरण होता है और बड़े K के लिए अधिक कम्प्यूटेशनल रूप से महंगा होता है । इसलिए एक बार फिर हम पूर्वाग्रह-व्यापार को बंद करते हुए देखते हैं।K=NK

X=(x1,,xN)BZ1,,ZBZiN

Errboot=1Bb=1B1Ni=1NL(yi,fb(xi))
fb(xi)xibfb(xi)xi। लीव-वन-आउट बूटस्ट्रैप अनुमानक क्रॉस-सत्यापन की नकल करके एक सुधार प्रदान करता है और इसे परिभाषित किया जाता है:
Errboot(1)=1Ni=1N1|Ci|bCiL(yi,fb(xi))
Cii|Ci|Errboot(1)0.632N
Err.632=0.368err¯+0.632Errboot(1)
err¯=1Ni=1NL(yi,f(xi))

err¯=0err¯Errboot(1)

Err.632+=(1w)err¯+wErrboot(1)
w=0.63210.368RandR=Errboot(1)err¯γerr¯
γyixi

γ=1N2i=1Nj=1NL(yi,f(xj))

RErrboot(1)=err¯


2
वे अच्छे सवाल हैं, @rpierce, लेकिन वे इस थ्रेड के केंद्रीय विषय से कुछ हटकर हैं। बेहतर होगा, सीवी संगठन-वार, उन्हें एक नए सूत्र में रखें, ताकि बाद में लोगों को उस जानकारी को खोजना और उसका उपयोग करना आसान हो।
गंग



1
err¯=1Ni=1NL(yi,f(xi))1ni=1n(yiy^i)2

1
@ स्वभाव, हाँ! मैं थोड़ा सामान्य हो रहा था क्योंकि मैं कुछ वर्ग के नोटों से इस सामग्री का एक बहुत कुछ पढ़ रहा था।
बाइडोनोविक

53

Sn{1:n}S(1e1)n0.63212056n

S={s1,,sn}i=1,,n{1:n}m{1:n}

फिर:

P(si=m)=1/n

तथा

P(sim)=11/n

1ini

इस प्रकार

P(mS)=1P(mS)=1P(i=1nsim)=1i=1nP(sim)=1(11/n)n1e1

n

n <- 100
fx01 <- function(ll,n){
    a1 <- sample(1:n, n, replace=TRUE)
    length(unique(a1))/n
}
b1 <- c(lapply(1:1000,fx01,n=100), recursive=TRUE)
mean(b1)

1. ब्रैडली एफ्रॉन और रॉबर्ट टिबशिरानी (1997)। क्रॉस-वैलिडेशन पर सुधार: .632+ बूटस्ट्रैप विधिजर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , वॉल्यूम। 92, नंबर 438, पीपी। 548--560।


3
यहाँ आपके लिए संदर्भ में एक दस्तावेज है - stat.washington.edu/courses/stat527/s14/readings/…

1
(x1,,xn)S1,,SnP(Si=k)=1nI{1,,n}(k)P(i=1n{Si=k})=1P(i=1n{Sik})=1i=1nP{Sik}=1(11/n)n11/e63.21%

4
1e10.63212056

1
यह उत्तर भी महान है, वास्तव में, स्वीकृत उत्तर प्लस यह उत्तर वास्तव में मेरे प्रश्न का पूर्ण उत्तर प्रदान करता है - लेकिन दोनों के बीच मुझे ऐसा लगता है जैसे बेंजामिन के पास वह है जो मैं उत्तर में देख रहा था। कहा जा रहा है - मैं वास्तव में चाहता हूं कि दोनों को स्वीकार करना संभव था।
रुसलपिएर्स

1
@ श्रव्य: सेलीन डायोन को उद्धृत करने के लिए, " समय के रूप में पुराने के रूप में पुराना / कविता और सौंदर्य और जानवर के रूप में पुराना है।" : पी
निक स्टैनर

8

c


3
मुझे नहीं लगता कि मैं आपके द्वारा फ्रैंक कहे गए अधिकांश चीजों को समझता हूं। क्या आप स्पष्ट करने के लिए तैयार होंगे? ऐसा लगता है कि आपके पास योगदान देने के लिए कुछ अनूठा और महत्वपूर्ण है।
रसेलपिएर्स

यदि आप किसी विशिष्ट प्रश्न का उल्लेख कर सकते हैं, तो विस्तार करें।
फ्रैंक हरेल

1
ये स्कोरिंग नियम थे ... बूटस्ट्रैप परिणाम की गुणवत्ता को देखते हुए? क्या आप एक ऐसा लिंक प्रदान कर सकते हैं जो "वर्गीकृत" अनुपात के नियम को सही ढंग से स्कोर करने का वर्णन करता है, मुझे यह कल्पना करने में परेशानी हो रही है कि जानवर किस तरह का हो सकता है। Google पर "एफ्रॉन-गोंग आशावाद" के शीर्ष परिणामों में से अधिकांश आपके द्वारा पोस्ट किए गए लगते हैं ... यदि मैं क्वालीफायर के बिना "बूटस्ट्रैप" कहता हूं तो यह कैसे अलग है? मुझे किस एफट्रॉन और गोंग लेख को देखना चाहिए? कई लग रहे हैं।
रुसलपिएरेस

3
0.632 के बारे में मूल पेपर देखें, जो सही तरीके से वर्गीकृत अनुपात का उपयोग करता है और परिभाषित करता है (एफ्रॉन और टिबशिरानी जासा: 548: 1997)। आशावाद बूटस्ट्रैप पूर्वाग्रह का अनुमान लगाने के लिए बूटस्ट्रैप का एक प्रकार है। यह गोंग में वर्णित है: जेएएसए 85:20; 1990.
फ्रैंक हरेल

2

वे उत्तर बहुत उपयोगी हैं। मुझे गणित के साथ इसे प्रदर्शित करने का कोई तरीका नहीं मिला, इसलिए मैंने कुछ पायथन कोड लिखे, जो हालांकि काफी अच्छी तरह से काम करते हैं:

    from numpy import mean
    from numpy.random import choice

    N = 3000

    variables = range(N)

    num_loop = 1000
    # Proportion of remaining variables
    p_var = []

    for i in range(num_loop):
        set_var = set(choice(variables, N))
        p=len(set_var)/float(N)
        if i%50==0:
            print "value for ", i, " iteration ", "p = ",p
        p_var.append(p)

    print "Estimator of the proportion of remaining variables, ", mean(p_var)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.