यहाँ @gung .632+ नियम का संदर्भ देता है। एक त्वरित Google खोज इस नियम का क्या अर्थ है और किस उद्देश्य से इसका उपयोग किया जाता है, इसका उत्तर समझने में आसान नहीं है। क्या कोई कृपया .632+ नियम को स्पष्ट करेगा?
यहाँ @gung .632+ नियम का संदर्भ देता है। एक त्वरित Google खोज इस नियम का क्या अर्थ है और किस उद्देश्य से इसका उपयोग किया जाता है, इसका उत्तर समझने में आसान नहीं है। क्या कोई कृपया .632+ नियम को स्पष्ट करेगा?
जवाबों:
मैं 0.632 अनुमानक को मिलेगा, लेकिन यह कुछ हद तक लंबा विकास होगा:
मान लीजिए कि हमें भविष्यवाणी करने के लिए चाहते हैं के साथ एक्स फ़ंक्शन का उपयोग च , जहां च कुछ मानकों कि डेटा का उपयोग कर अनुमान लगाया गया है पर निर्भर हो सकता ( वाई , एक्स ) , उदाहरण के लिए च ( एक्स ) = एक्स β
भविष्यवाणी त्रुटि का एक भोली अनुमान जहांएलकुछ नुकसान समारोह, जैसे है त्रुटि नुकसान चुकता। इसे अक्सर प्रशिक्षण त्रुटि कहा जाता है। एफ्रॉन एट अल। इसे स्पष्ट त्रुटि दर या पुनर्जीवन दर कहते हैं। यह बहुत अच्छा नहीं है क्योंकि हम अपने डेटा(xi,yi)का उपयोगfफिट करने के लिए करते हैं। इस परिणाम में¯ईआरआरनीचे पक्षपाती होने। आप जानना चाहते हैं किनए मूल्यों की भविष्यवाणी करने मेंआपका मॉडलएफकितना अच्छाकरता है।
अक्सर हम अपेक्षित अतिरिक्त-नमूना भविष्यवाणी त्रुटि का अनुमान लगाने के लिए एक सरल तरीके के रूप में क्रॉस-सत्यापन का उपयोग करते हैं (हमारे प्रशिक्षण सेट में डेटा पर हमारा मॉडल कितना अच्छा करता है?)।
यह करने के लिए एक लोकप्रिय तरीका करने के लिए है गुना पार सत्यापन। अपने डेटा को K समूहों (जैसे 10) में विभाजित करें । प्रत्येक समूह k के लिए , शेष K - 1 समूहों पर अपना मॉडल फिट करें और k वें समूह पर परीक्षण करें । हमारी क्रॉस-वैलिडेटेड अतिरिक्त-नमूना भविष्यवाणी त्रुटि सिर्फ औसत ई r r C V = 1 हैजहांκहै कुछ सूचकांक समारोह है कि विभाजन को इंगित करता है जो करने के लिए अवलोकनमैंआवंटित किया जाता है औरच-κ(मैं)(एक्समैं)है की भविष्यवाणी मूल्यएक्समैंमें नहीं डेटा का उपयोग करκ(मैं)वें सेट।
यह अनुमानक सही भविष्यवाणी त्रुटि के लिए लगभग निष्पक्ष है जब और बड़ा विचरण होता है और बड़े K के लिए अधिक कम्प्यूटेशनल रूप से महंगा होता है । इसलिए एक बार फिर हम पूर्वाग्रह-व्यापार को बंद करते हुए देखते हैं।
फिर:
तथा
इस प्रकार
n <- 100
fx01 <- function(ll,n){
a1 <- sample(1:n, n, replace=TRUE)
length(unique(a1))/n
}
b1 <- c(lapply(1:1000,fx01,n=100), recursive=TRUE)
mean(b1)
1. ब्रैडली एफ्रॉन और रॉबर्ट टिबशिरानी (1997)। क्रॉस-वैलिडेशन पर सुधार: .632+ बूटस्ट्रैप विधि । जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , वॉल्यूम। 92, नंबर 438, पीपी। 548--560।
वे उत्तर बहुत उपयोगी हैं। मुझे गणित के साथ इसे प्रदर्शित करने का कोई तरीका नहीं मिला, इसलिए मैंने कुछ पायथन कोड लिखे, जो हालांकि काफी अच्छी तरह से काम करते हैं:
from numpy import mean
from numpy.random import choice
N = 3000
variables = range(N)
num_loop = 1000
# Proportion of remaining variables
p_var = []
for i in range(num_loop):
set_var = set(choice(variables, N))
p=len(set_var)/float(N)
if i%50==0:
print "value for ", i, " iteration ", "p = ",p
p_var.append(p)
print "Estimator of the proportion of remaining variables, ", mean(p_var)