एक साधारण उदाहरण के लिए मान लें कि दो रैखिक प्रतिगमन मॉडल हैं
- मॉडल 1 है तीन भविष्यवक्ताओं,
x1a
,x2b
, औरx2c
- मॉडल 2 में मॉडल 1 से तीन और दो अतिरिक्त भविष्यवक्ता हैं
x2a
औरx2b
वहाँ एक जनसंख्या प्रतिगमन समीकरण जहां जनसंख्या विचरण समझाया है मॉडल 1 के लिए और मॉडल 2. के लिए वृद्धिशील विचरण मॉडल 2 द्वारा में आबादी है समझाया ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
मैं एक अनुमानक के लिए मानक त्रुटियों और विश्वास अंतराल प्राप्त करने में रुचि रखता हूं । जबकि उदाहरण में क्रमशः 3 और 2 भविष्यवक्ता शामिल हैं, मेरे शोध हित में भविष्यवक्ताओं की विभिन्न संख्याओं (जैसे, 5 और 30) की एक विस्तृत श्रृंखला है। मेरा पहला विचार था कि एक अनुमानक के रूप में करें और इसे बूटस्ट्रैप करें, लेकिन मुझे यकीन नहीं था कि यह है या नहीं उपयुक्त रहें। Δ आर 2 एक घ j = आर 2 एक घ j ( 2 ) - आर 2 एक घ j ( 1 )
प्रशन
- क्या का उचित अनुमानक है ? Δ ρ 2
- जनसंख्या आर-वर्ग परिवर्तन (यानी, ) के लिए एक विश्वास अंतराल कैसे प्राप्त किया जा सकता है ?
- क्या विश्वास अंतराल गणना के लिए बूटस्ट्रैपिंग उपयुक्त होगा?
सिमुलेशन या प्रकाशित साहित्य का कोई भी संदर्भ भी सबसे स्वागत योग्य होगा।
उदाहरण कोड
यदि यह मदद करता है, तो मैंने R में एक छोटा सिमुलेशन डेटासेट बनाया, जिसका उपयोग उत्तर प्रदर्शित करने के लिए किया जा सकता है:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
बूटस्ट्रैप के साथ चिंता का कारण
मैंने लगभग 300 मामलों के साथ कुछ डेटा पर एक बूटस्ट्रैप चलाया, और सरल मॉडल में 5 भविष्यवक्ताओं और पूर्ण मॉडल में 30 भविष्यवक्ताओं। जबकि समायोजित आर-स्क्वायर अंतर का उपयोग करते हुए नमूना अनुमान था 0.116
, बढ़ाया आत्मविश्वास अंतराल ज्यादातर बड़े CI95% (0.095 से 0.214) थे और बूटस्ट्रैप का मतलब नमूना अनुमान के पास कहीं नहीं था। बल्कि नमूने में आर-वर्गों के बीच अंतर के नमूने के अनुमान पर केंद्रित नमूनों को बढ़ावा दिया गया है। यह इस तथ्य के बावजूद है कि मैं अंतर का अनुमान लगाने के लिए नमूना समायोजित आर-वर्गों का उपयोग कर रहा था।
दिलचस्प बात यह है कि, मैंने एक वैकल्पिक तरीका कंप्यूटिंग रूप में देखा
- नमूना आर-वर्ग परिवर्तन की गणना करें
- मानक समायोजित आर-वर्ग सूत्र का उपयोग करके नमूना आर-वर्ग परिवर्तन समायोजित करें
नमूना डेटा के लिए आवेदन किया जब इस के अनुमान को कम किया करने के लिए , लेकिन विश्वास के अंतराल 0.118 के औसत के साथ विधि मैं पहली बार उल्लेख किया है, CI95% (0.062, 0.179) के लिए उपयुक्त लग रहा था।.082
मोटे तौर पर, मुझे चिंता है कि बूटस्ट्रैपिंग मानती है कि नमूना आबादी है, और इसलिए अनुमान है कि ओवरफिटिंग के लिए कम उचित रूप से प्रदर्शन नहीं कर सकता है।