क्या स्टेप वाइज रिग्रेशन जनसंख्या आर-वर्ग का एक पक्षपाती अनुमान प्रदान करता है?


14

मनोविज्ञान और अन्य क्षेत्रों में स्टेप वाइज रिग्रेशन का एक रूप अक्सर नियोजित होता है जिसमें निम्नलिखित शामिल होते हैं:

  1. शेष भविष्यवक्ताओं को देखें (पहले मॉडल में कोई भी नहीं हैं) और सबसे बड़े आर-वर्ग परिवर्तन के परिणामस्वरूप भविष्यवक्ता की पहचान करें;
  2. यदि आर-स्क्वायर परिवर्तन का पी-मूल्य अल्फा (आमतौर पर .05) से कम है, तो उस भविष्यवक्ता को शामिल करें और चरण 1 पर वापस जाएं, अन्यथा रोकें।

उदाहरण के लिए, SPSS में यह प्रक्रिया देखें ।

प्रक्रिया नियमित रूप से कारणों की एक विस्तृत श्रृंखला के लिए समालोचनीय है ( संदर्भ के साथ स्टाटा वेबसाइट पर इस चर्चा को देखें )।

विशेष रूप से, स्टैटा वेबसाइट फ्रैंक हरेल द्वारा कई टिप्पणियों का सार प्रस्तुत करती है। मुझे दावे में दिलचस्पी है:

[स्टेप वाइज रिग्रेशन] आर-स्क्वैयर वैल्यूज की पैदावार करता है जो बुरी तरह से उच्च पक्षपाती हैं।

विशेष रूप से, मेरे कुछ वर्तमान शोध अनुमान लगाने पर केंद्रित हैं जनसंख्या आर-वर्ग का । जनसंख्या आर-वर्ग द्वारा मैं जनसंख्या में उत्पन्न होने वाले जनसंख्या डेटा समीकरण द्वारा बताए गए विचरण के प्रतिशत का उल्लेख करता हूं। मेरे द्वारा समीक्षा की जा रही मौजूदा साहित्य में से अधिकांश ने स्टेपवाइज रिग्रेशन प्रक्रियाओं का उपयोग किया है और मैं जानना चाहता हूं कि प्रदान किए गए अनुमान पक्षपाती हैं और यदि ऐसा है तो कितना। विशेष रूप से, एक सामान्य अध्ययन में 30 भविष्यवक्ता, n = 200, अल्फा प्रवेश .05, और आर-वर्ग अनुमान लगभग .50 होगा।

मुझे क्या पता:

  • समान रूप से, गैर-शून्य गुणांक वाला कोई भी भविष्यवाण एक सांख्यिकीय रूप से महत्वपूर्ण भविष्यवक्ता होगा, और आर-स्क्वायर समायोजित आर-स्क्वायर के बराबर होगा। इस प्रकार, asymptotically stepwise प्रतिगमन को सही प्रतिगमन समीकरण और वास्तविक जनसंख्या आर-वर्ग का अनुमान लगाना चाहिए।
  • छोटे नमूना आकारों के साथ, कुछ भविष्यवक्ताओं के संभावित चूक का परिणाम छोटे आर-वर्ग से होगा, जो सभी भविष्यवक्ताओं को मॉडल में शामिल किया गया था। लेकिन नमूना डेटा के लिए आर-स्क्वायर के सामान्य पूर्वाग्रह भी आर-स्क्वायर को बढ़ाएंगे। इस प्रकार, मेरा अनुभवहीन विचार यह है कि संभावित रूप से, इन दो विरोधी बलों के कारण कुछ परिस्थितियों में निष्पक्ष आर-स्क्वायर हो सकता है। और अधिक आम तौर पर, पूर्वाग्रह की दिशा डेटा की विभिन्न विशेषताओं और अल्फा समावेशन मानदंड पर आकस्मिक होगी।
  • एक अधिक कड़े अल्फा समावेशी मानदंड (जैसे, .01, .001, आदि) की स्थापना अनुमानित आर-वर्ग को कम करना चाहिए क्योंकि डेटा के किसी भी पीढ़ी में किसी भी भविष्यवक्ता को शामिल करने की संभावना कम होगी।
  • सामान्य तौर पर, आर-स्क्वायर जनसंख्या आर-स्क्वायर का एक सीधा पक्षपाती अनुमान है और इस पूर्वाग्रह की डिग्री अधिक भविष्यवाणियों और छोटे नमूना आकारों के साथ बढ़ जाती है।

सवाल

तो आखिरकार, मेरा सवाल:

  • जनसंख्या के आर-वर्ग के पक्षपातपूर्ण अनुमान में चरणबद्ध प्रतिगमन से r- वर्ग किस हद तक परिणामित होता है?
  • यह किस नमूने के आकार, भविष्यवक्ताओं की संख्या, अल्फा समावेश मापदंड या डेटा के गुणों से संबंधित है?
  • क्या इस विषय पर कोई संदर्भ हैं?

3
स्टाटा एफएक्यू के मुख्य संस्करण में आपने फ्रैंक हैरेल की 2001 की पुस्तक रिग्रेशन मॉडलिंग रणनीतियों की भविष्यवाणी की है । न्यूयॉर्क: स्प्रिंगर, जो संदर्भ है, मैं यहां से शुरू करूंगा।
निक कॉक्स

3
मैं अत्यधिक रूप से निक कॉक्स का उल्लेख @FrankHarrell द्वारा पुस्तक पढ़ने की सलाह देता हूं; मैं नियमित रूप से अपने स्नातकोत्तर छात्रों को नियुक्त करता हूं और इससे पढ़ने वाले छात्रों (विशेषकर अध्याय 4) को सम्मानित करता हूं। R ^ 2 चर चयन की उपस्थिति में पक्षपाती है, कई डेटा सेटों (जैसे n = 100, p = 50) का अनुकरण करके देखना काफी आसान है, जिसमें जनसंख्या का संबंध शून्य है और फिर आप जो भी चर चयन प्रक्रिया दिखाना चाहते हैं, कर रहे हैं। चालू करो।
Glen_b -Reinstate मोनिका

5
जैसा कि टिप्पणियां नोट करती हैं, सिमुलेशन यह दिखा सकता है कि ज्ञात स्थिति में, स्टेपवाइज रिग्रेशन को पछाड़ देगा , और वे दिखा सकते हैं कि कितना। लेकिन यह नहीं दिखा सकता है कि ऐसी स्थिति में कितनी महंगाई है जहां आपको पता नहीं है कि जनसंख्या के मूल्यों का क्या होना चाहिए। यही है, न केवल चरणबद्ध पक्षपाती से परिणाम हैं, वे उन तरीकों से पक्षपाती हैं जो अनुमान लगाने के लिए बहुत कठिन (यदि असंभव नहीं है)। R2
पीटर फ्लॉम - मोनिका

3
यदि जनसंख्या R ^ 2 शून्य है, तो मुझे लगता है कि नमूना R ^ 2 पक्षपाती है, भले ही आप चरणबद्ध चयन का उपयोग न करें। मुझे संदेह है (लेकिन मुझे यकीन नहीं है) कि यह भी पक्षपाती होगा यदि जनसंख्या R ^ 2 गैर-शून्य है।
mark999

2
यह कहने के लिए कि जनसंख्या का और हम मॉडल चयन के कुछ प्रकार कर रहे हैं, नमूना स्थिति के बारे में कुछ विशेष धारणाएँ बनाना है - यह कि एक 'सही' मॉडल है, और इसका एक विशेष आकार है, कि वहाँ हैं सत्य मॉडल (कम से कम संभावित रूप से अधिक), और इसी तरह से विचार किए जाने वाले अधिक चर। मुझे लगता है कि यहां तक ​​कि एक निहितार्थ भी है कि सभी चर समान रूप से प्रतिक्रिया से दृढ़ता से संबंधित नहीं हैं। उस अंत तक, मुझे लगता है कि संपत्तियों की जांच करने के लिए हम जो भी सिमुलेशन करते हैं, उन सभी प्रभावों का सम्मान करने की आवश्यकता होगी जो इसे स्थापित करते हैं। R2
Glen_b -Reinstate मोनिका

जवाबों:


5

मेरी पुस्तक में संदर्भित, एक ऐसा साहित्य है जो यह दर्शाता है कि परिवर्तनशील चयन करते समय का लगभग निष्पक्ष अनुमान प्राप्त करने के लिए , किसी को समायोजित R 2 के लिए उम्मीदवार पूर्वानुमानों की संख्या के सूत्र में सम्मिलित करने की आवश्यकता है , न कि "चयनित" भविष्यवक्ताओं की संख्या । इसलिए, चर चयन के कारण होने वाले पूर्वाग्रह पर्याप्त हैं। शायद अधिक महत्वपूर्ण बात, चर चयन से वास्तविक आर 2 में परिणाम होता है और वास्तव में "सही" चर खोजने में असमर्थता होती है।R2R2R2


विशेष रूप से जब उम्मीदवार भविष्यवक्ताओं की संख्या टिप्पणियों की संख्या से अधिक हो जाती है!
एलेक्सिस

2

अवलोकन

R2ρ2 , तो निम्नलिखित कहा जा सकता है: जबकि यह डेटा बनाने की प्रक्रिया के कुछ संयोजनों, नमूना आकार, भविष्यवाणियों के सेट और भविष्यवक्ता प्रविष्टि के पी-मान मानदंड के लिए सच है, यह सच नहीं है सभी मामलों में।

R2ρ2R2ρ2R2R2R2ρ2

मैंने विभिन्न परिस्थितियों में कुछ सिमुलेशन चलाए हैं। पूर्वसूचक प्रविष्टि का पी-मूल्य जो लगभग निष्पक्ष अनुमान प्राप्त करता था, अक्सर .05 और .0001 के बीच होता था। हालाँकि, मैंने अभी तक किसी भी सिमुलेशन को नहीं पढ़ा है जो स्पष्ट रूप से इसका पता लगाता है या प्रकाशित चरणबद्ध से किस तरह के पूर्वाग्रह की सलाह देता हैR2 किसी दिए गए पी-मूल्य प्रविष्टि का उपयोग करके और डेटा की विशेषताओं को देखते हुए मानों ।

R2ρ2ρ2

सिमुलेशन

निम्नलिखित सिमुलेशन में चार असंबद्ध भविष्यवक्ता हैं जहां जनसंख्या आर-वर्ग 40% है। भविष्यवाणियों में से दो 20% प्रत्येक को समझाते हैं, और अन्य दो भविष्यवक्ता 0% समझाते हैं। सिमुलेशन एक 1000 डेटासेट उत्पन्न करता है और प्रत्येक डेटासेट के लिए एक प्रतिशत के रूप में चरणवार प्रतिगमन आर-स्क्वायर का अनुमान लगाता है।

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

निम्न कोड .01, .001, .0001 और .00001 के प्रवेश के लिए एक अल्फा के साथ आर-स्क्वायर देता है।

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

निम्न परिणाम प्रविष्टियों के पाँच अल्फा में से प्रत्येक के लिए पूर्वाग्रह को दर्शाते हैं। ध्यान दें कि मैंने मतभेदों को देखने के लिए आर-स्क्वायर को 100 से गुणा किया है।

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias 

परिणामों से पता चलता है कि .01 और .001 की प्रविष्टियों के अल्फाबेट में सकारात्मक पूर्वाग्रह और .0001 और .00001 की प्रविष्टियों के परिणामस्वरूप नकारात्मक पूर्वाग्रह हो जाता है। तो संभवतः लगभग .0005 में प्रवेश का एक अल्फा एक निष्पक्ष stepwise प्रतिगमन में परिणाम होगा।

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

मुख्य निष्कर्ष यह है कि स्टेप वाइज रिग्रेशन किसी विशेष दिशा में निहित नहीं है। उस ने कहा, यह कम से कम कुछ हद तक सभी के लिए पक्षपाती होगा, लेकिन भविष्यवक्ता प्रवेश के एक पी-मूल्य। मैं @Peter Flom की बात लेता हूं कि वास्तविक दुनिया में हम डेटा जनरेट करने की प्रक्रिया को नहीं जानते हैं। हालाँकि, मैं कल्पना करता हूं कि यह पूर्वाग्रह कैसे भिन्न होता है, n, प्रवेश के अल्फा, एन्ट्री, डेटा जनरेट करने की प्रक्रिया और स्टेप वाइज रिग्रेशन प्रक्रिया (जैसे बैकवर्ड पास सहित) इस तरह के पूर्वाग्रह की समझ को पर्याप्त रूप से सूचित कर सकती है।

संदर्भ

  • हैरेल, एफई (2001)। प्रतिगमन मॉडलिंग रणनीतियों: रैखिक मॉडल, लॉजिस्टिक प्रतिगमन और उत्तरजीविता विश्लेषण के अनुप्रयोगों के साथ। स्प्रिंगर।

यह अभी भी पक्षपाती है (मैं कहूंगा), आपने पूर्वाग्रह को बहुत कम कर दिया है।
जेरेमी मिल्स

@JeremyMiles हाँ। लेकिन यह स्वाभाविक रूप से एक विशेष दिशा में पक्षपाती नहीं है।
जेरोमे एंग्लीम

मुझे इस पर @FrankHarrell लेने में बहुत दिलचस्पी होगी।
Glen_b -Reinstate मोनिका

1
SW(p)R2पी । आप सहमत हैं (और आंशिक रूप से प्रदर्शित) कि किसी भी आबादी के लिए कम से कम एक मौजूद हैपी जिसके लिए एसडब्ल्यू(पी)निष्पक्ष है। ललित: लेकिन आप इसे कैसे चुनते हैंपी? यदि आप नहीं जानते कि यह क्या है, तो ऐसा लगता है कि आप ठीक वहीं हैं जहाँ आपने शुरुआत की थी, लेकिन इस बार आप जानते हैं किएसडब्ल्यू(पी) "स्वाभाविक" पक्षपाती है जब तक कि आपने एक भाग्यशाली अनुमान नहीं लगाया पी
whuber

1
@whuber मैंने अंतिम पैराग्राफ को उम्मीद से जोड़ दिया कि आप स्पष्ट रूप से उल्लेख करने वाले कुछ बिंदु बना सकते हैं।
जेरोमे एंग्लीम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.