क्या डाउन-सैंपलिंग लॉजिस्टिक रिग्रेशन गुणांक को बदल देता है?


34

अगर मेरे पास एक बहुत ही दुर्लभ सकारात्मक वर्ग के साथ एक डेटासेट है, और मैं नकारात्मक वर्ग का नमूना देता हूं, तो एक लॉजिस्टिक प्रतिगमन करें, क्या मुझे इस तथ्य को प्रतिबिंबित करने के लिए प्रतिगमन गुणांक को समायोजित करने की आवश्यकता है कि मैंने सकारात्मक वर्ग की व्यापकता को बदल दिया है?

उदाहरण के लिए, मान लें कि मेरे पास 4 चर वाले डेटासेट हैं: Y, A, B और C. Y, A, और B द्विआधारी हैं, C निरंतर हैं। 11,100 अवलोकनों के लिए Y = 0, और 900 Y = 1 के लिए:

set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)

मैं A, B और C को Y की भविष्यवाणी करने के लिए एक लॉजिस्टिक रिग्रेशन फिट करता हूं।

dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)

हालाँकि, समय बचाने के लिए मैं १०,२०० गैर-वाई अवलोकन निकाल सकता था, जिससे 900 Y = 0, और 900 Y = १ हो सकता है:

require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)

2 मॉडल के प्रतिगमन गुणांक बहुत समान दिखते हैं:

> coef(summary(mod1))
              Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -127.67782  20.619858 -6.191983 5.941186e-10
A           -257.20668  41.650386 -6.175373 6.600728e-10
B            -13.20966   2.231606 -5.919353 3.232109e-09
C           -127.73597  20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
              Estimate  Std. Error     z value    Pr(>|z|)
(Intercept) -167.90178   59.126511 -2.83970391 0.004515542
A           -246.59975 4059.733845 -0.06074284 0.951564016
B            -16.93093    5.861286 -2.88860377 0.003869563
C           -170.18735   59.516021 -2.85952165 0.004242805

जो मुझे विश्वास दिलाता है कि डाउन-सैंपलिंग ने गुणांक को प्रभावित नहीं किया है। हालाँकि, यह एक एकल, आकस्मिक उदाहरण है, और मुझे यकीन है कि पता होगा।


8
एक तरफ अवरोधन, आप एक ही जनसंख्या मापदंडों का आकलन कर रहे हैं जब आप नमूना-नमूना करते हैं, लेकिन कम सटीकता के साथ - अवरोधन को छोड़कर, जिसका अनुमान आप तब लगा सकते हैं जब आप प्रतिक्रिया की जनसंख्या की व्यापकता को जानते हैं। एक प्रमाण के लिए होस्मेर एंड लेमेशो (2000), एप्लाइड लॉजिस्टिक रिग्रेशन , Ch 6.3 देखें। कभी-कभी आप अलगाव का परिचय दे सकते हैं, हालांकि आमतौर पर नहीं, जैसा कि आप बहुमत की प्रतिक्रिया का नमूना लेते हैं।
Scortchi - को पुनः स्थापित मोनिका

@Scortchi उत्तर के रूप में अपनी टिप्पणी पोस्ट करें - यह मेरे प्रश्न के लिए पर्याप्त लगता है। संदर्भ के लिए धन्यवाद।
Zach

@Scortchi और ज़ैक: downsampled मॉडल (के अनुसार mod2), Pr(>|z|)के लिए Aलगभग 1. हम शून्य परिकल्पना कि गुणांक अस्वीकार नहीं कर सकते है A0 है तो हम एक covariate जिसमें प्रयोग किया जाता है खो दिया है mod1। क्या यह पर्याप्त अंतर नहीं है?
ज़ुर्बर्ब

@Zhubarb: जैसा कि मैंने उल्लेख किया है, आप पृथक्करण का परिचय दे सकते हैं, जिससे वाल्ड मानक त्रुटि अनुमान पूरी तरह अविश्वसनीय हो जाता है।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


28

डाउन-सैंपलिंग मेडिकल आंकड़ों में केस-कंट्रोल डिज़ाइन के बराबर है - आप प्रतिक्रियाओं की संख्या तय कर रहे हैं और कोवरिएट पैटर्न (भविष्यवक्ताओं) का अवलोकन कर रहे हैं। शायद मुख्य संदर्भ प्रेंटिस एंड पाइके (1979), "लॉजिस्टिक डिजीज इंसीडेंस मॉडल्स एंड केस-कंट्रोल स्टडीज", बायोमेट्रिक , 66 , 3 है।

एक मामले या नियंत्रण दो कारकों के रूप में किसी दिए गए सहसंयोजक पैटर्न सशर्त की संभावना के लिए उन्होंने प्रत्येक शब्द को फिर से लिखने के लिए बेयस प्रमेय का उपयोग किया; एक साधारण लॉजिस्टिक रिग्रेशन (एक कोवरिएट पैटर्न पर केस या कंट्रोल सशर्त होने की संभावना) का प्रतिनिधित्व करता है, और दूसरा कोवरिएट पैटर्न की सीमांत संभावना का प्रतिनिधित्व करता है। उन्होंने दिखाया कि बाधा के समग्र संभावना को अधिकतम करते हुए कि नमूना योजना द्वारा मामला या नियंत्रण होने की सीमांत संभावनाएं समान बाधाओं का अनुमान लगाती हैं, जैसे बिना बाधा के पहले कारक को अधिकतम करना (यानी एक साधारण लॉजिस्टिक प्रतिगमन करना) ।

जनसंख्या लिए अवरोधन का अंदाजा इस बात से लगाया जा सकता है कि यदि जनसंख्या के प्रचलन को ज्ञात किया जाता है तो नियंत्रण-नियंत्रण का उपयोग करेंβ 0 πβ0*β^0π

β^0*=β^0-लॉग(1-ππn1n0)

जहां & क्रमशः नियंत्रण और मामलों की संख्या के नमूने हैं।एन n0n1

निश्चित रूप से आपके द्वारा एकत्रित किए गए डेटा को फेंकने से, कम से कम उपयोगी भाग के बावजूद, आप अपने अनुमानों की सटीकता को कम कर रहे हैं। कम्प्यूटेशनल संसाधनों पर बाधाएं एकमात्र अच्छा कारण है जो मुझे ऐसा करने के लिए पता है, लेकिन मैं इसका उल्लेख करता हूं क्योंकि कुछ लोगों को लगता है कि "संतुलित डेटा-सेट" कुछ अन्य कारणों से महत्वपूर्ण है जिन्हें मैं कभी भी पता लगाने में सक्षम नहीं हूं।


विस्तृत उत्तर के लिए धन्यवाद। और हाँ, इसका कारण यह है कि मैं पूरा मॉडल (बिना डाउन-सैंपलिंग के) कम्प्यूटेशनल रूप से निषेधात्मक है।
जच

प्रिय @Scortchi, स्पष्टीकरण के लिए धन्यवाद, लेकिन इस मामले में कि मैं लॉजिस्टिक प्रतिगमन का उपयोग करना चाहता हूं, संतुलित डेटासेट कम्प्यूटेशनल संसाधनों की परवाह किए बिना आवश्यक लगता है। मैंने बिना किसी लाभ के "फर्थ के पक्षपाती कम दंडित-संभावना लॉगिट" का उपयोग करने की कोशिश की। तो प्रतीत होता है कि नीचे-नमूना मेरे लिए एकमात्र वैकल्पिक है, है ना?
शाहीन

@ शाहीन वेल, (1) आप अधिकतम संभावना के अनुसार एक लॉजिस्टिक प्रतिगमन फिट होने से नाखुश क्यों हैं? और (2) फर्थ की विधि का उपयोग करके क्या गलत है?
Scortchi - को पुनः स्थापित मोनिका

@Scortchi, समस्या यह है कि successउदाहरणों का पता लगाने में मॉडल बहुत खराब है । दूसरे शब्दों में, बहुत कम TPR। थ्रेसहोल्ड बदलने से, TPR बढ़ता है लेकिन परिशुद्धता बहुत खराब है, जिसका अर्थ है कि 70% से अधिक उदाहरणों को सकारात्मक के रूप में लेबल किया गया है, वास्तव में सकारात्मक हैं। मैंने पढ़ा कि दुर्लभ घटनाओं में, लॉजिस्टिक रिग्रेशन अच्छा नहीं करता, यही वह जगह है जहां फर्थ की विधि खेलने के लिए आती है, या कम से कम एक भूमिका जो इसे ले सकती है। लेकिन फर्थ की विधि के परिणाम सामान्य लॉगिट के समान थे। मुझे लगा कि मैं फिर्थ के साथ गलत कर सकता हूं, लेकिन लगता है कि सबकुछ ठीक है
शाहीन

3
@ शाहीन: आपको लगता है कि वहां पर गलत पेड़ उखड़ रहे हैं: डाउन-सैंपलिंग से आपके मॉडल के भेदभाव में सुधार नहीं होगा। पूर्वाग्रह सुधार या नियमितीकरण हो सकता है (नया डेटा पर - आप एक परीक्षण सेट पर अपने प्रदर्शन का आकलन करने कर रहे हैं?), लेकिन एक अधिक जटिल विनिर्देश सकता है शायद मदद, या यह बस हो सकता है कि आप अधिक सूचनात्मक भविष्यवक्ताओं की जरूरत है। आपको डेटा का विवरण, विषय-वस्तु के संदर्भ, मॉडल, निदान और आपके उद्देश्य के बारे में बताते हुए एक नया प्रश्न पूछना चाहिए।
Scortchi - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.