मैं टिप्पणियों में अन्य उत्तरों से असहमत था, इसलिए यह उचित है कि मैं अपना खुद का जवाब दूं। चलो प्रतिक्रिया (अच्छा / बुरा खाते) हो सकता है, और covariates हो।एक्सYएक्स
लॉजिस्टिक रिग्रेशन के लिए, मॉडल निम्नलिखित है:
लॉग( पी ( वाई)= 1 | एक्स= x )p ( Y= 0 | एक्स= x )) =α+ ∑कमैं = १एक्समैंβमैं
इस बारे में सोचें कि डेटा कैसे एकत्र किया जा सकता है:
- आप कुछ काल्पनिक "जनसंख्या" से बेतरतीब ढंग से टिप्पणियों का चयन कर सकते हैं
- आप आधार पर डेटा का चयन कर सकते हैं , और देख सकते हैं कि क्या मूल्य हैं।वाईएक्सY
उपरोक्त मॉडल के लिए ये दोनों ठीक हैं, क्योंकि आप केवल के वितरण की मॉडलिंग कर रहे हैं । इन्हें एक संभावित अध्ययन कहा जाएगा ।Y|X
वैकल्पिक रूप से:
- आप आधार पर टिप्पणियों का चयन कर सकते हैं (प्रत्येक के 100 कहते हैं), और के सापेक्ष प्रसार देखें (यानी आप पर स्तरीकरण कर रहे हैं )। इसे पूर्वव्यापी या केस-कंट्रोल अध्ययन कहा जाता है ।X यYXY
(आप और कुछ चर पर आधारित डेटा का चयन भी कर सकते हैं : यह एक स्तरीकृत केस-कंट्रोल अध्ययन होगा, और इसके साथ काम करने के लिए और अधिक जटिल है, इसलिए मैं यहां नहीं जाऊंगा)।एक्सYX
महामारी विज्ञान से एक अच्छा परिणाम है ( प्रेंटिस और पाइके (1979) देखें ) कि केस-कंट्रोल अध्ययन के लिए, लॉजिस्टिक रिग्रेशन द्वारा भावी मॉडल का उपयोग कर लॉजिस्टिक रिग्रेशन द्वारा लिए अधिकतम संभावना अनुमान लगाया जा सकता है।β
तो यह आपकी समस्या के लिए कैसे प्रासंगिक है?
ठीक है, इसका मतलब है कि यदि आप अधिक डेटा एकत्र करने में सक्षम हैं, तो आप केवल खराब खातों को देख सकते हैं और फिर भी अनुमान के लिए लॉजिस्टिक रिग्रेशन का उपयोग कर सकते हैं (लेकिन आपको ओवर के लिए खाते में को समायोजित करने की आवश्यकता होगी प्रतिनिधित्व)। यह कहें कि प्रत्येक अतिरिक्त खाते के लिए इसकी लागत $ 1 है, तो यह अधिक लागत प्रभावी हो सकती है और फिर सभी खातों को देख सकता है। αβiα
लेकिन दूसरी तरफ, आप पहले से ही सभी संभव डेटा है, तो वहाँ stratifying को कोई मतलब नहीं है: आप बस डेटा दूर फेंक दिया जाएगा (बदतर अनुमान दे रही है), और फिर अनुमान लगाने के लिए कोशिश कर रहा है की समस्या से नहीं छोड़ा जा सकता ।α