यदि इस तरह के एक मॉडल का लक्ष्य भविष्यवाणी है, तो आप परिणामों का अनुमान लगाने के लिए अनवीटेड लॉजिस्टिक रिग्रेशन का उपयोग नहीं कर सकते हैं: आप जोखिम से अधिक लेंगे। लॉजिस्टिक मॉडल की ताकत यह है कि ऑड्स अनुपात (OR) - "ढलान" जो एक रिस्क फैक्टर के बीच संबंध को मापता है और लॉजिस्टिक मॉडल में एक द्विआधारी परिणाम - निर्भर नमूनाकरण के परिणाम के लिए अपरिवर्तनीय है। इसलिए यदि मामलों को 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 के अनुपात में नियंत्रित किया जाता है, तो यह सीधे तौर पर मायने नहीं रखता: या तो परिदृश्य में अपरिवर्तित रहता है, जब तक कि नमूना बिना शर्त के हो एक्सपोज़र पर (जो बर्कसन के पूर्वाग्रह का परिचय देगा)। वास्तव में, परिणाम पर निर्भर नमूनाकरण एक लागत बचत प्रयास है जब पूर्ण सरल यादृच्छिक नमूना बस होने वाला नहीं है।
लॉजिस्टिक मॉडल का उपयोग करके परिणाम आश्रित नमूने से पक्षपातपूर्ण जोखिम की भविष्यवाणी क्यों की जाती है? आउटकम निर्भर नमूनाकरण लॉजिस्टिक मॉडल में अवरोधन को प्रभावित करता है। यह एस-आकार के वक्र के कारण "एक्स-अक्ष को स्लाइड करने" के कारण होता है, जो जनसंख्या में एक साधारण यादृच्छिक नमूने में किसी मामले के नमूने के अंतर में होता है और छद्म में किसी मामले में नमूने के लॉग-ऑड में होता है। -अपने प्रायोगिक डिजाइन की संरचना। (इसलिए यदि आपके पास नियंत्रण करने के लिए 1: 1 मामले हैं, तो इस छद्म आबादी में एक मामले का नमूना लेने का 50% मौका है)। दुर्लभ परिणामों में, यह काफी बड़ा अंतर है, 2 या 3 का कारक।
जब आप ऐसे मॉडलों के "गलत" होने की बात करते हैं, तो आपको इस बात पर ध्यान देना चाहिए कि उद्देश्य अनुमान (सही) है या भविष्यवाणी (गलत) है। यह मामलों के परिणामों के अनुपात को भी संबोधित करता है। इस विषय के इर्द-गिर्द आप जो भाषा देखते हैं, वह इस तरह के अध्ययन को "केस कंट्रोल" अध्ययन कहते हैं, जो बड़े पैमाने पर लिखा गया है। शायद इस विषय पर मेरा पसंदीदा प्रकाशन ब्रेस्लो और डे है जो एक ऐतिहासिक अध्ययन के रूप में कैंसर के दुर्लभ कारणों के लिए जोखिम वाले कारकों की विशेषता है (पहले की घटनाओं की दुर्लभता के कारण)। केस कंट्रोल स्टडीज निष्कर्षों की लगातार गलत व्याख्या के इर्द-गिर्द कुछ विवाद फैलाती है: विशेष रूप से आरआर के साथ OR का खुलासा करना (निष्कर्षों को बढ़ाता है) और नमूने के मध्यस्थ के रूप में "अध्ययन का आधार" और निष्कर्षों को बढ़ाने वाली आबादी।उन्हें एक उत्कृष्ट आलोचना प्रदान करता है। हालांकि, किसी भी आलोचक ने दावा नहीं किया है कि केस-कंट्रोल अध्ययन स्वाभाविक रूप से अमान्य हैं, मेरा मतलब है कि आप कैसे हो सकते हैं? उन्होंने असंख्य मार्गों में सार्वजनिक स्वास्थ्य को उन्नत किया है। मिट्टेनन का लेख यह इंगित करने में अच्छा है कि, आप परिणाम पर निर्भर नमूने में सापेक्ष जोखिम मॉडल या अन्य मॉडल का भी उपयोग कर सकते हैं और अधिकांश मामलों में परिणामों और जनसंख्या स्तर के निष्कर्षों के बीच विसंगतियों का वर्णन कर सकते हैं: यह वास्तव में बदतर नहीं है क्योंकि OR आमतौर पर एक कठिन पैरामीटर है। अनुवाद के लिए।
जोखिम अनुमानों में ओवरसैंपलिंग पूर्वाग्रह को दूर करने का संभवतः सबसे अच्छा और आसान तरीका भारित संभावना का उपयोग करके है।
स्कॉट और वाइल्ड वेटिंग पर चर्चा करते हैं और यह दिखाते हैं कि यह इंटरसेप्ट टर्म और मॉडल के रिस्क भविष्यवाणियों को सही करता है। यह सबसे अच्छा तरीका है जब जनसंख्या में मामलों के अनुपात के बारे में प्राथमिक जानकारी होती है। यदि परिणाम की व्यापकता वास्तव में 1: 100 है और आप 1, 1 फैशन में नियंत्रण के लिए मामलों का नमूना लेते हैं, तो आप जनसंख्या अनुरूप मापदंडों और निष्पक्ष जोखिम भविष्यवाणियों को प्राप्त करने के लिए बस 100 के परिमाण द्वारा वजन नियंत्रित करते हैं। इस विधि के लिए नकारात्मक पक्ष यह है कि अगर यह कहीं और त्रुटि के साथ अनुमानित किया गया है, तो यह आबादी के प्रसार में अनिश्चितता के लिए जिम्मेदार नहीं है। यह खुला अनुसंधान, लुमली और ब्रेस्लो का एक विशाल क्षेत्र हैदो चरण के नमूने और दोगुने मजबूत अनुमानक के बारे में कुछ सिद्धांत के साथ बहुत दूर आ गए। मुझे लगता है कि यह काफी दिलचस्प चीजें हैं। लगता है कि ज़ेलग का कार्यक्रम केवल वज़न फीचर का कार्यान्वयन है (जो आर के glm फ़ंक्शन के लिए अनुमति के रूप में थोड़ा बेमानी लगता है)।