क्या लॉजिस्टिक रिग्रेशन के लिए नमूना करना 1 और 0 के वास्तविक अनुपात को दर्शाता है?


23

मान लीजिए मैं लॉजिस्टिक रिग्रेशन मॉडल बनाना चाहता हूं जो पेड़ों की विशेषताओं (फ़े ऊंचाई) के आधार पर पेड़ों पर रहने वाले कुछ जानवरों की प्रजातियों की घटना की संभावना का अनुमान लगा सकता है। हमेशा की तरह, मेरा समय और पैसा सीमित है, इसलिए मैं केवल एक सीमित नमूना आकार एकत्र करने में सक्षम हूं।

मेरे पास निम्नलिखित प्रश्न हैं: क्या मेरे नमूने में 1 और 0 का अनुपात 1 और 0 के वास्तविक अनुपात को दर्शाता है? (कम से कम लगभग) मैंने देखा कि संतुलित नमूने (1 और 0 के बराबर) के साथ लॉजिस्टिक रिग्रेशन मॉडल का प्रदर्शन करना एक आम बात है - लेकिन इस तरह के मॉडल घटना के सही होने की उच्च संभावना देते हैं?

क्या कोई लेख / पाठ्यपुस्तक है जिसका उपयोग मैं ** धारणा का समर्थन करने के लिए कर सकता हूं , कि जो मॉडल 1 और 0 के सही अनुपात को प्रतिबिंबित नहीं करते हैं, वे " गलत " हैं? **

और अंत में: क्या 1: 1 नमूना प्रदर्शन करना संभव है और बाद में इमाई एट अल के अनुसार ताऊ के साथ मॉडल को ठीक करें । 2007?

कोसुके इमाई, गैरी किंग, और ओलिविया लाउ। 2007. "Relogit: रेयर इवेंट्स लॉजिस्टिक रिग्रेशन फॉर डिकोटोमस डिपेंडेंट वेरिएबल्स," कोसुके इमाई, गैरी किंग, और ओलिविया लाउ में, "जेलिग: एवरीवन स्टैटिस्टिकल सॉफ्टवेयर" http: //gking.harvard.edu/zelig।

यहाँ छवि विवरण दर्ज करें

डॉट्स पेड़ों का प्रतिनिधित्व करते हैं (लाल = व्याप्त, धूसर = अप्रकाशित)। मैं 100% सटीकता (1) के साथ सभी कब्जे वाले पेड़ों की पहचान करने में सक्षम हूं, लेकिन मैं जंगल में सभी पेड़ों को नहीं माप सकता। प्रत्येक नमूना रणनीति (अनुपात) के लिए मॉडल अलग है।

जवाबों:


15

यदि इस तरह के एक मॉडल का लक्ष्य भविष्यवाणी है, तो आप परिणामों का अनुमान लगाने के लिए अनवीटेड लॉजिस्टिक रिग्रेशन का उपयोग नहीं कर सकते हैं: आप जोखिम से अधिक लेंगे। लॉजिस्टिक मॉडल की ताकत यह है कि ऑड्स अनुपात (OR) - "ढलान" जो एक रिस्क फैक्टर के बीच संबंध को मापता है और लॉजिस्टिक मॉडल में एक द्विआधारी परिणाम - निर्भर नमूनाकरण के परिणाम के लिए अपरिवर्तनीय है। इसलिए यदि मामलों को 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 के अनुपात में नियंत्रित किया जाता है, तो यह सीधे तौर पर मायने नहीं रखता: या तो परिदृश्य में अपरिवर्तित रहता है, जब तक कि नमूना बिना शर्त के हो एक्सपोज़र पर (जो बर्कसन के पूर्वाग्रह का परिचय देगा)। वास्तव में, परिणाम पर निर्भर नमूनाकरण एक लागत बचत प्रयास है जब पूर्ण सरल यादृच्छिक नमूना बस होने वाला नहीं है।

लॉजिस्टिक मॉडल का उपयोग करके परिणाम आश्रित नमूने से पक्षपातपूर्ण जोखिम की भविष्यवाणी क्यों की जाती है? आउटकम निर्भर नमूनाकरण लॉजिस्टिक मॉडल में अवरोधन को प्रभावित करता है। यह एस-आकार के वक्र के कारण "एक्स-अक्ष को स्लाइड करने" के कारण होता है, जो जनसंख्या में एक साधारण यादृच्छिक नमूने में किसी मामले के नमूने के अंतर में होता है और छद्म में किसी मामले में नमूने के लॉग-ऑड में होता है। -अपने प्रायोगिक डिजाइन की संरचना। (इसलिए यदि आपके पास नियंत्रण करने के लिए 1: 1 मामले हैं, तो इस छद्म आबादी में एक मामले का नमूना लेने का 50% मौका है)। दुर्लभ परिणामों में, यह काफी बड़ा अंतर है, 2 या 3 का कारक।

जब आप ऐसे मॉडलों के "गलत" होने की बात करते हैं, तो आपको इस बात पर ध्यान देना चाहिए कि उद्देश्य अनुमान (सही) है या भविष्यवाणी (गलत) है। यह मामलों के परिणामों के अनुपात को भी संबोधित करता है। इस विषय के इर्द-गिर्द आप जो भाषा देखते हैं, वह इस तरह के अध्ययन को "केस कंट्रोल" अध्ययन कहते हैं, जो बड़े पैमाने पर लिखा गया है। शायद इस विषय पर मेरा पसंदीदा प्रकाशन ब्रेस्लो और डे है जो एक ऐतिहासिक अध्ययन के रूप में कैंसर के दुर्लभ कारणों के लिए जोखिम वाले कारकों की विशेषता है (पहले की घटनाओं की दुर्लभता के कारण)। केस कंट्रोल स्टडीज निष्कर्षों की लगातार गलत व्याख्या के इर्द-गिर्द कुछ विवाद फैलाती है: विशेष रूप से आरआर के साथ OR का खुलासा करना (निष्कर्षों को बढ़ाता है) और नमूने के मध्यस्थ के रूप में "अध्ययन का आधार" और निष्कर्षों को बढ़ाने वाली आबादी।उन्हें एक उत्कृष्ट आलोचना प्रदान करता है। हालांकि, किसी भी आलोचक ने दावा नहीं किया है कि केस-कंट्रोल अध्ययन स्वाभाविक रूप से अमान्य हैं, मेरा मतलब है कि आप कैसे हो सकते हैं? उन्होंने असंख्य मार्गों में सार्वजनिक स्वास्थ्य को उन्नत किया है। मिट्टेनन का लेख यह इंगित करने में अच्छा है कि, आप परिणाम पर निर्भर नमूने में सापेक्ष जोखिम मॉडल या अन्य मॉडल का भी उपयोग कर सकते हैं और अधिकांश मामलों में परिणामों और जनसंख्या स्तर के निष्कर्षों के बीच विसंगतियों का वर्णन कर सकते हैं: यह वास्तव में बदतर नहीं है क्योंकि OR आमतौर पर एक कठिन पैरामीटर है। अनुवाद के लिए।

जोखिम अनुमानों में ओवरसैंपलिंग पूर्वाग्रह को दूर करने का संभवतः सबसे अच्छा और आसान तरीका भारित संभावना का उपयोग करके है। स्कॉट और वाइल्ड वेटिंग पर चर्चा करते हैं और यह दिखाते हैं कि यह इंटरसेप्ट टर्म और मॉडल के रिस्क भविष्यवाणियों को सही करता है। यह सबसे अच्छा तरीका है जब जनसंख्या में मामलों के अनुपात के बारे में प्राथमिक जानकारी होती है। यदि परिणाम की व्यापकता वास्तव में 1: 100 है और आप 1, 1 फैशन में नियंत्रण के लिए मामलों का नमूना लेते हैं, तो आप जनसंख्या अनुरूप मापदंडों और निष्पक्ष जोखिम भविष्यवाणियों को प्राप्त करने के लिए बस 100 के परिमाण द्वारा वजन नियंत्रित करते हैं। इस विधि के लिए नकारात्मक पक्ष यह है कि अगर यह कहीं और त्रुटि के साथ अनुमानित किया गया है, तो यह आबादी के प्रसार में अनिश्चितता के लिए जिम्मेदार नहीं है। यह खुला अनुसंधान, लुमली और ब्रेस्लो का एक विशाल क्षेत्र हैदो चरण के नमूने और दोगुने मजबूत अनुमानक के बारे में कुछ सिद्धांत के साथ बहुत दूर आ गए। मुझे लगता है कि यह काफी दिलचस्प चीजें हैं। लगता है कि ज़ेलग का कार्यक्रम केवल वज़न फीचर का कार्यान्वयन है (जो आर के glm फ़ंक्शन के लिए अनुमति के रूप में थोड़ा बेमानी लगता है)।


(+1) क्या साधारण सुधार नियंत्रण नमूने के लिए अवरोधन को समायोजित करने का सबसे आसान तरीका के रूप में एक उल्लेख के लायक पूर्व सुधार है?
Scortchi - को पुनः स्थापित मोनिका

@Scortchi क्या आपका मतलब है कि एक सूचनात्मक से पहले बायेसियन लॉजिस्टिक रिग्रेशन इंटरसेप्ट पर है? या विवश अनुकूलन? मैं वास्तव में इस बात से परिचित नहीं हूं कि यह क्या हो सकता है।
एडम

1
बस सरल यहाँ गणना: stats.stackexchange.com/a/68726/17230 । (मुझे अब यकीन नहीं है कि मैंने उस शब्दावली को कहां से उठाया है या यह कितना मानक है।) मैंने सुना है कि गलत-निर्दिष्ट मॉडलों के लिए वेटिंग बेहतर काम करता है।
Scortchi - को पुनः स्थापित मोनिका

@Scortchi आह, यह बहुत आसान होगा! यह भविष्यवाणी के लिए ठीक होना चाहिए जब तक कि त्रुटि अनुमानों की आवश्यकता न हो। वेटिंग आपको इंटरसेप्ट और ढलान के लिए एक अलग एसई देगा लेकिन यह तरीका न तो प्रभावित करेगा।
15
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.