मैं एक परिमित आबादी में दुर्लभ घटनाओं का अध्ययन करना चाहूंगा। चूंकि मैं अनिश्चित हूं कि कौन सी रणनीति सबसे उपयुक्त है, मैं इस मामले से संबंधित सुझावों और संदर्भों की सराहना करूंगा, हालांकि मैं अच्छी तरह से जानता हूं कि यह काफी हद तक कवर किया गया है। मैं अभी नहीं जानता कि वास्तव में कहां से शुरू करना है।
मेरी समस्या एक राजनीतिक विज्ञान है और मेरे पास एक परिमित आबादी है जिसमें 515,843 रिकॉर्ड हैं। वे 513,334 "0" s और 2,509 "1" s के साथ एक बाइनरी निर्भर चर से जुड़े हैं। मैं अपने "1" दुर्लभ घटनाओं के रूप में सिक्का दे सकता हूं क्योंकि वे केवल 0.49% आबादी के लिए खाते हैं।
मेरे पास लगभग 10 स्वतंत्र चर का एक सेट है जिसे मैं "1" की उपस्थिति को समझाने के लिए एक मॉडल बनाना चाहता हूं। हम में से कई लोगों की तरह, मैंने दुर्लभ घटनाओं के सुधार के बारे में किंग एंड ज़ेंग के 2001 के लेख को पढ़ा । उनका दृष्टिकोण "0" s की संख्या को कम करने के लिए केस-कंट्रोल डिज़ाइन का उपयोग करना था, फिर अवरोधन में सुधार लागू करना।
हालाँकि, इस पोस्ट में कहा गया है कि किंग और ज़ेंग का तर्क आवश्यक नहीं था अगर मैं पहले से ही पूरी आबादी पर अपना डेटा एकत्र करता, जो मेरा मामला है। इसलिए, मुझे शास्त्रीय लॉगिट मॉडल का उपयोग करना होगा। दुर्भाग्य से मेरे लिए, हालांकि मैं अच्छे महत्वपूर्ण गुणांक प्राप्त करता हूं, मेरा मॉडल भविष्यवाणी के मामले में पूरी तरह से बेकार है (मेरे "1" एस के 99.48% की भविष्यवाणी करने में विफल रहता है)।
किंग एंड ज़ेंग के लेख को पढ़ने के बाद, मैं एक केस-कंट्रोल डिज़ाइन का प्रयास करना चाहता था और सभी "1" के साथ "0" के केवल 10% का चयन किया। लगभग समान गुणांक के साथ, मॉडल पूरी आबादी पर लागू होने पर "1" s के लगभग एक तिहाई की भविष्यवाणी करने में सक्षम था। बेशक, बहुत सारे झूठे-सकारात्मक हैं।
इस प्रकार मेरे तीन प्रश्न हैं जो मैं आपसे पूछना चाहता हूं:
1) यदि राजा और ज़ेंग का दृष्टिकोण जनसंख्या के बारे में पूर्ण जानकारी होने के कारण पूर्वापेक्षित है, तो वे अपनी स्थिति को साबित करने के लिए अपने लेख में जनसंख्या को जानने वाली स्थिति का उपयोग क्यों करते हैं?
2) अगर मेरे पास एक लॉजिट रिग्रेशन में अच्छे और शिथिल गुणांक हैं, लेकिन बहुत खराब भविष्य कहनेवाला शक्ति है, तो क्या इसका मतलब यह है कि इन वैरिएबल द्वारा समझाई गई भिन्नता व्यर्थ है?
3) दुर्लभ घटनाओं से निपटने के लिए सबसे अच्छा तरीका क्या है? मैंने किंग के रिग्लिट मॉडल, फर्थ के दृष्टिकोण, सटीक लॉजिट, आदि के बारे में पढ़ा। मुझे स्वीकार करना चाहिए कि मैं इन सभी समाधानों के बीच खो गया हूं।