कम घटना दर के साथ लॉजिस्टिक प्रतिगमन लागू करना


15

मेरे पास एक डेटासेट है जिसमें घटना की दर बहुत कम है ( 40,000 )। मैं इस पर लॉजिस्टिक रिग्रेशन लागू कर रहा हूं। मैंने किसी ऐसे व्यक्ति के साथ चर्चा की है जहां यह सामने आया है कि लॉजिस्टिक रिग्रेशन ऐसे कम घटना दर डेटा पर अच्छा भ्रम मैट्रिक्स नहीं देगा। लेकिन व्यवसाय की समस्या और जिस तरह से इसे परिभाषित किया गया है, उसके कारण मैं घटनाओं की संख्या को 40,000 से बढ़ाकर किसी भी बड़ी संख्या में नहीं कर सकता, हालांकि मैं मानता हूं कि मैं कुछ अयोग्य आबादी को हटा सकता हूं।12105

कृपया मुझे इस पर अपने विचार बताएं, विशेष रूप से:

  1. क्या लॉजिस्टिक रिग्रेशन की सटीकता घटना दर पर निर्भर करती है या क्या कोई न्यूनतम घटना दर है जो अनुशंसित है?
  2. क्या कम घटना दर डेटा के लिए कोई विशेष तकनीक है?
  3. क्या मेरे मॉडल की सटीकता के लिए मेरी अयोग्य जनसंख्या को हटाना अच्छा होगा?

मैं सांख्यिकीय मॉडलिंग के लिए नया हूं इसलिए अपनी अज्ञानता को क्षमा करें और कृपया किसी भी संबद्ध मुद्दे को संबोधित करें जिसके बारे में मैं सोच सकता था।

धन्यवाद,


3
40000 / 12e5 = 3.3%, यह मेरे लिए बहुत कम दर नहीं दिखता है।
GaBorgulya

1
धन्यवाद ga..in मामला लोगों को कम और उच्च घटना दर तय करने के लिए अधिक संदर्भ की आवश्यकता है, यह डेटा बीमा क्षेत्र का है।
आयुष बियानी

जवाबों:


11

मैं आपके प्रश्नों का उत्तर देने जा रहा हूँ:

3 क्या मेरे मॉडल की सटीकता के लिए मेरी अयोग्य आबादी को हटाना अच्छा होगा?

प्रत्येक अवलोकन पैरामीटर के बारे में कुछ अतिरिक्त जानकारी प्रदान करेगा (संभावना समारोह के माध्यम से)। इसलिए डेटा को हटाने का कोई मतलब नहीं है, क्योंकि आप सिर्फ जानकारी खो रहे होंगे।

1 क्या लॉजिस्टिक रिग्रेशन की सटीकता घटना दर पर निर्भर करती है या क्या कोई न्यूनतम घटना दर है जो अनुशंसित है?

तकनीकी रूप से, हाँ: एक दुर्लभ अवलोकन बहुत अधिक जानकारीपूर्ण है (यानी, संभावना समारोह स्थिर रहेगा)। यदि आपका ईवेंट अनुपात 50:50 था, तो आपको डेटा की समान मात्रा के लिए बहुत अधिक आत्मविश्वास वाले बैंड (या विश्वसनीय अंतराल) मिलेंगे । हालाँकि, आपको अपना ईवेंट रेट चुनने की ज़रूरत नहीं है (जब तक कि आप केस-कंट्रोल स्टडी नहीं कर रहे हैं), इसलिए आपको वही करना होगा जो आपके पास है।

2 क्या कम घटना दर डेटा के लिए कोई विशेष तकनीक है?

सबसे बड़ी समस्या जो उत्पन्न हो सकती है, वह है पूर्ण अलगाव : यह तब होता है जब चर का कुछ संयोजन सभी गैर-ईवेंट (या सभी ईवेंट) देता है: इस मामले में, अधिकतम संभावना पैरामीटर अनुमान (और उनकी मानक त्रुटियां), अनन्तता का दृष्टिकोण करेगा (हालांकि आमतौर पर एल्गोरिथ्म पहले से बंद हो जाएगा)। दो संभावित उपाय हैं:

ए) मॉडल से भविष्यवाणियों को हटाने: हालांकि यह आपके एल्गोरिथ्म को अभिसरण करेगा, आप सबसे अधिक व्याख्यात्मक शक्ति के साथ चर को हटा देंगे, इसलिए यह केवल तभी समझ में आता है जब आपका मॉडल शुरू करने के लिए ओवरफिट कर रहा था (जैसे कि फिटिंग बहुत जटिल बातचीत) ।

बी) कुछ प्रकार के दंड का उपयोग करें, जैसे कि पूर्व वितरण, जो अनुमानों को अधिक उचित मूल्यों पर वापस सिकोड़ देगा।


+1 मैं बस यह भी जोड़ूंगा कि मैंने ऐसे संदर्भ देखे हैं जहां लोगों ने अपने डेटा को 50:50 पर पुन: लोड किया है। ट्रेडऑफ़ को मॉडल को वर्गीकृत करने की क्षमता में सुधार (एक अच्छी सीमा को चुनना) माना जाता है। कुल मिलाकर व्यापकता के बारे में जानकारी का कुछ नुकसान बनाम और गुणांक की व्याख्या करने में कुछ अतिरिक्त कठिनाई।
डेविड जे। हैरिस

1
@ डेविड: मैंने लोगों को पुन: लोड करने और जटिल छद्म बूटस्ट्रैप योजनाओं का उपयोग करने के बारे में भी सुना है, जहां वे केवल उच्च-आवृत्ति वर्ग को फिर से बनाते हैं। इन सभी तकनीकों के लिए, आप अंततः डेटा को फेंक रहे हैं (या बना रहे हैं)। मेरा तर्क है कि यदि यह आपके मॉडल में सुधार करता है, तो आप शायद गलत मॉडल फिट कर रहे हैं। मेरी टिप्पणियाँ यहाँ भी देखें: आंकड़े
साइमन बायरन

1) क्षमा करें यदि मैं स्पष्ट नहीं था: मैं आर के glmफ़ंक्शन में "वेट्स" तर्क के साथ, घटनाओं और यन्त्रों के सापेक्ष प्रभाव को बदलने के बारे में बात कर रहा था । सबसे खराब रूप से, यह प्रत्येक डाउनडाउन डेटा पॉइंट का हिस्सा फेंकने जैसा है, मुझे लगता है, लेकिन यह वास्तव में एक ही बात नहीं है। 2) जैसा कि मैंने कहा, इस निर्णय से जुड़े ट्रेडऑफ हैं। यह संभवत: संदर्भों में सबसे अधिक समझ में आता है, जहां से नमूना किया जा रहा है आबादी अच्छी तरह से परिभाषित नहीं है और सही घटना दर के साथ शुरू करने के लिए सार्थक नहीं है। मैं निश्चित रूप से बोर्ड में इसकी सिफारिश नहीं करूंगा।
डेविड जे। हैरिस

2

अस्थायी या स्थानिक डेटा के लिए नोवेन्ट्स को हटाने का एक बेहतर विकल्प है: आप अपने डेटा को समय / स्थान पर एकत्र कर सकते हैं, और पॉइसन के रूप में गणना कर सकते हैं। उदाहरण के लिए, यदि आपकी घटना "एक्स पर ज्वालामुखी विस्फोट होता है", तो कई दिनों तक ज्वालामुखी विस्फोट नहीं होगा। हालांकि, यदि आप सप्ताह या महीनों में दिनों को एक साथ समूहित करते हैं, उदाहरण के लिए "महीने X पर ज्वालामुखी विस्फोट की संख्या", तो आपने घटनाओं की संख्या कम कर दी होगी, और अधिक घटनाओं में नॉनज़ेरो मान होंगे।


6
मेरा कहना है कि यह सलाह सवाल का जवाब नहीं देती है। 1) उनके सवाल में कुछ भी नहीं है जो सुझाव देता है कि ओपी स्थानिक या अस्थायी डेटा के साथ काम कर रहा है। 2) किसी भी सार्थक संबंधों की पहचान करने के लिए डेटा एकत्रीकरण कैसे मदद करता है (यह मूल इकाइयों की तुलना में कम जानकारी का उपयोग करता है!)
एंडी डब्ल्यू

2
एक नोट के रूप में, किसी भी देखे गए संबंध के लिए एक एकत्रित स्तर पर होने के लिए इसे मूल इकाइयों के स्तर में मौजूद होना चाहिए, हालांकि एकत्र किए गए स्तर पर एक संबंध आवश्यक रूप से प्रतिबिंबित नहीं करता है कि दो चर के बीच संबंध क्या है स्तर। Qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
एंडी डब्ल्यू

andy से सहमत
आयुष बियानी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.