दुर्लभ घटनाओं लॉजिस्टिक प्रतिगमन से निपटने की रणनीति


27

मैं एक परिमित आबादी में दुर्लभ घटनाओं का अध्ययन करना चाहूंगा। चूंकि मैं अनिश्चित हूं कि कौन सी रणनीति सबसे उपयुक्त है, मैं इस मामले से संबंधित सुझावों और संदर्भों की सराहना करूंगा, हालांकि मैं अच्छी तरह से जानता हूं कि यह काफी हद तक कवर किया गया है। मैं अभी नहीं जानता कि वास्तव में कहां से शुरू करना है।

मेरी समस्या एक राजनीतिक विज्ञान है और मेरे पास एक परिमित आबादी है जिसमें 515,843 रिकॉर्ड हैं। वे 513,334 "0" s और 2,509 "1" s के साथ एक बाइनरी निर्भर चर से जुड़े हैं। मैं अपने "1" दुर्लभ घटनाओं के रूप में सिक्का दे सकता हूं क्योंकि वे केवल 0.49% आबादी के लिए खाते हैं।

मेरे पास लगभग 10 स्वतंत्र चर का एक सेट है जिसे मैं "1" की उपस्थिति को समझाने के लिए एक मॉडल बनाना चाहता हूं। हम में से कई लोगों की तरह, मैंने दुर्लभ घटनाओं के सुधार के बारे में किंग एंड ज़ेंग के 2001 के लेख को पढ़ा । उनका दृष्टिकोण "0" s की संख्या को कम करने के लिए केस-कंट्रोल डिज़ाइन का उपयोग करना था, फिर अवरोधन में सुधार लागू करना।

हालाँकि, इस पोस्ट में कहा गया है कि किंग और ज़ेंग का तर्क आवश्यक नहीं था अगर मैं पहले से ही पूरी आबादी पर अपना डेटा एकत्र करता, जो मेरा मामला है। इसलिए, मुझे शास्त्रीय लॉगिट मॉडल का उपयोग करना होगा। दुर्भाग्य से मेरे लिए, हालांकि मैं अच्छे महत्वपूर्ण गुणांक प्राप्त करता हूं, मेरा मॉडल भविष्यवाणी के मामले में पूरी तरह से बेकार है (मेरे "1" एस के 99.48% की भविष्यवाणी करने में विफल रहता है)।

किंग एंड ज़ेंग के लेख को पढ़ने के बाद, मैं एक केस-कंट्रोल डिज़ाइन का प्रयास करना चाहता था और सभी "1" के साथ "0" के केवल 10% का चयन किया। लगभग समान गुणांक के साथ, मॉडल पूरी आबादी पर लागू होने पर "1" s के लगभग एक तिहाई की भविष्यवाणी करने में सक्षम था। बेशक, बहुत सारे झूठे-सकारात्मक हैं।

इस प्रकार मेरे तीन प्रश्न हैं जो मैं आपसे पूछना चाहता हूं:

1) यदि राजा और ज़ेंग का दृष्टिकोण जनसंख्या के बारे में पूर्ण जानकारी होने के कारण पूर्वापेक्षित है, तो वे अपनी स्थिति को साबित करने के लिए अपने लेख में जनसंख्या को जानने वाली स्थिति का उपयोग क्यों करते हैं?

2) अगर मेरे पास एक लॉजिट रिग्रेशन में अच्छे और शिथिल गुणांक हैं, लेकिन बहुत खराब भविष्य कहनेवाला शक्ति है, तो क्या इसका मतलब यह है कि इन वैरिएबल द्वारा समझाई गई भिन्नता व्यर्थ है?

3) दुर्लभ घटनाओं से निपटने के लिए सबसे अच्छा तरीका क्या है? मैंने किंग के रिग्लिट ​​मॉडल, फर्थ के दृष्टिकोण, सटीक लॉजिट, आदि के बारे में पढ़ा। मुझे स्वीकार करना चाहिए कि मैं इन सभी समाधानों के बीच खो गया हूं।


संख्या परिचित लग रहा है ... किसी भी संयोग से एक जातीय संघर्ष के बारे में डेटासेट? यदि यो, यह एक समय श्रृंखला है - मैंने एक जातीय संघर्ष के अध्ययन में बड़ी सफलता के लिए एक अस्तित्व मॉडल का इस्तेमाल किया ...
ईसाई सोअर

पर्याप्त नजदीक। यह अफ्रीका में संघर्ष की घटनाओं के स्थान के बारे में एक डेटासेट है। हालांकि, मैं समय के लिए लेखांकन के बिना इन घटनाओं के स्थान का अध्ययन करता हूं।
डेमियन

1
आह, मेरे बहुत से मामले अफ्रीका से आए हैं, क्योंकि वहां जातीय संघर्ष उग्र हैं। क्या आप भौगोलिक अध्ययन करते हैं? क्या समय का हिसाब देना बहुत बड़ी समस्या होगी? मुझे यह वास्तव में उपयोगी लगा, विशेष रूप से इस तथ्य के कारण कि कुछ चर समय (राजनीतिक प्रणाली, शीत युद्ध आदि) के साथ बदल रहे हैं
क्रिश्चियन सॉयर

मैं UCDP के GED डेटासेट का उपयोग कर रहा हूं जो 1989-2010 की अवधि को कवर करता है। मुझे उन भौगोलिक कारकों में दिलचस्पी है जो संघर्ष की घटनाओं के स्थान में भूमिका निभा सकते हैं। समय भिन्नता निश्चित रूप से कहने के लिए बहुत कुछ है, लेकिन उत्तर दिए गए प्रश्न अलग हैं। इसके अलावा, मेरे कई स्वतंत्र चर अलग-अलग अवधियों (भूमि आवरण) के लिए अनुपलब्ध हैं या बिल्कुल भी नहीं बदले हैं (स्थलाकृति)
डेमियन

1
"(मेरे" 1 "s के 99.48% की भविष्यवाणी करने में विफल रहता है)।" आप की तरह इस लगता है कुछ मनमाने ढंग से कटऑफ नियम का उपयोग कर रहे हैं वर्गीकृत करने के लिए है, जबकि रसद प्रतिगमन के पूरे विचार है कि उत्पादन एक संभावना है [0.5 जैसे!] - यह गलत परिणामों की / नकारात्मक संतुलन के लिए सीमा तय करने के लिए आप पर निर्भर है
seanv507

जवाबों:


17

(१) यदि आपको "जनसंख्या का पूर्ण ज्ञान है" तो आपको भविष्यवाणियाँ करने के लिए एक मॉडल की आवश्यकता क्यों है? मुझे संदेह है कि आप एक काल्पनिक सुपर-आबादी से नमूने के रूप में उन पर विचार कर रहे हैं - यहां और यहां देखें । तो क्या आपको अपने नमूने से टिप्पणियों को दूर फेंकना चाहिए? राजा और ज़ेंग इसकी वकालत नहीं करते हैं:

[...] अंतरराष्ट्रीय संबंधों जैसे क्षेत्रों में, अवलोकन योग्य 1 (जैसे कि युद्ध) की संख्या सख्ती से सीमित है, इसलिए अधिकांश अनुप्रयोगों में सभी उपलब्ध 1 या उनमें से एक बड़ा नमूना इकट्ठा करना सबसे अच्छा है। एकमात्र वास्तविक निर्णय तो कितने 0 को भी इकट्ठा करना है। अगर 0 को इकट्ठा करना महंगा है, तो हमें जितने भी आंकड़े मिल सकते हैं, उन्हें इकट्ठा करना चाहिए, क्योंकि अधिक डेटा हमेशा बेहतर होता है।

Y

(२) यहां मुख्य मुद्दा आपके मॉडल के पूर्वानुमान के प्रदर्शन का आकलन करने के लिए अनुचित स्कोरिंग नियम का उपयोग है। मान लीजिए कि आपका मॉडल सही था , इसलिए कि किसी भी व्यक्ति के लिए आपको एक दुर्लभ घटना की संभावना पता थी - कहते हैं कि अगले महीने में एक सांप ने काट लिया। एक मनमानी प्रायिकता काट-छाँट करके और यह अनुमान लगाकर कि आप इसे काटेंगे और इससे नीचे वाले नहीं होंगे, इससे अधिक आप क्या सीखते हैं? यदि आप कट-ऑफ 50% बनाते हैं, तो आप अनुमान लगाएंगे कि कोई भी काट नहीं पाएगा। यदि आप इसे कम करते हैं तो आप अनुमान लगा सकते हैं कि हर कोई काट लेगा। तो क्या? एक मॉडल के संवेदनशील आवेदन में भेदभाव की आवश्यकता होती है - जिसे केवल एंटी-वेनम की शीशी दी जानी चाहिए? - या अंशांकन-जिनके लिए यह जूते खरीदने के लायक है, उनकी लागत सांप के काटने के सापेक्ष दी गई है ?।


जवाब देने के लिए धन्यवाद। (1) के बारे में, क्या भविष्य में होने वाली घटनाओं की संभावना को ध्यान में रखते हुए अब तक की गई टिप्पणियों के नमूने के बारे में बोलना अधिक उचित होगा? (2) के बारे में, मैंने एक पल बिताने की कोशिश की कि स्कोरिंग नियम क्या है। यदि मैं विकिपीडिया लेख को सही ढंग से समझता हूं, मुझे स्कोरिंग फ़ंक्शन को संभाव्यता के विभिन्न मूल्यों में भिन्न होना चाहिए, जिसके लिए घटना होने की उम्मीद है, तो कटऑफ मान के रूप में चुनें, जिसमें संभावना सबसे अधिक थी। अगर मैं लॉगरिदमिक स्कोरिंग नियम चुनता हूं, तो मुझे अपेक्षित मूल्य कैसे लागू करना चाहिए?
डेमियन

1
R2

@Sortchi; तो क्या आप लॉजिस्टिक रिग्रेशन का उपयोग करने की वकालत करेंगे, या नहीं, ऑप्स की संख्या / मामलों की संख्या के लिए (जैसे ~ 10 निरंतर भविष्यवाणियों के साथ), यदि किसी मामले की संभावना की आवश्यकता होती है, जो लगता है कि इसे कम करके आंका गया है? धन्यवाद
user2957945

3

एक स्तर पर, मुझे आश्चर्य है कि आपके मॉडल की अशुद्धि कितनी है कि आपकी प्रक्रिया का अनुमान लगाना कठिन है, और आपके चर ऐसा करने के लिए पर्याप्त नहीं हैं। क्या अन्य चर हैं जो अधिक व्याख्या कर सकते हैं?

दूसरी ओर, यदि आप अपने आश्रित चर को एक गिनती / क्रमिक समस्या (जैसे संघर्ष से हताहत, या संघर्ष की अवधि) के रूप में डाल सकते हैं, तो आप शून्य-प्रवर्धित गणना प्रतिगमन या बाधा मॉडल का प्रयास कर सकते हैं। इनमें 0 और 1 के बीच खराब परिभाषा का एक ही मुद्दा हो सकता है, लेकिन कुछ विरोधाभास जो आपके चर के साथ सहसंबद्ध हैं, शून्य से दूर खींच सकते हैं।


4
(+1) अच्छे सुझाव। मैं हालांकि वीणा करना चाहता हूं, कि मॉडल की "अशुद्धि" केवल 50% से अधिक संभावनाओं का अनुमान लगाने में विफलता है। यदि "1" s में आमतौर पर "0" s के लिए 0.5% से कम की तुलना में 10% से 40% की संभावनाएं हैं, तो - यह कि कई अनुप्रयोगों में मजबूत भविष्य कहनेवाला प्रदर्शन माना जाएगा।
Scortchi - को पुनः स्थापित मोनिका

2

बहुसंख्यक आबादी को नीचा दिखाने के अलावा, आप दुर्लभ घटनाओं को भी देख सकते हैं, लेकिन इस बात से अवगत रहें कि अल्पसंख्यक वर्ग की निगरानी के कारण ओवरफिटिंग हो सकती है, इसलिए चीजों को ध्यान से देखें।

यह कागज इसके बारे में अधिक जानकारी दे सकता है: याप, बी वाह, एट अल। "असंतुलित डेटासेट को संभालने में ओवरसम्पलिंग, अंडरसम्पलिंग, बैगिंग और बूस्टिंग का एक अनुप्रयोग।" पीडीएफ

इसके अलावा, मैं इस प्रश्न को जोड़ना चाहूंगा क्योंकि यह उसी मुद्दे पर भी चर्चा करता है


0

आपका सवाल यह है कि मैं एक बेहतर समाधान खोजने के लिए लॉज रिग्रेशन को कैसे सह सकता हूं। लेकिन क्या आप यह भी सुनिश्चित करते हैं कि एक बेहतर समाधान मौजूद है? केवल दस मापदंडों के साथ, क्या आप एक बेहतर समाधान खोजने में सक्षम थे?

मैं उदाहरण के लिए इनपुट पर उत्पाद की शर्तों को जोड़कर या लक्ष्य पक्ष पर अधिकतम-आउट परत जोड़कर एक और अधिक जटिल मॉडल की कोशिश करूँगा (ताकि आपके पास अनिवार्य रूप से लक्ष्य 1s के विभिन्न अनुकूलतम खोजे गए संपत्तियों के लिए कई लॉजिस्टिक रजिस्टर्स हों)।


आपके उत्तर के लिए धन्यवाद। मैं निश्चित रूप से अपने चर को अलग-अलग तरीकों से संयोजित करने का प्रयास करूंगा। लेकिन इससे पहले, मैं यह जानना चाहता हूं कि क्या मेरे मॉडल का खराब प्रदर्शन तकनीकी मुद्दों से या कहीं और से आया है
डेमियन

-1

बड़ा सवाल है।

मेरे दिमाग में, यह मुद्दा यह है कि क्या आप इंट्रेंस करने की कोशिश कर रहे हैं (क्या आप अपने गुणांक में आपको बता रहे हैं?) या भविष्यवाणी में रुचि रखते हैं। यदि बाद वाला, तो आप मशीन लर्निंग (BART, randomForest, boosted dogs, आदि) से मॉडल उधार ले सकते हैं, जो निश्चित रूप से लॉजिट की तुलना में भविष्यवाणी पर एक बेहतर काम करेंगे। यदि आप अनुमान लगा रहे हैं, और आपके पास बहुत सारे डेटा पॉइंट्स हैं, तो समझदार बातचीत की शर्तों, बहुपद शब्दों आदि को आज़माएं, वैकल्पिक रूप से, आप BART से इस पेपर में, जैसा कि आप कर सकते हैं:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

मैं हाल ही में दुर्लभ घटनाओं पर कुछ काम कर रहा हूं, और पहले से कोई विचार नहीं था कि कितने दुर्लभ मामले विश्लेषण को प्रभावित कर सकते हैं। 0-मामलों का नमूना लेना अनिवार्य है। आदर्श डाउन-सैंपल अनुपात को खोजने के लिए एक रणनीति होगी

  1. अपने सभी 1s लें, मान लें कि आपके पास उनमें से n1 है।
  2. कुछ मान सेट करें z = आप ड्रा करेंगे n1 के कई; शायद 5 से शुरू करें और 1 तक कम करें।
  3. ड्रा z * n1 0 अवलोकनों
  4. अपने मॉडल को अपने सबसेट डेटा के नमूने पर अनुमानित करें, यह सुनिश्चित करते हुए कि आप संपूर्ण डेटासेट पर क्रॉस-मान्य हैं
  5. आपके द्वारा रुचि रखने वाले प्रासंगिक फिट उपायों को सहेजें: रुचि के गुणांक, एक आरओसी वक्र का एयूसी, एक गोपनीय मैट्रिक्स में प्रासंगिक मान आदि।
  6. क्रमिक रूप से छोटे zs के लिए चरण 2: 5 को दोहराएं। आपको शायद पता चलेगा कि जैसे-जैसे आप सैंपल डाउन करते जाते हैं, वैसे-वैसे झूठ (पॉजिटिव) से झूठे पॉजिटिव रेशो (आपके टेस्ट-सेट में) में कमी आती जाएगी। यही है, आप अधिक 1s की भविष्यवाणी करना शुरू करेंगे, उम्मीद है कि वास्तव में 1s हैं, लेकिन कई ऐसे भी हैं जो वास्तव में 0s हैं। यदि इस गर्भपात में एक काठी बिंदु है, तो यह एक अच्छा डाउन-सैंपल अनुपात होगा।

उम्मीद है की यह मदद करेगा। जे एस


1
(-1) लॉजिस्टिक रिग्रेशन के लिए डाउन-सैंपल की जरूरत नहीं। यहाँ देखें ; प्रतिक्रिया पर चयन केवल अपेक्षित अवरोधन को बदलता है, इसलिए डाउन-सैंपलिंग से केवल अनुमानित अंतर अनुपात की सटीकता कम हो जाती है। लॉजिस्टिक रिग्रेशन आपको अनुमानित संभावनाएं देता है, जिसका उपयोग आप विभिन्न प्रकार के गलत-वर्गीकरण की लागतों को लेने के लिए गणना किए गए कट-ऑफ का उपयोग करके वर्गीकृत करने के लिए कर सकते हैं, या व्यक्तियों को रैंक करने के लिए उपयोग कर सकते हैं, या अपने आप में रुचि रख सकते हैं।
Scortchi - को पुनः स्थापित मोनिका

आप ध्यान देंगे कि मैंने लॉजिस्टिक रिग्रेशन का उपयोग करने का उल्लेख नहीं किया है, और इसके बजाय यह सुझाव दिया है कि ऐसे तरीके हैं (जैसे डाउन-सैंपल BART) जो शायद दुर्लभ मामलों के लिए अधिक उपयुक्त हैं।
जिम

लॉजिस्टिक रिग्रेशन के बारे में प्रश्न, और क्या इसे करते समय डाउन-सैंपल, और जब आप "समझदार बातचीत की शर्तों, बहुपद शब्दों सहित" के बारे में लिखते हैं, तो लॉजिस्टिक रिग्रेशन पर चर्चा करते हैं; इसलिए यह स्पष्ट नहीं है कि डाउन-सैंपलिंग पर आपकी सलाह केवल वैकल्पिक तरीकों के साथ उपयोग करने के लिए है: शायद आप इसे स्पष्ट करने के लिए अपने उत्तर को संपादित करने पर विचार करेंगे।
Scortchi - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.