द्विआधारी और निरंतर प्रतिक्रिया को संयोजित करने का सबसे अच्छा तरीका


10

मैं एक संग्रह एजेंसी के लिए भुगतान राशि की भविष्यवाणी करने के लिए सबसे अच्छे तरीके से आने की कोशिश कर रहा हूं। भुगतान किए जाने पर आश्रित चर केवल गैर-शून्य होता है। जाहिर है, वहाँ शून्य की एक भारी संख्या है क्योंकि अधिकांश लोगों तक नहीं पहुंचा जा सकता है या ऋण वापस नहीं चुका सकता है।

ऋण राशि और भुगतान करने की संभावना के बीच एक बहुत मजबूत नकारात्मक सहसंबंध भी है। आमतौर पर, मैं भुगतान / गैर-भुगतान की संभावना का अनुमान लगाने के लिए एक लॉजिस्टिक मॉडल बनाऊंगा लेकिन इसका सबसे कम संतुलन वाले लोगों को खोजने का दुर्भाग्यपूर्ण परिणाम है।

क्या भुगतान राशि की भविष्यवाणी करने वाले एक अलग मॉडल के साथ लॉजिस्टिक पे / नॉन-पे मॉडल को संयोजित करने का कोई तरीका है?


5
शून्य-फुलाया हुआ लॉग-सामान्य प्रतिगमन है, जो आपकी आवश्यकताओं के अनुरूप लगता है। देखें इस पत्र
पीटर Flom

@PeterFlom आपको कैसे लगता है कि यह gui11aume और स्टीफ़न की चर्चा के बारे में दो-चरण मॉडल और नमूना चयन पूर्वाग्रह के साथ तुलना करता है?
As3adTintin

1
मुझे लगता है कि दोनों उपयोगी हो सकते हैं। दोनों की तुलना करने पर चर्चा हुई है, लेकिन मैं भूल जाता हूं कि मैंने इसे कहां पढ़ा है।
पीटर फ्लोम

मैं जो कर रहा था वह उत्पादन के लिए एक रिले सक्रियण के साथ एक तंत्रिका नेटवर्क बना रहा था और इसका मतलब है लघुगणक नुकसान
ज़ेलाज़नी

ठीक है धन्यवाद। तंत्रिका नेटवर्क / रिले सक्रियण मेरे वर्तमान ज्ञान से परे लगता है, लेकिन मैं इन पर ध्यान देता रहूंगा। मूल प्रश्न पूछने और टिप्पणियों के लिए धन्यवाद!
21344 पर As3adTintin

जवाबों:


6

दो-चरण मॉडल के निर्माण के लिए gui11aume का विचार सही रास्ता है, हालांकि, किसी को आपके सेटअप की विशेष कठिनाई पर विचार करने की आवश्यकता है जो ऋण राशि और भुगतान करने की संभावना के बीच बहुत मजबूत नकारात्मक सहसंबंध है

यहां दो-चरण मॉडल के निर्माण का प्राथमिक मुद्दा यह है कि दूसरा मॉडल (ऋण की भविष्यवाणी के लिए), जब केवल "गैर-शून्य" पर बनाया जाता है, तो आबादी की सबसे अधिक संभावना वाले गैर-यादृच्छिक नमूने पर बनाया जाता है ( यानी संपूर्ण डेटासेट), लेकिन संयुक्त मॉडल को फिर से पूरी आबादी पर लागू किया जाना है । इसका मतलब यह है कि दूसरे मॉडल को डेटा के कुछ हिस्सों के लिए भविष्यवाणियां करनी होंगी, जो पहले कभी नहीं देखा है, जिसके परिणामस्वरूप सटीकता का नुकसान हुआ है। इसे नमूना चयन पूर्वाग्रह कहा जाता है (एक एमएल परिप्रेक्ष्य से अवलोकन के लिए मैं स्मिथ और एल्कान द्वारा अस्वीकृति के लिए एक बायेसियन नेटवर्क फ्रेमवर्क की सिफारिश करता हूं )।

KDD-कप-98 ने वही समस्या, जहां एक की भविष्यवाणी करना चाहिए कि क्या एक दिग्गजों संगठन के लिए एक दाता फिर दान करने के लिए होने की संभावना है और कितना यह दान की संभावना है के साथ निपटा। इस डेटासेट में, फिर से दान करने की संभावना नकारात्मक रूप से धन की अपेक्षित राशि के साथ संबंधित थी। नमूना चयन पूर्वाग्रह भी दिखाई दिया।

जिस समाधान ने मुझे सबसे अधिक प्रभावित किया, वह है बिइंग्का ज़द्रोज़नी और चार्ल्स एल्कान द्वारा अनजान लागत और संभावनाएँ सीखना और बनाना । उन्होंने हेकमैन सुधार पर आधारित एक लागत संवेदनशील समाधान बनाया है , जो कि (नमूना) चयन पूर्वाग्रह को सही करने के लिए मेरे व्यवस्थित दृष्टिकोण का ज्ञान है।


+1 आपका दूसरा पैराग्राफ बहुत अच्छी तरह से मेरे उत्तर में गायब है।
गुई ११ जुमे २४'१२

शून्य-फुलाए गए लॉग-सामान्य प्रतिगमन के पीटर फ्लॉम के सुझाव के साथ इसकी तुलना कैसे की जाती है?
As3adTintin

3

यह एक बहुत अच्छा सवाल है (+1)।

0s के साथ ऐसा क्यों नहीं मानें कि वे NA हैं?

आप एक डमी प्रतिक्रिया जोड़ सकते हैं जो यह बताती है कि क्या कोई धनराशि बरामद हुई है ( अर्थात जब मूल्य 0 के बराबर है, और 1 जब मूल्य सकारात्मक है) और इसी भविष्यवक्ताओं के साथ इस द्विआधारी प्रतिक्रिया पर एक लॉजिस्टिक मॉडल फिट करें। आप 2 मॉडल फिट करेंगे: सभी डेटा बिंदुओं का उपयोग करके द्विआधारी प्रतिक्रिया, और केवल गैर शून्य डेटा बिंदुओं का उपयोग करके निरंतर प्रतिक्रिया (एनए के रूप में 0 के उपचार के विचार के अनुरूप)।

आप अभी भी प्रत्येक मॉडल में मापदंडों की अशक्तता का परीक्षण कर सकते हैं और पैरामेट्स के दोनों सेटों का उपयोग करके अपेक्षित लाभ की गणना कर सकते हैं।


सुझाव के लिए धन्यवाद। मेरे प्रश्न से पहले मैंने आपके द्वारा वर्णित के समान दो निर्भर चर और डेटासेट बनाए थे। क्या आप "अभी भी दृष्टान्तों की अशक्तता" से क्या मतलब निकाल सकते हैं? धन्यवाद!
ज़ेलज़नी 7

"फिर भी मापदंडों की शून्यता" एक टाइपो था जो मैंने पाठ में तय किया था। इसके बारे में क्षमा करें :-)
gui11aume
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.