दो-चरण मॉडल के निर्माण के लिए gui11aume का विचार सही रास्ता है, हालांकि, किसी को आपके सेटअप की विशेष कठिनाई पर विचार करने की आवश्यकता है जो ऋण राशि और भुगतान करने की संभावना के बीच बहुत मजबूत नकारात्मक सहसंबंध है
यहां दो-चरण मॉडल के निर्माण का प्राथमिक मुद्दा यह है कि दूसरा मॉडल (ऋण की भविष्यवाणी के लिए), जब केवल "गैर-शून्य" पर बनाया जाता है, तो आबादी की सबसे अधिक संभावना वाले गैर-यादृच्छिक नमूने पर बनाया जाता है ( यानी संपूर्ण डेटासेट), लेकिन संयुक्त मॉडल को फिर से पूरी आबादी पर लागू किया जाना है । इसका मतलब यह है कि दूसरे मॉडल को डेटा के कुछ हिस्सों के लिए भविष्यवाणियां करनी होंगी, जो पहले कभी नहीं देखा है, जिसके परिणामस्वरूप सटीकता का नुकसान हुआ है। इसे नमूना चयन पूर्वाग्रह कहा जाता है (एक एमएल परिप्रेक्ष्य से अवलोकन के लिए मैं स्मिथ और एल्कान द्वारा अस्वीकृति के लिए एक बायेसियन नेटवर्क फ्रेमवर्क की सिफारिश करता हूं )।
KDD-कप-98 ने वही समस्या, जहां एक की भविष्यवाणी करना चाहिए कि क्या एक दिग्गजों संगठन के लिए एक दाता फिर दान करने के लिए होने की संभावना है और कितना यह दान की संभावना है के साथ निपटा। इस डेटासेट में, फिर से दान करने की संभावना नकारात्मक रूप से धन की अपेक्षित राशि के साथ संबंधित थी। नमूना चयन पूर्वाग्रह भी दिखाई दिया।
जिस समाधान ने मुझे सबसे अधिक प्रभावित किया, वह है बिइंग्का ज़द्रोज़नी और चार्ल्स एल्कान द्वारा अनजान लागत और संभावनाएँ सीखना और बनाना । उन्होंने हेकमैन सुधार पर आधारित एक लागत संवेदनशील समाधान बनाया है , जो कि (नमूना) चयन पूर्वाग्रह को सही करने के लिए मेरे व्यवस्थित दृष्टिकोण का ज्ञान है।