मैं डेटा के साथ मशीन लर्निंग प्रोजेक्ट पर काम कर रहा हूं जो डेटा चयन द्वारा पहले से ही (भारी) पक्षपाती है।
मान लेते हैं कि आपके पास कठिन कूट नियमों का एक सेट है। आप इसे बदलने के लिए मशीन लर्निंग मॉडल का निर्माण कैसे करते हैं, जब इसका उपयोग करने वाला सभी डेटा उन नियमों द्वारा पहले से फ़िल्टर किया गया डेटा है?
चीजों को स्पष्ट करने के लिए, मुझे लगता है कि सबसे अच्छा उदाहरण क्रेडिट रिस्क असेसमेंट होगा : कार्य उन सभी ग्राहकों को फ़िल्टर करना है जो भुगतान करने में विफल होने की संभावना है।
- अब, आपके पास एकमात्र (लेबल किया गया) डेटा क्लाइंट्स से है जिसे नियमों के सेट द्वारा स्वीकार किया गया है, क्योंकि केवल स्वीकार करने के बाद ही आप देखेंगे कि कोई भुगतान करता है या नहीं (जाहिर है)। आपको नहीं पता कि नियमों का सेट कितना अच्छा है और वे भुगतान किए गए वितरण को कितना प्रभावित करेंगे- नहीं। इसके अतिरिक्त, आपने नियमों के सेट के कारण फिर से अस्वीकृत किए गए ग्राहकों के डेटा को हटा दिया है। तो आप नहीं जानते कि अगर उन ग्राहकों को स्वीकार कर लिया गया होता तो उनके साथ क्या होता।
उदाहरण के नियमों में से एक हो सकता है: "यदि ग्राहक की आयु <18 वर्ष है, तो स्वीकार न करें"
क्लासिफायरियर के पास यह सीखने का कोई तरीका नहीं है कि इन नियमों को फ़िल्टर करने वाले क्लाइंट को कैसे हैंडल किया जाए। यहां क्लासिफायर को पैटर्न कैसे सीखा जाता है?
इस समस्या को नजरअंदाज करते हुए, मॉडल को उस डेटा के संपर्क में लाया जाएगा जो पहले कभी सामने नहीं आया है। मूल रूप से, मैं x (x) के बाहर होने पर f (x) के मान का अनुमान लगाना चाहता हूं।