मशीन लर्निंग में बायस्ड डेटा


18

मैं डेटा के साथ मशीन लर्निंग प्रोजेक्ट पर काम कर रहा हूं जो डेटा चयन द्वारा पहले से ही (भारी) पक्षपाती है।

मान लेते हैं कि आपके पास कठिन कूट नियमों का एक सेट है। आप इसे बदलने के लिए मशीन लर्निंग मॉडल का निर्माण कैसे करते हैं, जब इसका उपयोग करने वाला सभी डेटा उन नियमों द्वारा पहले से फ़िल्टर किया गया डेटा है?

चीजों को स्पष्ट करने के लिए, मुझे लगता है कि सबसे अच्छा उदाहरण क्रेडिट रिस्क असेसमेंट होगा : कार्य उन सभी ग्राहकों को फ़िल्टर करना है जो भुगतान करने में विफल होने की संभावना है।

  • अब, आपके पास एकमात्र (लेबल किया गया) डेटा क्लाइंट्स से है जिसे नियमों के सेट द्वारा स्वीकार किया गया है, क्योंकि केवल स्वीकार करने के बाद ही आप देखेंगे कि कोई भुगतान करता है या नहीं (जाहिर है)। आपको नहीं पता कि नियमों का सेट कितना अच्छा है और वे भुगतान किए गए वितरण को कितना प्रभावित करेंगे- नहीं। इसके अतिरिक्त, आपने नियमों के सेट के कारण फिर से अस्वीकृत किए गए ग्राहकों के डेटा को हटा दिया है। तो आप नहीं जानते कि अगर उन ग्राहकों को स्वीकार कर लिया गया होता तो उनके साथ क्या होता।

उदाहरण के नियमों में से एक हो सकता है: "यदि ग्राहक की आयु <18 वर्ष है, तो स्वीकार न करें"

क्लासिफायरियर के पास यह सीखने का कोई तरीका नहीं है कि इन नियमों को फ़िल्टर करने वाले क्लाइंट को कैसे हैंडल किया जाए। यहां क्लासिफायर को पैटर्न कैसे सीखा जाता है?

इस समस्या को नजरअंदाज करते हुए, मॉडल को उस डेटा के संपर्क में लाया जाएगा जो पहले कभी सामने नहीं आया है। मूल रूप से, मैं x (x) के बाहर होने पर f (x) के मान का अनुमान लगाना चाहता हूं।


8
जिस तरह से यह आमतौर पर क्रेडिट जोखिम मूल्यांकन में संभाला जाता है, वह नियमों द्वारा आवेदकों के एक निश्चित अनुपात को फ़िल्टर नहीं करना है। आवेदकों की एक छोटी संख्या को बेतरतीब ढंग से भर्ती किया जाता है, और इस तरह से ध्वजांकित किया जाता है।
मैथ्यू ड्र्यू

यह जानना वास्तव में अच्छा है। शायद मैं भी ऐसा करने के लिए चीजें सेट कर सकता हूं।
लक्ष्मण नाथन

1
जब मैं इस समस्या को गैर-विशेषज्ञों को समझाता हूं, तो मैं एक क्लाउड (वास्तविकता) खींचता हूं, और एक बहुभुज क्लाउड (मॉडल) को अंजाम देता है। मैं झूठी सकारात्मक त्रुटियों और झूठी नकारात्मक त्रुटियों को दिखाता हूं। यह स्पष्ट रूप से स्पष्ट है कि मुझे मॉडल को बेहतर बनाने के लिए दोनों त्रुटियों की आवश्यकता है, इसलिए क्लाउड को लगभग बेहतर करना।
13

अभी मेरी प्रस्तुति की तैयारी है। यह सादृश्य वास्तव में काम आता है, धन्यवाद!
लैकसन नाथन

इसे अन्वेषण-शोषण दुविधा कहा जाता है।
2150 बजे seanv507

जवाबों:


12

आप चिंतित होने के लिए सही हैं - यहां तक ​​कि सबसे अच्छे मॉडल शानदार रूप से विफल हो सकते हैं यदि आउट-ऑफ-सैंपल डेटा का वितरण उस डेटा के वितरण से काफी भिन्न होता है जिस पर मॉडल को प्रशिक्षित / परीक्षण किया गया था।

मुझे लगता है कि आप जो सबसे अच्छा कर सकते हैं, वह उस लेबल किए गए डेटा पर एक मॉडल को प्रशिक्षित करना है जो आपके पास है, लेकिन मॉडल को व्याख्यापूर्ण रखने की कोशिश करें। इसका मतलब है कि केवल सरल मॉडल तक सीमित होने का मतलब है। फिर, आप यह अनुमान लगाने का प्रयास कर सकते हैं कि आपके मॉडल द्वारा सीखे गए नियम आपके द्वारा पूर्व नियमों के साथ बातचीत कर सकते हैं, यह अनुमान लगाने की कोशिश में कि आपका मॉडल अनफ़िल्टर्ड आबादी पर कितना अच्छा काम कर सकता है।

उदाहरण के लिए - मान लीजिए, आपका मॉडल पाता है कि आपके लेबल किए गए डेटासेट में, जो छोटा ग्राहक है, उसके डिफ़ॉल्ट होने की अधिक संभावना है। तब यह मान लेना उचित हो सकता है कि आपका मॉडल अच्छा काम करेगा यदि आपने "यदि ग्राहक की आयु <18 वर्ष है, तो पहले स्वीकार न करें" को हटा दिया है।


4

मुझे यकीन नहीं है कि मैं उस प्रश्न को पूरी तरह से समझ पा रहा हूं, लेकिन अभी तक मैं समझता हूं कि आप यह पूछ रहे हैं कि किसी क्लासिफायरियर को पहले से देखे गए नमूनों के डोमेन के बाहर के नमूनों पर भविष्यवाणी करने के लिए कैसे प्रशिक्षित किया जाए। यह आम तौर पर बोल रहा है और जहां तक ​​मुझे पता है, संभव नहीं है। मशीन लर्निंग सिद्धांत "अनुभवजन्य जोखिम न्यूनतमकरण" के विचार पर आधारित है, जो यह मानकर उबलता है कि आपका प्रशिक्षण सेट नमूनों और लेबल पर आपके सही वितरण का एक अच्छा अनुमान है। यदि उस धारणा का उल्लंघन किया जाता है, तो वास्तव में कोई गारंटी नहीं है।

आप अनलिस्टेड डेटा का उल्लेख करते हैं - मुझे नहीं पता कि यह आपकी समस्या को हल करेगा, लेकिन अर्ध-पर्यवेक्षित शिक्षण में लेबल और लेबल किए गए डेटा दोनों को दिए गए क्लासिफायर सीखने की कोशिश करने के कई तरीके हैं, और आप उन पर विचार करना चाह सकते हैं (उदाहरण के लिए) , पारगमन SVM)।


मैं सहमत हूं, मेरी समस्या का कोई "समाधान" नहीं है। लेकिन हो सकता है कि इस तरह के मुद्दों के साथ काम करने के बारे में कुछ व्यावहारिक सलाह हो।
लक्ष्मण नाथन

2

आपके नियम आपको डेटा वृद्धि करने का एक तरीका दे सकते हैं । एक सकारात्मक नमूने की नकल करें, उम्र को 17 में बदलें, और फिर इसे नकारात्मक नमूने के रूप में चिह्नित करें।

यह प्रक्रिया अनिवार्य रूप से सभी डेटासेट के लिए तुच्छ या उपयोगी नहीं होगी। मैं एनएलपी डेटा के साथ काम करता हूं और उस डोमेन में अच्छा प्रदर्शन करना मुश्किल है। उदाहरण के लिए, यदि आपके पास उम्र के साथ सहसंबद्ध अन्य विशेषताएं हैं, तो आप अवास्तविक नमूनों के साथ समाप्त हो सकते हैं। हालाँकि, यह सिस्टम को कुछ एंप्लॉयीज की तरह एक्सपोज़र प्रदान करता है जो इसे डेटासेट में नहीं बनाता है।


निश्चित रूप से डेटा में शोर जोड़ना इस मुद्दे को संभालने का एक तरीका है। लेकिन केवल कुछ मामलों में जहां क्लाइंट डेटा को आसानी से वर्गीकृत किया जा सकता है। मैं इसे एक डिग्री में नहीं करूंगा कि यह फिर से एक डोमेन ज्ञान "पक्षपाती" आउटपुट-कलेक्टिव / व्यक्तिपरक धारणा के परिणामस्वरूप होगा जो कथित ज्ञान के पूर्वव्यापी टकराव की ओर ले जाएगा।
लैकसन नाथन

2

एक ऐसी स्थिति में हमारे लिए काम करने वाली एक चीज सुदृढीकरण सीखने (अन्वेषण और शोषण) का एक सा कर रही है। नियम आधारित मॉडल के शीर्ष पर, हमने एक अन्वेषक को दौड़ाया जो एक छोटी सी संभावना के साथ मॉडल की प्रतिक्रिया को बदल देगा, इसलिए कभी-कभार ऐसे मामलों में जहां मॉडल 17 साल के व्यक्ति को कार्ड की सिफारिश नहीं करेगा, खोजकर्ता मॉडल को पलट देगा निर्णय और एक कार्ड जारी करें। इन सामयिक मामलों से आप भविष्य के सीखने के मॉडल के लिए सीखने के डेटा को उत्पन्न करेंगे, जहां इसका उपयोग 17 साल के बच्चों के लिए कार्ड की सिफारिश करने के लिए किया जा सकता है, अगर यह पता लगाया जाए कि जो खोजकर्ता द्वारा 17 साल के बच्चों को जारी किए गए थे वे डिफ़ॉल्ट नहीं थे और इसलिए आप कर सकते हैं ऐसी प्रणालियों का निर्माण करें जो आपके मौजूदा मॉडल के पूर्वाग्रह के बाहर काम कर सकें।


चूंकि ये सामयिक मामले एक निश्चित वित्तीय जोखिम से जुड़े होते हैं, यह लंबे समय में नए पैटर्न का खुलासा करने वाला एक कदम-दर-चरण दृष्टिकोण होगा। मूल रूप से एक खोज-शोषण व्यापार बंद जैसा कि आप इसका उल्लेख करते हैं। यह निश्चित रूप से परियोजना में माना जाएगा।
लक्ष्मण नाथन

2

एक व्यावहारिक दृष्टिकोण से, एक मॉडल से उन मामलों पर कुछ भविष्यवाणी करने के लिए कहना मुश्किल / अनुचित है जो वर्तमान प्रणाली (संभव नहीं है दोपहर के भोजन) में संभव नहीं हैं।

उस समस्या को दरकिनार करने का एक तरीका वर्तमान (तैनात) प्रणाली के लिए यादृच्छिककरण जोड़ना है, उदाहरण के लिए एक छोटे, नियंत्रित संभावना (और इसलिए एक अनुमानित लागत) के साथ नियमों को बायपास करने की संभावना को जोड़ने के लिए।

एक बार जब आप ऐसा करने के लिए सिस्टम के लिए जिम्मेदार लोगों को समझाने में कामयाब हो जाते हैं, तो आप "क्या-अगर" सवाल पूछने के लिए महत्व के नमूने जैसी ऑफ-पॉलिसी मूल्यांकन विधियों का उपयोग कर सकते हैं । उदाहरण के लिए, यदि हम वर्तमान में क्रेडिट लेने के लिए नियमों द्वारा गिराए गए लोगों को अनुमति देंगे, तो क्या होगा। यहां तक ​​कि उस आबादी पर आपके (पक्षपाती) भविष्यवाणी मॉडल के प्रभाव का अनुकरण भी किया जा सकता है। इस तरह के तरीकों के लिए एक अच्छा संदर्भ बोतलबाउ का पेपर है जो प्रतिसादात्मक शिक्षा और तर्क पर आधारित है।


अच्छा संदर्भ, धन्यवाद। मैं इसके माध्यम से जाने के लिए समय निकालूंगा।
Laksan नाथन

1

शास्त्रीय सांख्यिकीय उत्तर यह है कि यदि चयन प्रक्रिया डेटा में है और मॉडल द्वारा वर्णित है या चयन यादृच्छिक पर है तो पैरामीट्रिक मॉडल इसे सही ढंग से समझता है। डोनाल्ड रुबिन पेपर इनविज़न एंड मिसिंग डेटा (1976) देखें। आपको अपने मॉडल में डेटा चयन के तंत्र को शामिल करने की आवश्यकता है। यह एक ऐसा क्षेत्र है जहां पैरामीट्रिक इनवेंशन को शुद्ध मशीन लर्निंग से बेहतर करना चाहिए।


1

यह जीवन के बाद की दुविधा के समान है: अच्छे और बुरे कर्मों (डेटा) का अनुपात स्वर्ग (नरक) के बजाय स्वर्ग में जाने के लिए पर्याप्त है, एक मरने के बाद (फिल्टर!)। इसके अलावा, मौत फिल्टर के रूप में कार्य करती है, जिससे पर्यवेक्षित शिक्षण योजना के प्रति गुम मूल्य बढ़ जाते हैं।

मैं गायब-मूल्य समस्या और 'पक्षपाती डेटा' समस्या के बीच अंतर करना चाहता हूं। पक्षपाती डेटा जैसी कोई चीज नहीं है, कहा डेटा के रूप में 'पक्षपाती मॉडल' के रूप में ऐसी बात है, लेकिन डेटा स्वयं पक्षपाती नहीं है, यह केवल गायब है। यदि लापता डेटा को सार्थक रूप से अवलोकन योग्य डेटा से संबद्ध किया जाता है, तो निष्पक्ष मॉडल को प्रशिक्षित करना और अच्छे पूर्वानुमान परिणाम प्राप्त करना पूरी तरह से संभव है।

यदि लापता डेटा पूरी तरह से अवलोकनीय डेटा के साथ असंबंधित है, तो इसका एक मामला 'आप नहीं जानते कि आप क्या नहीं जानते हैं'। आप न तो पर्यवेक्षित, और न ही अप्रशिक्षित शिक्षण विधियों का उपयोग कर सकते हैं। समस्या डेटा साइंस के दायरे को बढ़ाती है।

इसलिए, सार्थक समाधान के लिए, मान लेते हैं कि लापता डेटा का अवलोकन डेटा से संबंधित है। हम सहसंबंध का शोषण करेंगे।

कई डेटा माइनिंग एल्गोरिदम हैं जो इस तरह की समस्या को हल करने का प्रयास करते हैं। आप अप्रीगोरी और एफपी-ग्रोथ जैसे बैजिंग-एन-बूस्टिंग या 'बार-बार पैटर्न माइनिंग' एल्गोरिदम जैसे 'एनसेंबल तरीके' आजमा सकते हैं। आप रोबस्ट स्टैटिस्टिक्स में विधियों का भी पता लगा सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.