लापता डेटा को संभालने के लिए मशीन लर्निंग एल्गोरिदम


25

मैं प्रयोगशाला मूल्यों सहित उच्च-आयामी नैदानिक ​​डेटा का उपयोग करके एक पूर्वानुमान मॉडल विकसित करने की कोशिश कर रहा हूं। डेटा स्पेस 5k नमूने और 200 चर के साथ विरल है। विचार एक सुविधा चयन विधि (आईजी, आरएफ आदि) का उपयोग करके चर को रैंक करना है और भविष्य कहनेवाला मॉडल विकसित करने के लिए शीर्ष-रैंकिंग सुविधाओं का उपयोग करना है।

जबकि सुविधा चयन Naïve Bayes दृष्टिकोण के साथ अच्छा चल रहा है, मैं अब अपने चर स्थान में लापता डेटा (NA) के कारण एक पूर्वानुमान मॉडल को लागू करने में एक मुद्दे को मार रहा हूं। क्या कोई मशीन लर्निंग एल्गोरिदम है जो लापता डेटा के साथ नमूनों को सावधानीपूर्वक संभाल सकता है?


1
उत्कीर्ण उत्तरों का अस्तित्व मेरे लिए यह बताता है कि यह प्रश्न उत्तर देने योग्य नहीं है। मैं खुले में छोड़ने के लिए मतदान कर रहा हूं।
गंग - मोनिका

जवाबों:


15

यह आपके द्वारा उपयोग किए जाने वाले मॉडल पर निर्भर करता है। यदि आप कुछ सामान्य मॉडल का उपयोग कर रहे हैं, तो लापता मूल्यों () से निपटने के लिए एक राजसी तरीका है। उदाहरण के लिए नाइव बेयस या गाऊसी प्रोसेस जैसे मॉडलों में आप लापता चर को एकीकृत करेंगे, और शेष चर के साथ सबसे अच्छा विकल्प चुनेंगे।

भेदभावपूर्ण मॉडल के लिए यह अधिक विस्तृत है, क्योंकि यह संभव नहीं है। कई दृष्टिकोण हैं। घारमनी और जॉर्डन एक राजसी दृष्टिकोण का वर्णन करते हैं, जहां लापता मानों को छिपे हुए चर की तरह व्यवहार किया जाता है, और उन्हें अनुमान लगाने के लिए EM एल्गोरिथ्म के एक प्रकार का उपयोग किया जाता है। कुछ इसी अंदाज में , Smola et al। एसवीएम एल्गोरिथ्म के एक प्रकार का वर्णन करें जो स्पष्ट रूप से समस्या से निपटता है।

ध्यान दें कि अक्सर चर के माध्य मान से लापता मानों को प्रतिस्थापित करने की सिफारिश की जाती है। यह समस्याग्रस्त है, जैसा कि पहले पेपर में वर्णित है। कभी-कभी, मेरे पास ऐसे कागजात आए हैं जो गुम मूल्यों का अनुमान लगाने के लिए चर पर प्रतिगमन करते हैं, लेकिन मैं यह नहीं कह सकता कि क्या यह आपके मामले पर लागू होता है।


2
चर के माध्य मान से अक्सर लापता मानों को प्रतिस्थापित करने की सिफारिश की जाती है । क्या आप कृपया स्रोत को इंगित कर सकते हैं?
सर्गेई बुशमैनोव

1
@ अंजपा आप दावा क्यों करते हैं कि भेदभावपूर्ण मॉडल में लापता चर को एकीकृत करना संभव नहीं है? हम हर समय लॉजिस्टिक रिग्रेशन के लिए ऐसा करते हैं। वास्तव में, इसे कई प्रतिरूपण के बराबर दिखाया जा सकता है।
एडमों

1
@SergeyBushmanov मैं यहां आपके भ्रम में आपके साथ हूं। इसका उपयोग करने की अनुशंसा अक्सर नहीं की जाती है (एकल) अभिप्रेरण का मतलब है क्योंकि यह कुछ मामलों में पूर्वाग्रह की ओर जाता है और अन्य मामलों में एंटीकोन्सिवेटिव सत्यापन मेट्रिक्स।
एडम

7

आर-पैकेज randomForestSRC, जो ब्रिमन के यादृच्छिक जंगलों को कार्यान्वित करता है, विश्लेषण (प्रतिगमन, वर्गीकरण, अस्तित्व, प्रतिस्पर्धा जोखिम, असुरक्षित, बहुभिन्नरूपी) की एक विस्तृत श्रेणी के लिए लापता डेटा को संभालता है।

निम्नलिखित पोस्ट देखें:

भविष्यवाणियों में रैंडम फ़ॉरेस्ट गुम मानों को संभालता क्यों नहीं है?


2

लापता डेटा से छुटकारा पाने के लिए निकटतम पड़ोसियों का उपयोग करके प्रतिरूपण की कोशिश करें।

इसके अतिरिक्त, कैरेट पैकेज में विभिन्न प्रकार के एल्गोरिदम के लिए इंटरफेस है और वे सभी आर में पूर्वानुमान विधियों के साथ आते हैं जिनका उपयोग उपन्यास डेटा की भविष्यवाणी करने के लिए किया जा सकता है। प्रदर्शन मीट्रिक का अनुमान उसी पैकेज का उपयोग करके के-फोल्ड क्रॉस सत्यापन का उपयोग करके भी लगाया जा सकता है।


2

ऐसे एल्गोरिदम भी हैं जो भविष्यवाणियां मॉडल का निर्माण करते समय अनुपलब्ध और अलग मूल्य के रूप में लापता मूल्य का उपयोग कर सकते हैं, जैसे कि वर्गीकरण और प्रतिगमन पेड़। जैसे कि xgboost


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.