मैं प्रयोगशाला मूल्यों सहित उच्च-आयामी नैदानिक डेटा का उपयोग करके एक पूर्वानुमान मॉडल विकसित करने की कोशिश कर रहा हूं। डेटा स्पेस 5k नमूने और 200 चर के साथ विरल है। विचार एक सुविधा चयन विधि (आईजी, आरएफ आदि) का उपयोग करके चर को रैंक करना है और भविष्य कहनेवाला मॉडल विकसित करने के लिए शीर्ष-रैंकिंग सुविधाओं का उपयोग करना है।
जबकि सुविधा चयन Naïve Bayes दृष्टिकोण के साथ अच्छा चल रहा है, मैं अब अपने चर स्थान में लापता डेटा (NA) के कारण एक पूर्वानुमान मॉडल को लागू करने में एक मुद्दे को मार रहा हूं। क्या कोई मशीन लर्निंग एल्गोरिदम है जो लापता डेटा के साथ नमूनों को सावधानीपूर्वक संभाल सकता है?