मुझे वास्तव में किसी भी अच्छे पाठ या उदाहरण नहीं मिले हैं कि किसी भी प्रकार के क्लासिफायरियर के इनपुट के लिए 'गैर-मौजूद' डेटा को कैसे संभालना है। मैंने लापता डेटा पर बहुत कुछ पढ़ा है, लेकिन उन डेटा के बारे में क्या किया जा सकता है जो मल्टीवेरेट इनपुट के संबंध में नहीं हो सकते हैं या मौजूद नहीं हैं। मैं समझता हूं कि यह एक बहुत ही जटिल प्रश्न है और इस्तेमाल की जाने वाली प्रशिक्षण विधियों के आधार पर अलग-अलग होगा ...
उदाहरण के लिए, यदि अच्छा सटीक डेटा के साथ कई धावकों के लिए बिलीम की भविष्यवाणी करने की कोशिश की जा रही है। कई इनपुट के बीच, कई के बीच संभावित चर हैं:
- इनपुट परिवर्तनीय - पहली बार धावक (Y / N)
- इनपुट परिवर्तनीय - पिछला विज्ञापन (0 - 500 सेकंड)
- इनपुट चर - आयु
- इनपुट चर - ऊंचाई। । । कई और इनपुट चर आदि
और आउटपुट प्रीडिक्टर - पूर्वनिर्धारित डिफाइम (0 - 500 सेकंड)
'2.Prepret FPime' के लिए 'लापता चर' की गणना कई तरीकों से की जा सकती है लेकिन '1। फर्स्ट टाइम रनर 'हमेशा एन के बराबर होगा। लेकिन पहली बार रनर के लिए 'एनओएन एक्सिस्टेंट डेटा' के लिए (जहां '1. फर्स्ट टाइम रनर' = वाई) 2 के लिए मुझे क्या मूल्य / उपचार देना चाहिए। पिछला विज्ञापन '?
उदाहरण के लिए '2 असाइन करना। पिछला विज्ञापन '-99 या 0 के रूप में वितरण को नाटकीय रूप से तिरछा कर सकता है और ऐसा लग सकता है कि नए धावक ने अच्छा प्रदर्शन किया है।
मेरी वर्तमान प्रशिक्षण विधियां लॉजिस्टिक रिग्रेशन, एसवीएम, एनएन और निर्णय पेड़ों का उपयोग कर रही हैं