मान लीजिए मैं एक क्लासिफायरियर सीखना चाहता हूं जो इनपुट के रूप में संख्याओं का वेक्टर लेता है, और आउटपुट के रूप में एक क्लास लेबल देता है। मेरे प्रशिक्षण डेटा में बड़ी संख्या में इनपुट-आउटपुट जोड़े हैं।
हालाँकि, जब मैं कुछ नए डेटा पर परीक्षण करने आता हूं, तो यह डेटा आमतौर पर केवल आंशिक रूप से पूरा होता है। उदाहरण के लिए यदि इनपुट वेक्टर 100 की लंबाई का है, तो केवल 30 तत्वों को मान दिया जा सकता है, और बाकी "अज्ञात" हैं।
इसके एक उदाहरण के रूप में, छवि मान्यता पर विचार करें जहां यह ज्ञात है कि छवि का कुछ हिस्सा घट गया है। या एक सामान्य अर्थ में वर्गीकरण पर विचार करें जहां यह ज्ञात है कि डेटा का हिस्सा भ्रष्ट है। सभी मामलों में, मुझे पता है कि डेटा वेक्टर में कौन से तत्व अज्ञात भाग हैं।
मैं सोच रहा हूं कि मैं एक क्लासिफायरियर कैसे सीख सकता हूं जो इस तरह के डेटा के लिए काम करेगा? मैं बस "अज्ञात" तत्वों को यादृच्छिक संख्या में सेट कर सकता था, लेकिन यह देखते हुए कि अक्सर ज्ञात लोगों की तुलना में अधिक अज्ञात तत्व हैं, यह एक अच्छे समाधान की तरह नहीं लगता है। या, मैं प्रशिक्षण डेटा में तत्वों को बेतरतीब ढंग से "अज्ञात" में बदल सकता हूं, और पूर्ण डेटा के बजाय इन के साथ प्रशिक्षित कर सकता हूं, लेकिन इसके लिए ज्ञात और अज्ञात तत्वों के सभी संयोजनों के संपूर्ण नमूने की आवश्यकता हो सकती है।
विशेष रूप से मैं तंत्रिका नेटवर्क के बारे में सोच रहा हूं, लेकिन मैं अन्य सहपाठियों के लिए खुला हूं।
कोई विचार? धन्यवाद!