आंशिक रूप से "अज्ञात" डेटा के साथ वर्गीकरण


11

मान लीजिए मैं एक क्लासिफायरियर सीखना चाहता हूं जो इनपुट के रूप में संख्याओं का वेक्टर लेता है, और आउटपुट के रूप में एक क्लास लेबल देता है। मेरे प्रशिक्षण डेटा में बड़ी संख्या में इनपुट-आउटपुट जोड़े हैं।

हालाँकि, जब मैं कुछ नए डेटा पर परीक्षण करने आता हूं, तो यह डेटा आमतौर पर केवल आंशिक रूप से पूरा होता है। उदाहरण के लिए यदि इनपुट वेक्टर 100 की लंबाई का है, तो केवल 30 तत्वों को मान दिया जा सकता है, और बाकी "अज्ञात" हैं।

इसके एक उदाहरण के रूप में, छवि मान्यता पर विचार करें जहां यह ज्ञात है कि छवि का कुछ हिस्सा घट गया है। या एक सामान्य अर्थ में वर्गीकरण पर विचार करें जहां यह ज्ञात है कि डेटा का हिस्सा भ्रष्ट है। सभी मामलों में, मुझे पता है कि डेटा वेक्टर में कौन से तत्व अज्ञात भाग हैं।

मैं सोच रहा हूं कि मैं एक क्लासिफायरियर कैसे सीख सकता हूं जो इस तरह के डेटा के लिए काम करेगा? मैं बस "अज्ञात" तत्वों को यादृच्छिक संख्या में सेट कर सकता था, लेकिन यह देखते हुए कि अक्सर ज्ञात लोगों की तुलना में अधिक अज्ञात तत्व हैं, यह एक अच्छे समाधान की तरह नहीं लगता है। या, मैं प्रशिक्षण डेटा में तत्वों को बेतरतीब ढंग से "अज्ञात" में बदल सकता हूं, और पूर्ण डेटा के बजाय इन के साथ प्रशिक्षित कर सकता हूं, लेकिन इसके लिए ज्ञात और अज्ञात तत्वों के सभी संयोजनों के संपूर्ण नमूने की आवश्यकता हो सकती है।

विशेष रूप से मैं तंत्रिका नेटवर्क के बारे में सोच रहा हूं, लेकिन मैं अन्य सहपाठियों के लिए खुला हूं।

कोई विचार? धन्यवाद!


en.m.wikipedia.org/wiki/Missing_data शुरू करने के लिए एक जगह हो सकती है।
हत्शेपसुत

मुझे लगता है कि अर्ध-पर्यवेक्षित शिक्षण अधिक मामला है जहां प्रशिक्षण डेटा पूरी तरह से लेबल नहीं किया गया है। मेरे मामले में, मेरे सभी प्रशिक्षण डेटा को लेबल किया गया है, लेकिन परीक्षण डेटा के अलग-अलग हिस्से "अज्ञात" हैं।
कर्निवास सोर

सीढ़ी नेटवर्क के साथ अर्ध-पर्यवेक्षित सीखना: github.com/CuriousAI/ladder
itdxer

जवाबों:


2

मुझे लगता है कि न्यूरल नेटवर्क्स के साथ काम करने का एक उचित तरीका है।

अज्ञात के लिए अपना मान दें । 0. अब प्रशिक्षण में आप एक इनपुट चुनते हैं और उसके कुछ मानों को प्रायिकता साथ 0 पर रख देते हैं , जहाँ p आपके परीक्षण समय में गुम इनपुट का अपेक्षित अंश है। ध्यान दें कि अलग-अलग पुनरावृत्तियों पर एक ही इनपुट में विभिन्न पदों पर 0s होंगे।p

मैंने इसे पहले नहीं देखा है, लेकिन यह छिपे हुए न्यूरॉन्स के बजाय आपके इनपुट न्यूरॉन्स में ड्रॉपआउट (तंत्रिका नेटवर्क में एक प्रसिद्ध नियमितीकरण विधि) करने के समान होगा । मुझे नहीं लगता कि इसे सामान्य रूप से करना एक अच्छा विचार है, लेकिन अगर आपको (आपके मामले की तरह) मजबूर किया जाता है, तो कम से कम यह सैद्धांतिक रूप से कुछ के लिए पर्याप्त रूप से बंद है जो काम करने के लिए जाना जाता है।


1

मुझे लगता है कि कुछ विकल्प हैं जो किसी भी क्लासिफायर के साथ काम करते हैं:

  • एकल मूल्य के साथ लापता मानों को मापें, जैसे प्रशिक्षण सेट से माध्य या माध्यिका या इनपुट के मनाया भागों से अनुमानित कुछ मूल्य, या बस एक यादृच्छिक संख्या या एक स्थिरांक का उपयोग करें।
  • अज्ञात लोगों के लिए कई अलग-अलग मानों का उपयोग करें और परिणामों को एकत्रित करें, जैसे उन्हें औसत करें

इसके अलावा आप ट्री बेस्ड क्लासिफायर (जैसे रैंडम फॉरेस्ट) का उपयोग कर सकते हैं और यदि किसी ट्री को लापता सुविधा पर विभाजन का मूल्यांकन करने की आवश्यकता होती है, तो यह डेटा को दोनों बच्चे नोड्स तक पहुंचा सकता है।

एक तीसरा विकल्प एक सामान्य क्लासिफायरियर का उपयोग करना है जो पूर्ण संयुक्त वितरण मॉडल करता है जहां आपके इनपुट हैं और वर्गीकरण वर्गीकरण। कि के साथ, आप आदर्श रूप से अज्ञात हिस्सों पर हाशिए पर हैं , यानी आप कोशिश करेंगे किसी भी की अज्ञात भागों के लिए मूल्य और परिणामों कि आरोप की संभावना के आधार पर भारित औसत निकालते हैं। यह या तो विश्लेषणात्मक रूप से कुछ क्लासिफायर के लिए बंद रूप में किया जा सकता है, जैसे एक रैखिक डिस्क्रिमिनेन्ट विश्लेषण मॉडल, या लगभग अज्ञात द्वारा नमूना, उदाहरण के लिए एक प्रतिबंधित बोल्ट्ज़मैन मशीन या इसके गहरे वेरिएंट (जो आगे तंत्रिका नेटवर्क को खिलाने के लिए संबंधित हैं)।p(x,y)xyxx


मुझे नहीं लगता कि यह काम करेगा। कंप्यूटर दृष्टि से एक विशिष्ट उदाहरण का उपयोग करें, किसी छवि का प्रत्येक पिक्सेल किसी वस्तु के विभिन्न भाग से जुड़ा हो सकता है। उदाहरण, छवि 1 का पिक्सेल (50,50) एक बिल्ली की आंख है, लेकिन बिल्ली को छवि 2 में थोड़ा स्थानांतरित कर दिया गया है, इसलिए (50, 50) पृष्ठभूमि का सिर्फ एक पिक्सेल है। यदि NA का स्थान, अर्थात। यादृच्छिक रोड़ा, अवलोकन से भिन्न होता है, आपका प्रतिरूपण काम नहीं करेगा।
कुंडली
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.