मैं अर्ध-पर्यवेक्षित शिक्षण विधियों में देख रहा हूं, और "छद्म-लेबलिंग" की अवधारणा में आया हूं।
जैसा कि मैं इसे समझता हूं, छद्म-लेबलिंग के साथ आपके पास लेबल किए गए डेटा के साथ-साथ अनलिस्टेड डेटा का एक सेट है। आप पहले किसी मॉडल को केवल लेबल किए गए डेटा पर प्रशिक्षित करते हैं। आप उस प्रारंभिक डेटा को वर्गीकृत करने के लिए (अनंतिम लेबल संलग्न करें) को अनलिस्टेड डेटा का उपयोग करते हैं। आप तब लेबल किए गए और बिना लेबल वाले दोनों डेटा को अपने मॉडल प्रशिक्षण, (पुनः) दोनों ज्ञात लेबल और पूर्वानुमानित लेबल में वापस फीड कर देते हैं। (अपडेट की गई मॉडल के साथ पुन: लेबलिंग करके इस प्रक्रिया में बदलाव करें।)
दावा किए गए लाभ हैं कि आप मॉडल को बेहतर बनाने के लिए अनलिस्टेड डेटा की संरचना के बारे में जानकारी का उपयोग कर सकते हैं। निम्न आकृति का एक भिन्न रूप अक्सर दिखाया जाता है, "प्रदर्शन" कि यह प्रक्रिया जहां (अनलिस्टेड) डेटा झूठ के आधार पर एक अधिक जटिल निर्णय सीमा बना सकती है।
Techerin CC BY-SA 3.0 द्वारा विकिमीडिया कॉमन्स से छवि
हालाँकि, मैं उस सरलीकृत स्पष्टीकरण को काफी नहीं खरीद रहा हूँ। मूल रूप से, यदि केवल लेबल-मूल प्रशिक्षण परिणाम ऊपरी निर्णय सीमा थी, तो छद्म लेबल उस प्राथमिक सीमा के आधार पर सौंपा जाएगा। जो कहना है कि ऊपरी वक्र का बायां हाथ छद्म लेबल वाला सफेद होगा और निचला वक्र का दाहिना हाथ छद्म लेबल वाला काला होगा। नए छद्म-लेबल बस वर्तमान निर्णय की सीमा को सुदृढ़ करेंगे, क्योंकि आपको छंटनी के बाद अच्छा घुमावदार निर्णय सीमा नहीं मिलेगी।
या इसे दूसरे तरीके से रखने के लिए, मौजूदा लेबल-केवल निर्णय सीमा में अनलिस्टेड डेटा के लिए सही भविष्यवाणी सटीकता होगी (जैसा कि हमने उन्हें बनाने के लिए उपयोग किया था)। कोई ड्राइविंग बल (कोई ढाल) नहीं है जो हमें छद्म-लेबल वाले डेटा में जोड़कर उस निर्णय सीमा के स्थान को बदलने का कारण बने।
क्या मैं यह सोचने में सही हूं कि आरेख द्वारा सन्निहित विवरण में कमी है? या कुछ ऐसा है जो मुझे याद आ रहा है? यदि नहीं, तो क्या है पूर्व फिर से शिक्षित निर्णय सीमा को देखते हुए छद्म लेबल पर सही सटीकता है, छद्म लेबल के लाभ?