छद्म-लेबलिंग का उपयोग गैर-तुच्छ रूप से परिणामों को प्रभावित क्यों करता है?

19

मैं अर्ध-पर्यवेक्षित शिक्षण विधियों में देख रहा हूं, और "छद्म-लेबलिंग" की अवधारणा में आया हूं।

जैसा कि मैं इसे समझता हूं, छद्म-लेबलिंग के साथ आपके पास लेबल किए गए डेटा के साथ-साथ अनलिस्टेड डेटा का एक सेट है। आप पहले किसी मॉडल को केवल लेबल किए गए डेटा पर प्रशिक्षित करते हैं। आप उस प्रारंभिक डेटा को वर्गीकृत करने के लिए (अनंतिम लेबल संलग्न करें) को अनलिस्टेड डेटा का उपयोग करते हैं। आप तब लेबल किए गए और बिना लेबल वाले दोनों डेटा को अपने मॉडल प्रशिक्षण, (पुनः) दोनों ज्ञात लेबल और पूर्वानुमानित लेबल में वापस फीड कर देते हैं। (अपडेट की गई मॉडल के साथ पुन: लेबलिंग करके इस प्रक्रिया में बदलाव करें।)

दावा किए गए लाभ हैं कि आप मॉडल को बेहतर बनाने के लिए अनलिस्टेड डेटा की संरचना के बारे में जानकारी का उपयोग कर सकते हैं। निम्न आकृति का एक भिन्न रूप अक्सर दिखाया जाता है, "प्रदर्शन" कि यह प्रक्रिया जहां (अनलिस्टेड) डेटा झूठ के आधार पर एक अधिक जटिल निर्णय सीमा बना सकती है।

Techerin CC BY-SA 3.0 द्वारा विकिमीडिया कॉमन्स से छवि

हालाँकि, मैं उस सरलीकृत स्पष्टीकरण को काफी नहीं खरीद रहा हूँ। मूल रूप से, यदि केवल लेबल-मूल प्रशिक्षण परिणाम ऊपरी निर्णय सीमा थी, तो छद्म लेबल उस प्राथमिक सीमा के आधार पर सौंपा जाएगा। जो कहना है कि ऊपरी वक्र का बायां हाथ छद्म लेबल वाला सफेद होगा और निचला वक्र का दाहिना हाथ छद्म लेबल वाला काला होगा। नए छद्म-लेबल बस वर्तमान निर्णय की सीमा को सुदृढ़ करेंगे, क्योंकि आपको छंटनी के बाद अच्छा घुमावदार निर्णय सीमा नहीं मिलेगी।

या इसे दूसरे तरीके से रखने के लिए, मौजूदा लेबल-केवल निर्णय सीमा में अनलिस्टेड डेटा के लिए सही भविष्यवाणी सटीकता होगी (जैसा कि हमने उन्हें बनाने के लिए उपयोग किया था)। कोई ड्राइविंग बल (कोई ढाल) नहीं है जो हमें छद्म-लेबल वाले डेटा में जोड़कर उस निर्णय सीमा के स्थान को बदलने का कारण बने।

क्या मैं यह सोचने में सही हूं कि आरेख द्वारा सन्निहित विवरण में कमी है? या कुछ ऐसा है जो मुझे याद आ रहा है? यदि नहीं, तो क्या है पूर्व फिर से शिक्षित निर्णय सीमा को देखते हुए छद्म लेबल पर सही सटीकता है, छद्म लेबल के लाभ?

machine-learning semi-supervised

— आर एम
स्रोत

16

छद्म-लेबलिंग दी गई खिलौना समस्या पर काम नहीं करती है

ओलिवर एट अल। (2018) ने अलग-अलग अर्ध-पर्यवेक्षित शिक्षण एल्गोरिदम का मूल्यांकन किया। उनका पहला आंकड़ा दिखाता है कि छद्म-लेबलिंग (और अन्य विधियां) आपके प्रश्न में उसी खिलौना समस्या पर कैसे काम करती हैं (जिसे 'दो-चाँद' डेटासेट कहा जाता है):

कथानक लेबल और बिना लेबल वाले डेटा पॉइंट्स को दिखाता है, और विभिन्न अर्ध-पर्यवेक्षणीय शिक्षण विधियों का उपयोग करके एक तंत्रिका जाल के प्रशिक्षण के बाद प्राप्त निर्णय सीमाएं। जैसा कि आपको संदेह है, छद्म लेबलिंग इस स्थिति में अच्छा काम नहीं करता है। वे कहते हैं कि छद्म-लेबलिंग "एक सरल विधर्मी है जो व्यापक रूप से व्यवहार में उपयोग किया जाता है, इसकी सरलता और सामान्यता के कारण संभव है"। लेकिन: "सहज होते हुए, यह तब भी गलत परिणाम नहीं दे सकता है जब भविष्यवाणी फ़ंक्शन [अनलिस्टेड डेटा] के लिए अनपेक्षित लक्ष्य बनाता है, जैसा कि अंजीर में दिखाया गया है। 1."

छद्म लेबलिंग क्यों और कब काम करता है?

छद्म-लेबलिंग को ली (2013) द्वारा पेश किया गया था, इसलिए आप वहां अधिक विवरण पा सकते हैं।

क्लस्टर धारणा

छद्म-लेबलिंग के लिए दिए गए सैद्धांतिक औचित्य ली है कि यह एंट्रॉपी नियमितीकरण के समान है। एन्ट्रॉपी रेगुलराइजेशन (ग्रैंडवेल्ट और बेंगियो 2005) एक और अर्ध-पर्यवेक्षित शिक्षण तकनीक है, जो क्लासिफायर को गैर-सूचीबद्ध डेटा पर आश्वस्त भविष्यवाणियां करने के लिए प्रोत्साहित करती है। उदाहरण के लिए, हम कई वर्गों में फैली संभावनाओं को फैलाने की बजाय किसी विशेष वर्ग में होने की एक उच्च संभावना सौंपे जाने के लिए एक अनलिमिटेड बिंदु को प्राथमिकता देंगे। उद्देश्य इस धारणा का लाभ उठाना है कि डेटा को वर्ग के अनुसार क्लस्टर किया जाता है (जिसे अर्ध-पर्यवेक्षित सीखने में "क्लस्टर धारणा" कहा जाता है)। इसलिए, पास के बिंदुओं में एक ही वर्ग होता है, और विभिन्न वर्गों में अंक अधिक व्यापक रूप से अलग होते हैं, जैसे कि सही निर्णय सीमाएं इनपुट स्पेस के कम घनत्व वाले क्षेत्रों से गुजरती हैं।

छद्म लेबलिंग विफल क्यों हो सकती है

उपरोक्त को देखते हुए, यह अनुमान लगाना उचित होगा कि क्लस्टर धारणा काम करने के लिए छद्म लेबलिंग के लिए एक आवश्यक शर्त है। लेकिन, स्पष्ट रूप से यह पर्याप्त नहीं है, क्योंकि ऊपर दिए गए दो-चंद्रमा की समस्या क्लस्टर धारणा को संतुष्ट करती है, लेकिन छद्म लेबलिंग काम नहीं करती है। इस मामले में, मुझे संदेह है कि समस्या यह है कि बहुत कम लेबल वाले बिंदु हैं, और इन बिंदुओं से उचित क्लस्टर संरचना की पहचान नहीं की जा सकती है। तो, ओलिवर एट अल के रूप में। वर्णन करें (और जैसा कि आप अपने प्रश्न में इंगित करते हैं), परिणामस्वरूप छद्म-लेबल गलत निर्णय सीमा की ओर क्लासिफायर का मार्गदर्शन करते हैं। शायद यह अधिक लेबल वाले डेटा को काम करेगा। उदाहरण के लिए, नीचे वर्णित एमएनआईएसटी मामले के विपरीत, जहां छद्म लेबलिंग काम करता है।

जहां यह काम करता है

ली (2013) ने दिखाया कि छद्म लेबलिंग MNIST डेटासेट (100-3000 लेबल वाले उदाहरणों) पर मदद कर सकता है। अंजीर में। उस कागज में से 1, आप देख सकते हैं कि 600 लेबल उदाहरणों (बिना किसी अर्द्ध-पर्यवेक्षणीय सीखने) पर प्रशिक्षित एक तंत्रिका जाल पहले से ही कक्षाओं के बीच क्लस्टर संरचना को पुनर्प्राप्त कर सकता है । ऐसा लगता है कि छद्म लेबलिंग तब संरचना को परिष्कृत करने में मदद करता है । ध्यान दें कि यह दो-चंद्रमा उदाहरण के विपरीत है, जहां उचित समूहों को सीखने के लिए कई लेबल बिंदु पर्याप्त नहीं थे।

पेपर में यह भी उल्लेख किया गया है कि परिणाम केवल 100 लेबल वाले उदाहरणों के साथ अस्थिर थे। यह फिर से इस विचार का समर्थन करता है कि छद्म-लेबलिंग प्रारंभिक भविष्यवाणियों के प्रति संवेदनशील है, और यह कि अच्छी प्रारंभिक भविष्यवाणियों को पर्याप्त संख्या में लेबल बिंदुओं की आवश्यकता होती है।

ली ने यह भी दिखाया कि ऑटोइंकोडर का उपयोग करने वाले पूर्व-प्रशिक्षित प्रशिक्षण से आगे मदद मिलती है, लेकिन यह अनलिस्टेड डेटा में संरचना के शोषण का एक अलग तरीका प्रतीत होता है; दुर्भाग्य से, बिना पूर्व-प्रशिक्षित प्रशिक्षण के कोई तुलना नहीं की गई (बिना छद्म-लेबलिंग के)।

ग्रैंडवेल्ट और बेंगियो (2005) ने बताया कि छद्म-लेबलिंग बीफ ने CIFAR-10 और SVHN डेटासेट (क्रमशः 4000 और 1000 लेबल उदाहरणों के साथ) पर सीखने की निगरानी की। ऊपर के रूप में, यह दो-चन्द्रमा की समस्या में 6 लेबल बिंदुओं की तुलना में बहुत अधिक लेबल डेटा है।

संदर्भ

ग्रैंडवेल्ट और बेंगियो (2005) । एन्ट्रापी न्यूनतमकरण द्वारा अर्ध-पर्यवेक्षणीय शिक्षण।
ली (2013) । स्यूडो-लेबल: दीप न्यूरल नेटवर्क्स के लिए सरल और कुशल अर्ध-पर्यवेक्षित शिक्षण पद्धति।
ओलिवर एट अल। (2018) है । सेमी-सुपरवाइज्ड लर्निंग एल्गोरिदम का यथार्थवादी मूल्यांकन।

— user20160
स्रोत

5

स्व-प्रशिक्षण कार्यों में आप क्या अनदेखी कर रहे हैं वह यह है:

यह एक शॉट नहीं, पुनरावृत्त है।
आप एक क्लासिफायरियर का उपयोग करते हैं जो संभाव्य मान लौटाता है। प्रत्येक पुनरावृत्ति पर, आप केवल उन मामलों के लिए प्यूसीडो-लेबल जोड़ते हैं, जिनके बारे में आपका एल्गोरिथ्म सबसे निश्चित है।

आपके उदाहरण में, शायद पहला पुनरावृत्ति केवल एक या दो बिंदुओं को लेबल किए गए बिंदुओं के बहुत करीब से आश्वस्त करने के लिए पर्याप्त है। अगले पुनरावृत्ति में सीमा इन चार से छह लेबल बिंदुओं को समायोजित करने के लिए थोड़ा घुमाएगी, और यदि यह गैर-रैखिक है, तो थोड़ा झुकना भी शुरू हो सकता है। दोहराएँ।

यह काम करने की गारंटी नहीं है। यह आपके आधार क्लासिफायर पर निर्भर करता है, आपका एल्गोरिथ्म (छद्म-लेबल, इत्यादि को असाइन करने के लिए आपको कितना निश्चित होना चाहिए), आपका डेटा, और इसी तरह।

अन्य एल्गोरिदम भी हैं जो अधिक शक्तिशाली हैं यदि आप उनका उपयोग कर सकते हैं। मेरा मानना है कि आप आत्म-प्रशिक्षण कर रहे हैं, जो कोड अप करना आसान है, लेकिन आप एक एकल वर्गीकरण का उपयोग कर रहे हैं जो एक ही जानकारी को बार-बार देख रहा है। सह-प्रशिक्षण कई क्लासिफायर का उपयोग करता है जो प्रत्येक बिंदु के लिए अलग-अलग जानकारी देख रहे हैं। (यह कुछ हद तक रैंडम फ़ॉरेस्ट के अनुरूप है।) अन्य अर्ध-पर्यवेक्षित तकनीकें भी हैं - जैसे कि स्पष्ट रूप से क्लस्टर - हालांकि कुल मिलाकर "यह हमेशा काम करता है और यह विजेता है"।

टिप्पणी के जवाब में: मैं इस क्षेत्र का विशेषज्ञ नहीं हूं। हम इसे आम तौर पर ग्राहकों के साथ जो करते हैं, उस पर लागू होते हैं, इसलिए मैं सीख रहा हूं और सभी जवाब नहीं हैं।

जब मैंने सेमी-सुपरवाइज्ड लर्निंग ओवरव्यू की खोज की तो शीर्ष हिट रहा: 2008 से सेमी-सुपरवाइज्ड लर्निंग लिटरेचर सर्वे , यह उम्र से पहले का है, कंप्यूटर-वार, लेकिन यह उन चीजों के बारे में बात करता है, जिनका मैंने यहां उल्लेख किया है।

मैं आपको सुनता हूं कि एक क्लासिफायरर अनबैलेंस्ड पॉइंट्स को रेट कर सकता है जो सबसे निश्चितता के साथ लेबल वाले नोड्स से सबसे दूर हैं। दूसरी ओर, हमारे अंतर्ज्ञान हमें मूर्ख बना सकते हैं। उदाहरण के लिए, आइए आप ब्लैक, व्हाइट और ग्रे नोड्स के साथ विकिपीडिया से प्राप्त ग्राफ़िक पर विचार करें।

सबसे पहले, यह 2 डी में है और सबसे यथार्थवादी समस्याएं उच्च आयामों में होंगी, जहां हमारा अंतर्ज्ञान अक्सर हमें भ्रमित करता है। उच्च-आयामी स्थान कई तरीकों से अलग-अलग कार्य करता है - कुछ नकारात्मक और कुछ वास्तव में सहायक।

दूसरा, हम अनुमान लगा सकते हैं कि पहले पुनरावृत्ति में दो सही-सबसे-निचले, सबसे ग्रे बिंदुओं को काले रंग से लेबल किया जाएगा, क्योंकि ब्लैक लेबल बिंदु सफेद लेबल बिंदु की तुलना में उनके करीब है। लेकिन अगर ऐसा दोनों तरफ से होता है, तो ऊर्ध्वाधर निर्णय सीमा अभी भी झुकी रहेगी और ऊर्ध्वाधर नहीं होगी। कम से कम मेरी कल्पना में, अगर यह एक सीधी रेखा होती तो यह दो मूल-लेबल वाले बिंदुओं के बीच विकर्ण खाली जगह को गिरा देती। यह अभी भी दो crescents को गलत तरीके से विभाजित करेगा, लेकिन यह अब डेटा से अधिक संरेखित होगा। निरंतर चलना - विशेष रूप से एक गैर-रैखिक निर्णय सीमा के साथ - हम अनुमान से बेहतर उत्तर दे सकते हैं।

तीसरा, मुझे यकीन नहीं है कि एक बार लेबल किया गया, हमेशा लेबल किया जाता है कि यह वास्तव में कैसे काम करना चाहिए। आप इसे कैसे करते हैं और एल्गोरिथ्म कैसे काम करता है, इसके आधार पर, आप इसे झुकाते समय (गैर-रेखीय मानकर) पहले सीमा को झुका सकते हैं, और फिर कुछ गलत तरीके से किए गए भाग अपने लेबल को स्थानांतरित कर सकते हैं।

मेरी आंत यह है कि उपयुक्त (शायद उच्च-आयामी) डेटा, और उपयुक्त क्लासिफायर के साथ संयुक्त उन तीन बिंदुओं, बहुत कम संख्या में प्रशिक्षण (लेबल) के साथ सीधे-सीधे पर्यवेक्षण की तुलना में बेहतर कर सकते हैं। कोई गारंटी नहीं है, और मेरे प्रयोगों में मैंने पाया है - मैं इसे उन डेटासेट पर दोष देता हूं जो बहुत सरल हैं - कि अर्ध-पर्यवेक्षण केवल पर्यवेक्षित रूप से बेहतर हो सकता है और कई बार बुरी तरह से विफल हो सकता है। तो फिर, मैं दो एल्गोरिदम के साथ खेल रहा हूं जो मैंने बनाया है जो वास्तव में अच्छा हो सकता है या नहीं।

— वेन
स्रोत

2

क्या आप इस बात पर विस्तार कर सकते हैं कि यह किस प्रकार के क्लासिफायर / स्थितियों पर काम करेगा? दिखाए गए उदाहरण डेटा के प्रकार पर काम करने वाले अधिकांश क्लासीफायर की मेरी समझ यह होगी कि यह निर्णय सीमा (बनाम ज्ञात बिंदुओं के करीब) से बहुत दूर है, जो उच्च आत्मविश्वास प्राप्त करेगा, इसलिए उन दूरस्थ पूंछों को आत्मविश्वास से गलत तरीके से वर्गीकृत किया जाएगा। उदाहरण। (साथ ही, कोई संदर्भ / आगे आप प्रभावी रूप से के बारे में pseudolabeling का उपयोग कर को इंगित कर सकता है और संबंधित तकनीकों की सराहना की जाएगी पढ़ने।)

— आर एम

@ आरएम संपादित सो कैसे?

— वेन

1

चेतावनी, मैं इस प्रक्रिया का विशेषज्ञ नहीं हूं। अच्छे परिणाम उत्पन्न करने में मेरी विफलता इस बात का प्रमाण नहीं है कि तकनीक को काम करने के लिए नहीं बनाया जा सकता है। इसके अलावा, आपकी छवि में "अर्ध-पर्यवेक्षित" सीखने का सामान्य विवरण है, जो विभिन्न तकनीकों के साथ एक व्यापक क्षेत्र है।

मैं आपके अंतर्ज्ञान से सहमत हूं, मैं यह नहीं देख रहा हूं कि इस तरह की तकनीक बॉक्स से बाहर कैसे काम कर सकती है। दूसरे शब्दों में, मुझे लगता है कि विशिष्ट एप्लिकेशन के लिए इसे अच्छी तरह से काम करने के लिए आपको बहुत प्रयास करने की आवश्यकता होगी , और यह प्रयास अन्य अनुप्रयोगों में आवश्यक रूप से उपयोगी नहीं होगा।

मैंने दो अलग-अलग उदाहरणों की कोशिश की, एक तो केले के आकार के डेटासेट जैसे उदाहरण छवि में एक, और दो सरल सामान्य वितरित समूहों के साथ एक और आसान डेटासेट। दोनों मामलों में मैं प्रारंभिक क्लासिफायरियर में सुधार नहीं कर सका।

चीजों को प्रोत्साहित करने के एक छोटे से प्रयास के रूप में, मैंने सभी अनुमानित संभावनाओं के साथ इस उम्मीद के साथ शोर जोड़ा कि इससे बेहतर परिणाम प्राप्त होंगे।

पहला उदाहरण मैंने उपरोक्त छवि को ईमानदारी से फिर से बनाया जैसा कि मैं कर सकता था। मुझे नहीं लगता कि प्यूसीडो-लेबलिंग यहां बिल्कुल भी मदद कर पाएगी।

दूसरा उदाहरण बहुत आसान है, लेकिन यहां तक कि यह प्रारंभिक क्लासिफायरियर में सुधार करने में विफल रहता है। मैंने विशेष रूप से बाएं वर्ग के केंद्र से एक लेबल वाला बिंदु चुना है, और सही वर्ग के दाईं ओर यह उम्मीद करता है कि यह सही दिशा में स्थानांतरित हो जाएगा, ऐसा कोई भाग्य नहीं।

उदाहरण 1 के लिए कोड (उदाहरण 2 समान है कि मैं यहां नकल नहीं करूंगा):

import numpy as np
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
import seaborn

np.random.seed(2018-10-1)
N = 1000

_x = np.linspace(0, np.pi, num=N)
x0 = np.array([_x, np.sin(_x)]).T
x1 = -1 * x0 + [np.pi / 2, 0]

scale = 0.15
x0 += np.random.normal(scale=scale, size=(N, 2))
x1 += np.random.normal(scale=scale, size=(N, 2))

X = np.vstack([x0, x1])

proto_0 = np.array([[0], [0]]).T # the single "labeled" 0
proto_1 = np.array([[np.pi / 2], [0]]).T # the single "labeled" 1

model = RandomForestClassifier()
model.fit(np.vstack([proto_0, proto_1]), np.array([0, 1]))
for itercount in range(100):
    labels = model.predict_proba(X)[:, 0]
    labels += (np.random.random(labels.size) - 0.5) / 10 # add some noise
    labels = labels > 0.5
    model = RandomForestClassifier()
    model.fit(X, labels)

f, axs = plt.subplots(1, 2, squeeze=True, figsize=(10, 5))

axs[0].plot(x0[:, 0], x0[:, 1], '.', alpha=0.25, label='unlabeled x0')
axs[0].plot(proto_0[:, 0], proto_0[:, 1], 'o', color='royalblue', markersize=10, label='labeled x0')
axs[0].plot(x1[:, 0], x1[:, 1], '.', alpha=0.25, label='unlabeled x1')
axs[0].plot(proto_1[:, 0], proto_1[:, 1], 'o', color='coral', markersize=10, label='labeled x1')
axs[0].legend()

axs[1].plot(X[~labels, 0], X[~labels, 1], '.', alpha=0.25, label='predicted class 0')
axs[1].plot(X[labels, 0], X[labels, 1], '.', alpha=0.25, label='predicted class 1')
axs[1].plot([np.pi / 4] * 2, [-1.5, 1.5], 'k--', label='halfway between labeled data')
axs[1].legend()
plt.show()

— kbrose
स्रोत

1

यहाँ मेरा अनुमान है (मुझे इस विषय के बारे में ज्यादा जानकारी नहीं है, बस मैं इस चर्चा में अपने दो सेंट जोड़ना चाहता था)।

मुझे लगता है कि आप सही हैं, एक शास्त्रीय मॉडल को प्रशिक्षित करने और डेटा के रूप में इसकी भविष्यवाणियों का उपयोग करने का कोई मतलब नहीं है, क्योंकि जैसा कि आप कहते हैं, आशावादी को कोई बेहतर करने के लिए कोई प्रोत्साहन नहीं है। मुझे लगता है कि यादृच्छिक-शुरू करने वाले एल्गोरिदम एक ही इष्टतम को खोजने की अधिक संभावना रखते हैं क्योंकि वे "अधिक सुनिश्चित" होंगे कि पहले पाया गया इष्टतम बड़ा डेटा सेट के कारण सही है, लेकिन यह अप्रासंगिक है।

उस ने कहा, आपके द्वारा प्राप्त पहले जवाब में एक बिंदु है - उदाहरण के लिए, विकिपीडिया क्लस्टरिंग के बारे में बात करता है, और मुझे लगता है कि इससे सभी फर्क पड़ता है। जब आपके पास अनलेबल डेटा हो जाता है, तो आपके पास अनिवार्य रूप से अनलॉक्ड पॉइंट्स का एक गुच्छा होता है, जो अन्य लेबल वाले अन्य "अव्यक्त फ़ीचर स्पेस" पर पड़े होते हैं। आप केवल लेबल डेटा पर प्रशिक्षित वर्गीकरण एल्गोरिदम से बेहतर कर सकते हैं, यदि आप इस तथ्य को उजागर कर सकते हैं कि इस अव्यक्त सुविधा स्थान पर लेबल किए गए बिंदु किस वर्ग से संबंधित हैं, तो अनब्लॉक किए गए बिंदुओं को अलग किया जा सकता है और फिर वर्गीकृत किया जा सकता है।

मेरा मतलब है, आपको यह करने की आवश्यकता है:

l a b e l l e d d a t a \to c l u s t e r i n g \to c l a s s i f i c a t i o n

$labelled\;data \rightarrow clustering \rightarrow classification$

... और फिर अनलिस्टेड डेटा के साथ दोहराएं। यहां, सीखा क्लस्टर सीमाएं समान नहीं होंगी, क्योंकि क्लस्टरिंग लेबल की परवाह नहीं करती है, इसके लिए सभी खाते सुविधा स्थान को बदल रहे हैं। क्लस्टरिंग एक अव्यक्त सुविधा स्थान उत्पन्न करता है, जिस पर वर्गीकरण सीमा सीखी जाती है, और यह केवल लेबल किए गए डेटा पर निर्भर करता है।

एल्गोरिदम जो किसी भी प्रकार के क्लस्टरिंग का प्रदर्शन नहीं करते हैं, मेरा मानना है कि अनलिमिटेड डेटा सेट के आधार पर अपने इष्टतम को बदलने में सक्षम नहीं होंगे।

वैसे, आपके द्वारा लिंक की गई छवि एक उचित काम करती है जो मैं समझाता हूं कि यहां क्या चल रहा है; एक निर्णय सीमा केवल क्लस्टरिंग एल्गोरिथ्म पर आधारित सीखी जाती है। आपको पता नहीं है कि यहां सही कक्षाएं क्या हैं - यह मामला हो सकता है कि वे सभी यादृच्छिक हैं - हमें नहीं पता। अब हम केवल यह है कि फीचर स्पेस में कुछ संरचना प्रतीत होती है, और फीचर स्पेस से क्लास लेबल तक कुछ मैपिंग प्रतीत होती है।

वास्तव में संदर्भ नहीं है, लेकिन इस Reddit पोस्ट पर , जैसा कि मैं इसे समझता हूं, एक GAN द्वारा अर्द्ध-पर्यवेक्षित सीखने के प्रदर्शन के बारे में चर्चा है। यह मेरा एक कूबड़ है कि यह स्पष्ट रूप से एक क्लस्टरिंग करता है, उसके बाद वर्गीकरण करता है।

— InfProbSciX
स्रोत