पर्यवेक्षित और अनुपयोगी शिक्षा के बीच अंतर क्या है?

28

मैं क्लस्टरिंग विधियों को समझने की कोशिश कर रहा हूं।

मुझे क्या समझ में आया II:

पर्यवेक्षित शिक्षण में, गणना के पहले श्रेणियों / लेबल डेटा को ज्ञात किया जाता है। तो, लेबल, कक्षाएं या श्रेणियां उन मापदंडों को "जानने" के लिए उपयोग की जा रही हैं जो उन समूहों के लिए वास्तव में महत्वपूर्ण हैं।
अनिश्चित सीखने में, डेटासेट को सेगमेंट को सौंपा जाता है, बिना क्लस्टर के जाना जाता है।

इसका मतलब यह है कि, अगर मुझे यह भी पता नहीं है कि एक विभाजन के लिए कौन से पैरामीटर महत्वपूर्ण हैं, तो मुझे पर्यवेक्षित शिक्षण को प्राथमिकता देनी चाहिए?

machine-learning data-mining clustering

— प्रॉट
स्रोत

2

ध्यान दें कि क्लस्टरिंग केवल अप्रशिक्षित सीखने का एकमात्र प्रकार नहीं है।

— जॉर्ज

1

लेबल किए गए प्रशिक्षण डेटा उपलब्ध होने पर पर्यवेक्षित शिक्षण को प्राथमिकता दी जाती है। आप पर्यवेक्षित या अनुपयोगी तरीकों का उपयोग करके अपने डेटा को विभाजित कर सकते हैं। मुख्य अंतर यह है कि पर्यवेक्षित सेटिंग में, आप अपने प्रशिक्षण डेटा के लिए सुधार विभाजन को जानते हैं।

— निक

23

अंतर यह है कि पर्यवेक्षित सीखने में "श्रेणियां", "कक्षाएं" या "लेबल" ज्ञात हैं। अप्रशिक्षित सीखने में, वे नहीं हैं, और सीखने की प्रक्रिया उपयुक्त "श्रेणियों" को खोजने का प्रयास करती है। दोनों प्रकार के सीखने में सभी मापदंडों को निर्धारित करने के लिए माना जाता है जो वर्गीकरण करने के लिए सबसे उपयुक्त हैं।

चाहे आपने पर्यवेक्षित या अनुपयोगी चुना हो, आपको इस बात पर आधारित होना चाहिए कि आपको पता है कि आपके डेटा की "श्रेणियां" क्या हैं। यदि आप जानते हैं, तो पर्यवेक्षित शिक्षण का उपयोग करें। यदि आप नहीं जानते हैं, तो असुरक्षित उपयोग करें।

जैसा कि आपके पास बड़ी संख्या में पैरामीटर हैं और आपको नहीं पता कि कौन से प्रासंगिक हैं, आप संबंधित घटकों को निर्धारित करने में मदद करने के लिए सिद्धांत घटक विश्लेषण जैसी किसी चीज़ का उपयोग कर सकते हैं।

— डेव क्लार्क
स्रोत

13

ध्यान दें कि पर्यवेक्षण के 2 डिग्री से अधिक हैं। उदाहरण के लिए, ईसाई बिएमन, अनसुर्विलाइज्ड और नॉलेज-फ्री नेचुरल लैंग्वेज प्रोसेसिंग इन पीएचडी थीसिस इन पेजेज 24-25 (6-7) के पेजेज इन द स्ट्रक्चर डिस्कवरी पैराडिगम, 2007 को देखें।

थीसिस 4 डिग्री की पहचान करता है: पर्यवेक्षण, अर्ध-पर्यवेक्षित, कमजोर-पर्यवेक्षण, और अप्रकाशित, और प्राकृतिक भाषा-प्रसंस्करण संदर्भ में, अंतरों की व्याख्या करता है। यहाँ प्रासंगिक परिभाषाएँ हैं:

में निगरानी प्रणाली, के रूप में एक मशीन सीखने एल्गोरिदम में प्रस्तुत आंकड़ों को पूरी तरह से लेबल किया गया है। इसका मतलब है: सभी उदाहरणों को एक वर्गीकरण के साथ प्रस्तुत किया जाता है कि मशीन को पुन: पेश करने के लिए है। इसके लिए, डेटा से एक क्लासिफायरियर सीखा जाता है, अभी तक अनदेखी उदाहरण के लिए लेबल असाइन करने की प्रक्रिया को क्लासिफ़ेशन कहा जाता है।
में अर्द्ध निगरानी प्रणाली, मशीन के लिए अनुमति दी है साथ ही खाते में लेबल नहीं किया गया डेटा ले। एक बड़े डेटा आधार के कारण, अर्ध-पर्यवेक्षित सिस्टम अक्सर एक ही लेबल किए गए उदाहरणों का उपयोग करके अपने पर्यवेक्षित समकक्षों को बेहतर बनाते हैं। इस सुधार का कारण यह है कि अधिक गैर-सूचीबद्ध डेटा सिस्टम को डेटा की अंतर्निहित संरचना को अधिक सटीक रूप से मॉडल करने में सक्षम बनाता है।
बूटस्ट्रैपिंग, जिसे स्व-प्रशिक्षण भी कहा जाता है, यह सीखने का एक रूप है जिसे कम प्रशिक्षण उदाहरणों का उपयोग करने के लिए डिज़ाइन किया गया है, इसलिए कभी - कभी इसे कमजोर-पर्यवेक्षण कहा जाता है । बूटस्ट्रैपिंग कुछ प्रशिक्षण उदाहरणों के साथ शुरू होता है, एक क्लासिफायरियर को प्रशिक्षित करता है, और इस क्लासिफायर द्वारा पुनःप्रचार के लिए उपज के रूप में सोचा-से-सकारात्मक सकारात्मक उदाहरणों का उपयोग करता है। जैसे-जैसे प्रशिक्षण के उदाहरण बढ़ते हैं, क्लासिफायर में सुधार होता है, बशर्ते कि बहुत से नकारात्मक उदाहरण सकारात्मक के रूप में गलत न हों, जिससे प्रदर्शन बिगड़ सकता है।
Unsupervised सिस्टम को कोई प्रशिक्षण उदाहरण नहीं दिए जाते हैं और क्लस्टरिंग का संचालन करते हैं। यह कई समूहों में डेटा इंस्टेंसेस का विभाजन है। क्लस्टरिंग एल्गोरिदम के परिणाम डेटा संचालित होते हैं, इसलिए अधिक 'प्राकृतिक' और डेटा की अंतर्निहित संरचना के लिए बेहतर अनुकूल है। यह लाभ इसकी बड़ी खामी भी है: मशीन को यह बताने की संभावना के बिना कि क्या करना है (जैसे वर्गीकरण में), निर्णायक परिणामों की गुणवत्ता को निर्णायक तरीके से आंकना मुश्किल है। लेकिन प्रशिक्षण के उदाहरण की तैयारी की अनुपस्थिति अप्रकाशित प्रतिमान को बहुत आकर्षक बनाती है।

— एरल सेगल-हलेवी
स्रोत

0

पर्यवेक्षित शिक्षण में कक्षाओं को पहले से जाना जाता है और उनके प्रकार भी, उदाहरण के लिए, दो वर्ग अच्छे और बुरे ग्राहक। जब नई वस्तु (ग्राहक) अपनी विशेषताओं के आधार पर आती है तो ग्राहक को खराब या अच्छे ग्राहक वर्ग को सौंपा जा सकता है।

अनिश्चित रूप से सीखने वाले समूहों / वर्गों में पहले से ही ज्ञात नहीं हैं, हमारे पास वस्तुएं (ग्राहक) हैं, इसलिए समूह में समान खरीद वाला वाला ग्राहक है इसलिए अलग-अलग समूह ग्राहकों से बने हैं अर्थात खरीदने की समान आदतों के आधार पर पहले से ही ज्ञात नहीं हैं।

— साद उल्ला खान
स्रोत

0

पर्यवेक्षित सीखने में आउटपुट (आश्रित चर) इनपुट चर (स्वतंत्र चर) पर निर्भर करता है। दिए गए पर्यवेक्षणों के कुछ सेट में उत्तरदाता वांछित उद्देश्य की गणना करने की कोशिश करता है।

अप्रशिक्षित सीखने में कोई पर्यवेक्षण नहीं होता है, इसलिए सिस्टम खुद को स्थिति के अनुकूल बनाने की कोशिश करता है और मैन्युअल रूप से कुछ माप के आधार पर सीखता है।

उदाहरण: एक कक्षा में शिक्षक-शिक्षा-शिक्षण एक कक्षा में एक आत्म अध्ययन वैकल्पिक-कोई पर्यवेक्षण नहीं करना

— सिब श्रीधरन
स्रोत