मशीन लर्निंग के संदर्भ में, क्या अंतर है
- अप्रशिक्षित शिक्षा
- पर्यवेक्षित शिक्षण और
- अर्ध-पर्यवेक्षित शिक्षा?
और देखने के लिए कुछ मुख्य एल्गोरिथम दृष्टिकोण क्या हैं?
मशीन लर्निंग के संदर्भ में, क्या अंतर है
और देखने के लिए कुछ मुख्य एल्गोरिथम दृष्टिकोण क्या हैं?
जवाबों:
आमतौर पर, मशीन सीखने की समस्याओं को वर्गीकरण, भविष्यवाणी या मॉडलिंग के लिए फ़ंक्शन आकलन पर बदलाव माना जा सकता है।
में देखरेख सीखने एक इनपुट (के साथ सुसज्जित है , , ...,) और निर्गम ( , , ...,) और एक समारोह है कि एक generalizable फैशन में इस व्यवहार का अनुमान लगाती है ढूँढने में चुनौती दी है। आउटपुट एक क्लास लेबल (वर्गीकरण में) या एक वास्तविक संख्या (प्रतिगमन में) हो सकता है - ये पर्यवेक्षित शिक्षण में "पर्यवेक्षण" हैं।
सीखने के मामले में, आधार मामले में, आपको इनपुट , , ... प्राप्त होता है , लेकिन न तो आउटपुट को लक्षित करता है, न ही इसके वातावरण से पुरस्कार प्रदान किए जाते हैं। समतल किए गए स्थान की समस्या (वर्गीकृत, या पूर्वानुमान) और आपकी पृष्ठभूमि के ज्ञान के आधार पर, आप विभिन्न विधियों का उपयोग कर सकते हैं: घनत्व का अनुमान (भविष्यवाणी के लिए कुछ अंतर्निहित पीडीएफ का अनुमान लगाते हुए), के-मतलब क्लस्टरिंग (अप्रतिबंधित वास्तविक मूल्यवान डेटा का वर्गीकरण), के- मोड क्लस्टरिंग (गैर वर्गीकृत वर्गीकृत डेटा को वर्गीकृत करना), आदि।
अर्ध-पर्यवेक्षित शिक्षण में लेबल और अनलिस्टेड डेटा पर फ़ंक्शन आकलन शामिल है। यह दृष्टिकोण इस तथ्य से प्रेरित है कि लेबल किए गए डेटा को उत्पन्न करने के लिए अक्सर महंगा होता है, जबकि गैर-सूचीबद्ध डेटा आमतौर पर नहीं होता है। यहां चुनौती में ज्यादातर तकनीकी सवाल शामिल हैं कि इस फैशन में मिश्रित डेटा का इलाज कैसे किया जाए। अर्ध-पर्यवेक्षित शिक्षण विधियों के बारे में अधिक जानकारी के लिए यह अर्ध-पर्यवेक्षित शिक्षण साहित्य सर्वेक्षण देखें।
इन प्रकार के सीखने के अलावा, ऐसे अन्य भी हैं, जैसे सुदृढीकरण सीखने के लिए जिससे सीखने की विधि अपने वातावरण के साथ क्रियाओं , , का उत्पादन करती है । । .. कि पुरस्कार या दंड , , ...
अनसुनी हुई पढ़ाई
अप्रशिक्षित शिक्षा वह है जब आपके पास प्रशिक्षण के लिए कोई लेबल डेटा उपलब्ध नहीं है। इसके उदाहरण अक्सर क्लस्टरिंग विधियां हैं।
पर्यवेक्षित अध्ययन
इस मामले में आपका प्रशिक्षण डेटा लेबल किए गए डेटा से मौजूद है। आपके द्वारा यहां हल की गई समस्या अक्सर लेबल के बिना डेटा बिंदुओं के लेबल की भविष्यवाणी कर रही है।
सेमी-सुपरवाइज्ड लर्निंग
इस स्थिति में लेबल किए गए डेटा और अनलिस्टेड डेटा दोनों का उपयोग किया जाता है। उदाहरण के लिए इसका उपयोग डीप विश्वास नेटवर्क में किया जा सकता है, जहां कुछ परतें डेटा की संरचना (अनसुनी) सीख रही हैं और एक परत का उपयोग वर्गीकरण बनाने के लिए किया जाता है (पर्यवेक्षित डेटा के साथ प्रशिक्षित)
मुझे नहीं लगता कि इसके बारे में सोचने का सबसे अच्छा तरीका पर्यवेक्षित / अनसुनी है। बुनियादी डेटा खनन के लिए, यह सोचना बेहतर है कि आप क्या करने की कोशिश कर रहे हैं। चार मुख्य कार्य हैं:
भविष्यवाणी। यदि आप एक वास्तविक संख्या की भविष्यवाणी कर रहे हैं, तो इसे प्रतिगमन कहा जाता है। यदि आप पूरी संख्या या वर्ग की भविष्यवाणी कर रहे हैं, तो इसे वर्गीकरण कहा जाता है।
मॉडलिंग। मॉडलिंग भविष्यवाणी के समान है, लेकिन मॉडल मनुष्यों द्वारा समझ में आता है। तंत्रिका नेटवर्क और समर्थन वेक्टर मशीनें महान काम करती हैं, लेकिन समझदार मॉडल [1] का उत्पादन नहीं करती हैं। निर्णय पेड़ और क्लासिक रेखीय प्रतिगमन आसानी से समझने वाले मॉडल के उदाहरण हैं।
समानता। यदि आप विशेषताओं के प्राकृतिक समूहों को खोजने की कोशिश कर रहे हैं, तो इसे कारक विश्लेषण कहा जाता है। यदि आप टिप्पणियों के प्राकृतिक समूहों को खोजने की कोशिश कर रहे हैं, तो इसे क्लस्टरिंग कहा जाता है।
संघ। यह सहसंबंध की तरह है, लेकिन विशाल बाइनरी डेटासेट के लिए।
[१] जाहिरा तौर पर गोल्डमैन सैक्स ने भविष्यवाणी के लिए महान तंत्रिका नेटवर्क के टन बनाए, लेकिन तब कोई भी उन्हें समझ नहीं पाया था, इसलिए उन्हें तंत्रिका नेटवर्क को समझाने की कोशिश करने के लिए अन्य कार्यक्रमों को लिखना पड़ा।