देखरेख सुदृढीकरण सीखने का एक सबसेट सीखा है?


16

ऐसा लगता है कि पर्यवेक्षित अधिगम की परिभाषा एक विशेष प्रकार के रिवार्ड फंक्शन के साथ सुदृढीकरण सीखने का एक उप-समूह है, जो कि लेबल डेटा पर आधारित है (जैसा कि पर्यावरण में अन्य जानकारी के विपरीत है)। क्या यह एक सटीक चित्रण है?

जवाबों:


24

यह सच है कि किसी भी पर्यवेक्षित सीखने की समस्या को एक समान सुदृढीकरण सीखने की समस्या के रूप में डाला जा सकता है: राज्यों को इनपुट डेटा के अनुरूप होने दें। क्रियाओं को आउटपुट के पूर्वानुमानों के अनुरूप होने दें। पर्यवेक्षित सीखने के लिए उपयोग किए जाने वाले नुकसान फ़ंक्शन के नकारात्मक के रूप में इनाम को परिभाषित करें। अपेक्षित प्रतिफल अधिकतम करें। इसके विपरीत, सुदृढीकरण सीखने की समस्याओं को आम तौर पर पर्यवेक्षित सीखने की समस्याओं के रूप में नहीं डाला जा सकता है। इसलिए, इस दृष्टिकोण से, पर्यवेक्षित शिक्षण समस्याएं सुदृढीकरण सीखने की समस्याओं का सबसेट हैं।

लेकिन, सामान्य सुदृढीकरण सीखने के एल्गोरिथ्म का उपयोग करके एक पर्यवेक्षित सीखने की समस्या को हल करने की कोशिश करना व्यर्थ होगा; यह सब कुछ संरचना को फेंक देता है जिससे समस्या को हल करना आसान हो जाता है। सुदृढीकरण सीखने में विभिन्न मुद्दे उत्पन्न होते हैं जो पर्यवेक्षित सीखने के लिए प्रासंगिक नहीं हैं। और, पर्यवेक्षित अधिगम उन दृष्टिकोणों से लाभ उठा सकता है जो सामान्य सुदृढीकरण सीखने की सेटिंग में लागू नहीं होते हैं। इसलिए, हालांकि कुछ सामान्य अंतर्निहित सिद्धांत और साझा तकनीकें हैं, जो आम तौर पर पर्यवेक्षित शिक्षण को एक प्रकार के सुदृढीकरण सीखने के रूप में चर्चा नहीं करते हैं।

संदर्भ

बार्टो और डाइटेरिच (2004) । सुदृढीकरण सीखने और पर्यवेक्षित शिक्षण के लिए इसका संबंध।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.