जवाबों:
यह सच है कि किसी भी पर्यवेक्षित सीखने की समस्या को एक समान सुदृढीकरण सीखने की समस्या के रूप में डाला जा सकता है: राज्यों को इनपुट डेटा के अनुरूप होने दें। क्रियाओं को आउटपुट के पूर्वानुमानों के अनुरूप होने दें। पर्यवेक्षित सीखने के लिए उपयोग किए जाने वाले नुकसान फ़ंक्शन के नकारात्मक के रूप में इनाम को परिभाषित करें। अपेक्षित प्रतिफल अधिकतम करें। इसके विपरीत, सुदृढीकरण सीखने की समस्याओं को आम तौर पर पर्यवेक्षित सीखने की समस्याओं के रूप में नहीं डाला जा सकता है। इसलिए, इस दृष्टिकोण से, पर्यवेक्षित शिक्षण समस्याएं सुदृढीकरण सीखने की समस्याओं का सबसेट हैं।
लेकिन, सामान्य सुदृढीकरण सीखने के एल्गोरिथ्म का उपयोग करके एक पर्यवेक्षित सीखने की समस्या को हल करने की कोशिश करना व्यर्थ होगा; यह सब कुछ संरचना को फेंक देता है जिससे समस्या को हल करना आसान हो जाता है। सुदृढीकरण सीखने में विभिन्न मुद्दे उत्पन्न होते हैं जो पर्यवेक्षित सीखने के लिए प्रासंगिक नहीं हैं। और, पर्यवेक्षित अधिगम उन दृष्टिकोणों से लाभ उठा सकता है जो सामान्य सुदृढीकरण सीखने की सेटिंग में लागू नहीं होते हैं। इसलिए, हालांकि कुछ सामान्य अंतर्निहित सिद्धांत और साझा तकनीकें हैं, जो आम तौर पर पर्यवेक्षित शिक्षण को एक प्रकार के सुदृढीकरण सीखने के रूप में चर्चा नहीं करते हैं।
संदर्भ
बार्टो और डाइटेरिच (2004) । सुदृढीकरण सीखने और पर्यवेक्षित शिक्षण के लिए इसका संबंध।