आइए निम्नलिखित स्थितियों के बारे में सोचें:
- आप एक रोबोट को पिंग पोंग खेलना सिखा रहे हैं
- आप वर्गमूल की गणना करने के लिए एक कार्यक्रम सिखा रहे हैं
- आप स्कूल में एक बच्चे को गणित पढ़ा रहे हैं
इन स्थितियों (यानी अधिगम की देखरेख), और कई अन्य लोगों में एक चीज (दूसरों के बीच) समान है: सीखने वाले को इसके प्रदर्शन के आधार पर इनाम मिलता है।
मेरा सवाल यह है कि रिवॉर्ड फंक्शन कैसा दिखना चाहिए? क्या कोई "सर्वश्रेष्ठ" उत्तर है, या यह स्थिति पर निर्भर करता है? यदि यह स्थिति पर निर्भर करता है, तो कोई यह कैसे निर्धारित करता है कि कौन सा इनाम समारोह चुनना है?
उदाहरण के लिए, निम्नलिखित तीन इनाम कार्य करें:
- समारोह
A
कहता है:- एक निश्चित बिंदु के नीचे, खराब या बदतर समान हैं: आपको कुछ भी नहीं मिलता है
- लगभग अच्छे और परिपूर्ण के बीच एक स्पष्ट अंतर है
- समारोह
B
कहता है:- आपको अपने प्रदर्शन के लिए आनुपातिक रूप से इनाम मिलता है
- समारोह
C
कहता है:- यदि आपका प्रदर्शन खराब है, तो यह ठीक है, आपने अपना सर्वश्रेष्ठ प्रदर्शन किया: आपको अभी भी कुछ इनाम मिल रहा है
- पूर्ण और लगभग अच्छे के बीच बहुत अंतर नहीं है
सहज रूप से, मुझे लगता है कि A
रोबोट बहुत केंद्रित होगा और सटीक पैटर्न सीखेगा, लेकिन समान पैटर्न के साथ काम करते समय बेवकूफ बन जाते हैं, जबकि C
पूर्णता खोने की कीमत पर इसे बदलने के लिए अधिक अनुकूलनीय होगा।
एक और अधिक जटिल कार्यों के बारे में भी सोच सकता है, बस कुछ दिखाने के लिए:
तो, कोई कैसे जानता है कि कौन सा फ़ंक्शन चुनना है? यह माना जाता है जो व्यवहार से (कम से कम) उभरेगा बुनियादी A
, B
और C
कार्यों?
एक पक्ष का सवाल यह है कि क्या यह रोबोट और मानव बच्चों के लिए मौलिक रूप से अलग होगा?
A
, रोबोट सटीक कार्य में बहुत अच्छा हो सकता है, लेकिन उन कार्यों पर भयानक है जो समान लेकिन थोड़ा अलग हैं। हालांकि यह सिर्फ मेरा अनुमान है।
X
ने मुझे सबसे अच्छा परिणाम दिया है", भले ही पूरी तरह से सही न हो, अंगूठे का एक बड़ा नियम देगा।