इनाम के कार्यों का वर्णन है कि एजेंट को कैसे व्यवहार करना चाहिए। दूसरे शब्दों में, उनके पास "मानक" सामग्री है, जो आप एजेंट को पूरा करना चाहते हैं। उदाहरण के लिए, कुछ पुरस्कृत राज्य भोजन का स्वाद का प्रतिनिधित्व कर सकते हैं। या शायद, भोजन चखने के कार्य का प्रतिनिधित्व कर सकता है। तो, इस हद तक कि इनाम फ़ंक्शन यह निर्धारित करता है कि एजेंट की प्रेरणाएं क्या हैं, हां, आपको इसे बनाना होगा!रों( रों , एक )
कोई पूर्ण प्रतिबंध नहीं हैं, लेकिन यदि आपका इनाम समारोह "बेहतर व्यवहार" है, तो एजेंट बेहतर सीखेंगे। व्यावहारिक रूप से, इसका अर्थ है अभिसरण की गति, और स्थानीय मिनीमा में अटकना नहीं। लेकिन आगे के विनिर्देश सुदृढीकरण सीखने की प्रजातियों पर दृढ़ता से निर्भर करेंगे जो आप उपयोग कर रहे हैं। उदाहरण के लिए, राज्य / क्रिया स्थान निरंतर या असतत है? क्या दुनिया या एक्शन सिलेक्शन स्टोकेस्टिक है? क्या इनाम लगातार काटा जाता है, या केवल अंत में?
समस्या को देखने का एक तरीका यह है कि इनाम समारोह समस्या की कठोरता को निर्धारित करता है। उदाहरण के लिए, परंपरागत रूप से, हम एक एकल राज्य को पुरस्कृत करने के लिए निर्दिष्ट कर सकते हैं:
इस मामले में, हल की जाने वाली समस्या काफी कठिन है, जिसकी तुलना में , , जहां राज्यों पर एक इनाम ढाल है। कठिन समस्याओं के लिए, अधिक विवरण निर्दिष्ट करना, उदाहरण के लिए या अतिरिक्त सुराग प्रदान करके कुछ एल्गोरिदम की मदद कर सकते हैं, लेकिन संभावित रूप से अधिक अन्वेषण की आवश्यकता पर। आपको अच्छी तरह से निर्दिष्ट करने के लिए लागतों को (जैसे ऊर्जावान लागत ) में नकारात्मक शब्दों के रूप में शामिल करने की आवश्यकता हो सकती है ।R ( s)1) = 1
R ( s)2 .. n) = 0
R ( s)मैं) = 1 / i2आर ( एस , एक )आर ( एस , ए , एस')आर
एक निरंतर राज्य स्थान के मामले के लिए, यदि आप एक एजेंट को आसानी से सीखना चाहते हैं, तो इनाम समारोह निरंतर और अलग होना चाहिए । इसलिए कई एल्गोरिदम के लिए बहुपद अच्छी तरह से काम कर सकते हैं। इसके अलावा, स्थानीयकृत मिनीमा को हटाने का प्रयास करें। की एक संख्या हैं उदाहरण कैसे की नहीं की तरह - एक पुरस्कार समारोह बनाने के लिए Rastrigin समारोह । यह कहने के बाद, कई आरएल एल्गोरिदम (जैसे बोल्ट्ज़मन मशीनें ) कुछ हद तक इनसे मजबूत हैं।
यदि आप एक वास्तविक दुनिया की समस्या को हल करने के लिए आरएल का उपयोग कर रहे हैं, तो आप शायद पाएंगे कि हालांकि इनाम फ़ंक्शन को खोजना समस्या का सबसे कठिन हिस्सा है, यह अंतरंग रूप से बंधा हुआ है कि आप राज्य के स्थान को कैसे निर्दिष्ट करते हैं । उदाहरण के लिए, एक समय-निर्भर समस्या में, लक्ष्य की दूरी अक्सर एक खराब इनाम फ़ंक्शन (जैसे पहाड़ी कार समस्या में ) बनाती है। ऐसी स्थितियों को उच्च आयामी राज्य रिक्त स्थान (छिपे हुए राज्य या मेमोरी निशान), या पदानुक्रमित आरएल का उपयोग करके हल किया जा सकता है।
एक अमूर्त स्तर पर, अनिश्चित रूप से सीखने को "सही और गलत" प्रदर्शन को पूरा करने के लिए माना जाता था। लेकिन अब हम देख सकते हैं कि आरएल केवल शिक्षक / आलोचक को पुरस्कार समारोह में जिम्मेदारी सौंपता है। समस्या को हल करने के लिए एक कम परिपत्र तरीका है: अर्थात्, सबसे अच्छा इनाम फ़ंक्शन का अनुमान लगाने के लिए । एक विधि को उलटा आरएल या "अप्रेंटिसशिप लर्निंग" कहा जाता है , जो एक इनाम फ़ंक्शन उत्पन्न करता है जो मनाया व्यवहारों को पुन: पेश करेगा। टिप्पणियों के एक सेट को पुन: पेश करने के लिए सबसे अच्छा इनाम समारोह ढूँढना MLE, बायेसियन, या सूचना सिद्धांत विधियों द्वारा भी लागू किया जा सकता है - यदि आप "उलटा सुदृढीकरण सीखने" के लिए Google करते हैं।