सुदृढीकरण सीखने में एक इनाम समारोह कैसे करें


18

सुदृढीकरण सीखने का अध्ययन करते समय, मैं इनाम समारोह के कई रूपों में आया हूं: , , और यहां तक ​​कि एक इनाम फ़ंक्शन जो केवल वर्तमान स्थिति पर निर्भर करता है। यह कहने के बाद, मुझे एहसास हुआ कि एक इनाम समारोह को 'परिभाषित' या 'परिभाषित' करना बहुत आसान नहीं है।आर(रों,)आर(रों,,रों')

यहाँ मेरे सवाल हैं:

  1. क्या इनाम के कार्य करने के नियम हैं?
  2. क्या इनाम समारोह के अन्य रूप हैं? उदाहरण के लिए, बहुपद रूप जो शायद राज्य पर निर्भर करता है?

जवाबों:


25

इनाम के कार्यों का वर्णन है कि एजेंट को कैसे व्यवहार करना चाहिए। दूसरे शब्दों में, उनके पास "मानक" सामग्री है, जो आप एजेंट को पूरा करना चाहते हैं। उदाहरण के लिए, कुछ पुरस्कृत राज्य भोजन का स्वाद का प्रतिनिधित्व कर सकते हैं। या शायद, भोजन चखने के कार्य का प्रतिनिधित्व कर सकता है। तो, इस हद तक कि इनाम फ़ंक्शन यह निर्धारित करता है कि एजेंट की प्रेरणाएं क्या हैं, हां, आपको इसे बनाना होगा!रों(रों,)

कोई पूर्ण प्रतिबंध नहीं हैं, लेकिन यदि आपका इनाम समारोह "बेहतर व्यवहार" है, तो एजेंट बेहतर सीखेंगे। व्यावहारिक रूप से, इसका अर्थ है अभिसरण की गति, और स्थानीय मिनीमा में अटकना नहीं। लेकिन आगे के विनिर्देश सुदृढीकरण सीखने की प्रजातियों पर दृढ़ता से निर्भर करेंगे जो आप उपयोग कर रहे हैं। उदाहरण के लिए, राज्य / क्रिया स्थान निरंतर या असतत है? क्या दुनिया या एक्शन सिलेक्शन स्टोकेस्टिक है? क्या इनाम लगातार काटा जाता है, या केवल अंत में?

समस्या को देखने का एक तरीका यह है कि इनाम समारोह समस्या की कठोरता को निर्धारित करता है। उदाहरण के लिए, परंपरागत रूप से, हम एक एकल राज्य को पुरस्कृत करने के लिए निर्दिष्ट कर सकते हैं: इस मामले में, हल की जाने वाली समस्या काफी कठिन है, जिसकी तुलना में , , जहां राज्यों पर एक इनाम ढाल है। कठिन समस्याओं के लिए, अधिक विवरण निर्दिष्ट करना, उदाहरण के लिए या अतिरिक्त सुराग प्रदान करके कुछ एल्गोरिदम की मदद कर सकते हैं, लेकिन संभावित रूप से अधिक अन्वेषण की आवश्यकता पर। आपको अच्छी तरह से निर्दिष्ट करने के लिए लागतों को (जैसे ऊर्जावान लागत ) में नकारात्मक शब्दों के रूप में शामिल करने की आवश्यकता हो सकती है ।

आर(रों1)=1
आर(रों2 ..n)=0
आर(रोंमैं)=1/मैं2आर(रों,)आर(रों,,रों')आर

एक निरंतर राज्य स्थान के मामले के लिए, यदि आप एक एजेंट को आसानी से सीखना चाहते हैं, तो इनाम समारोह निरंतर और अलग होना चाहिए । इसलिए कई एल्गोरिदम के लिए बहुपद अच्छी तरह से काम कर सकते हैं। इसके अलावा, स्थानीयकृत मिनीमा को हटाने का प्रयास करें। की एक संख्या हैं उदाहरण कैसे की नहीं की तरह - एक पुरस्कार समारोह बनाने के लिए Rastrigin समारोह । यह कहने के बाद, कई आरएल एल्गोरिदम (जैसे बोल्ट्ज़मन मशीनें ) कुछ हद तक इनसे मजबूत हैं।

यदि आप एक वास्तविक दुनिया की समस्या को हल करने के लिए आरएल का उपयोग कर रहे हैं, तो आप शायद पाएंगे कि हालांकि इनाम फ़ंक्शन को खोजना समस्या का सबसे कठिन हिस्सा है, यह अंतरंग रूप से बंधा हुआ है कि आप राज्य के स्थान को कैसे निर्दिष्ट करते हैं । उदाहरण के लिए, एक समय-निर्भर समस्या में, लक्ष्य की दूरी अक्सर एक खराब इनाम फ़ंक्शन (जैसे पहाड़ी कार समस्या में ) बनाती है। ऐसी स्थितियों को उच्च आयामी राज्य रिक्त स्थान (छिपे हुए राज्य या मेमोरी निशान), या पदानुक्रमित आरएल का उपयोग करके हल किया जा सकता है।

एक अमूर्त स्तर पर, अनिश्चित रूप से सीखने को "सही और गलत" प्रदर्शन को पूरा करने के लिए माना जाता था। लेकिन अब हम देख सकते हैं कि आरएल केवल शिक्षक / आलोचक को पुरस्कार समारोह में जिम्मेदारी सौंपता है। समस्या को हल करने के लिए एक कम परिपत्र तरीका है: अर्थात्, सबसे अच्छा इनाम फ़ंक्शन का अनुमान लगाने के लिए । एक विधि को उलटा आरएल या "अप्रेंटिसशिप लर्निंग" कहा जाता है , जो एक इनाम फ़ंक्शन उत्पन्न करता है जो मनाया व्यवहारों को पुन: पेश करेगा। टिप्पणियों के एक सेट को पुन: पेश करने के लिए सबसे अच्छा इनाम समारोह ढूँढना MLE, बायेसियन, या सूचना सिद्धांत विधियों द्वारा भी लागू किया जा सकता है - यदि आप "उलटा सुदृढीकरण सीखने" के लिए Google करते हैं।


हाय, पहाड़ कार समस्या एक समय पर निर्भर समस्या क्यों है?
गोइंग मैवे जुले 20'18

मुझे लगता है कि माउंटेन कार की समस्या "समय पर निर्भर" है, इस समस्या के लिए नेटवर्क को आदेशों का उचित अनुक्रम या नीति निर्धारित करने के लिए आवश्यक है। विचार यह है कि यदि आप केवल "स्थिति" को अपनी स्थिति मानते हैं, तो समस्या को हल करना मुश्किल है - आपको अपने वेग (या गतिज ऊर्जा आदि) पर भी विचार करने की आवश्यकता है। समय-समय पर समस्याओं में समझदारी से अपने राज्य का स्थान चुनने के संबंध में मेरा वास्तव में यही मतलब है।
संजय मनोहर

@SanjayManohar मुझे नहीं लगता कि पहाड़ कार की समस्या "समय पर निर्भर" है, जब तक कि समय-निर्भर आप एक परिमित समय क्षितिज शुरू करने की बात नहीं कर रहे हैं। स्थिति और वेग पर्याप्त हैं।
user76284

मुझे लगता है कि यह जवाब इनाम और मूल्य कार्यों को मिलाता है। उदाहरण के लिए यह एक इनाम समारोह को "खोजने" के बारे में बात करता है, जो हो सकता है कि आप उलटा सुदृढीकरण सीखने में कुछ करें , लेकिन नियंत्रण के लिए उपयोग किए जाने वाले आरएल में नहीं। इसके अलावा, यह रिवॉर्ड फंक्शन की निरंतरता और अलग होने की आवश्यकता के बारे में बात करता है, और यह केवल आवश्यक नहीं है, यह आमतौर पर ऐसा नहीं है। आपको सफलता के लिए साधारण +1 प्राप्त करने की अधिक संभावना है, या साहित्य में उठाए गए -1 प्रति समय के कदम, कुछ ध्यान से निर्मित विभेदीकृत अनुमान लगाने की तुलना में।
नील स्लेटर

धन्यवाद @NeilSlater, आप सही हैं मुझे शायद इसे खोजने के बजाय एक पुरस्कार समारोह का "निर्माण" करना चाहिए था। "मूल्य फ़ंक्शन" के बारे में, मैं आमतौर पर इस शब्द को राज्य-मूल्य या एक्शन-वैल्यू मैपिंग के लिए आरक्षित करता हूं, अर्थात एक एजेंट जिसका उपयोग भविष्य के इनाम का अनुमान लगाने के लिए करता है। तो "मूल्य" "इनाम" से संबंधित है, लेकिन इनाम समस्या का हिस्सा है, समस्या को हल करने वाले एल्गोरिदम नहीं। शायद एअर इंडिया में जोर बाइनरी, डिस्टल, विरल पुरस्कारों को निर्धारित करके, अपने सीखने के एल्गोरिथ्म को दिखाने पर जोर दिया गया है - लेकिन यदि आपके पास रिवॉर्ड फ़ंक्शन पर नियंत्रण है, तो यह "अच्छा" होने पर जीवन आसान है।
संजय मनोहर

4

इनाम कार्यों को डिजाइन करना वास्तव में एक कठिन समस्या है। आम तौर पर, विरल इनाम कार्यों को परिभाषित करना आसान होता है (उदाहरण के लिए, यदि आप गेम जीतते हैं, तो +1 प्राप्त करें) 0। हालांकि, विरल पुरस्कार भी सीखने को धीमा कर देते हैं क्योंकि किसी भी पुरस्कार को प्राप्त करने से पहले एजेंट को कई कार्रवाई करने की आवश्यकता होती है। इस समस्या को क्रेडिट असाइनमेंट समस्या के रूप में भी जाना जाता है

बल्कि पुरस्कार के लिए एक तालिका प्रतिनिधित्व होने के बाद, आप निरंतर कार्यों (जैसे एक बहुपद) का उपयोग कर सकते हैं। यह आमतौर पर तब होता है जब राज्य का स्थान और कार्रवाई का स्थान निरंतर होता है, तब असतत होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.