मॉडल-मुक्त और मॉडल-आधारित सुदृढीकरण सीखने के बीच अंतर क्या है?


29

मॉडल-मुक्त और मॉडल-आधारित सुदृढीकरण सीखने के बीच अंतर क्या है?

यह मुझे लगता है कि किसी भी मॉडल-मुक्त शिक्षार्थी, परीक्षण और त्रुटि के माध्यम से सीखना, मॉडल-आधारित के रूप में फिर से शुरू किया जा सकता है। उस स्थिति में, मॉडल-मुक्त शिक्षार्थी कब उपयुक्त होंगे?


यह भी देखें इस उत्तर: qr.ae/TUtHbv
nbro

आपका क्या मतलब है कि आप एक मॉडल-आधारित शिक्षार्थी को मॉडल-आधारित के रूप में फिर से नामांकित कर सकते हैं?
HelloGoodbye

यहां nbro की लिंक का एक बिना रिकॉर्ड किया गया संस्करण है: मॉडल-आधारित और मॉडल-मुक्त सुदृढीकरण सीखने के बीच अंतर क्या है? (Quora)
jrh

जवाबों:


14

मॉडल-आधारित सुदृढीकरण सीखने में एक एजेंट होता है जो दुनिया को समझने और उसका प्रतिनिधित्व करने के लिए एक मॉडल बनाने की कोशिश करता है। यहां मॉडल 2 कार्यों को पकड़ने की कोशिश कर रहा है, राज्यों से संक्रमण फ़ंक्शन और इनाम फ़ंक्शन । इस मॉडल से, एजेंट के पास एक संदर्भ है और तदनुसार योजना बना सकता है।TR

हालांकि, एक मॉडल सीखना आवश्यक नहीं है, और एजेंट इसके बजाय सीधे क्यू-लर्निंग या नीति ढाल जैसे एल्गोरिदम का उपयोग करके एक नीति सीख सकते हैं।

यह देखने के लिए एक सरल जाँच कि क्या RL एल्गोरिथ्म मॉडल-आधारित है या मॉडल-मुक्त है:

अगर, सीखने के बाद, एजेंट इस बारे में भविष्यवाणियां कर सकता है कि प्रत्येक कार्रवाई करने से पहले अगला राज्य और इनाम क्या होगा, यह एक मॉडल-आधारित आरएल एल्गोरिथ्म है।

यदि यह नहीं हो सकता है, तो यह एक मॉडल-मुक्त एल्गोरिथ्म है।


2
आपके शब्दों में, "मॉडल सीखना आवश्यक नहीं है", और मेरा सवाल यह है: कोई कभी भी मॉडल-आधारित दृष्टिकोण क्यों लेगा?
विन

4
एक बड़ा उदाहरण मैं यह सोच सकता हूं कि जब आप चाहते हैं कि कोई एजेंट वास्तव में किसी चीज का अनुकूलन किए बिना उसके परिवेश के बारे में जानें। यह लगातार सीखने की समस्या का हिस्सा है, आपको "मैं हिट की दीवारें जब मेरी दूरी सेंसर एक दीवार के करीब है" जैसे आंतरिक मॉडल का निर्माण करने की आवश्यकता है तो वह एजेंट उस सूचना को कई कार्यों के लिए सामान्य कर सकता है यदि वे उत्पन्न हुए।
जेडन Travnik

2
धन्यवाद @ जादेन ट्रावनिक मैं समझता हूं कि कुछ कार्य को हल किए बिना, पर्यावरण का प्रतिनिधित्व सीखना उपयोगी होगा ("जब मैं दीवार से टकराता हूं तो मेरी दीवार एक दीवार के करीब होती है")। लेकिन इसे मॉडल-मुक्त आरएल क्यों माना जाएगा , न कि एक वैनिला पर्यवेक्षित शिक्षण कार्य?
विन्ह

2
यह सीखने का पर्यवेक्षण नहीं किया जाएगा क्योंकि कोई लेबल डेटा नहीं है। एजेंट को इस बात का कोई अंदाजा नहीं होगा कि सिग्नल का क्या मतलब है ताकि थर्मामीटर से कोई दूरी सेंसर न बता सके। एजेंट जो सीख रहा है वह अन्य संकेतों के आधार पर संकेतों की भविष्यवाणियां है, जो खुद इसकी दुनिया का एक मॉडल है।
जेडन Travnik

2
मॉडल-आधारित दृष्टिकोण के साथ, एजेंट आपके मूल स्पष्टीकरण के अनुसार, अगले राज्य की भविष्यवाणी करना सीखता है। यह <x, y>, जहां x है (s1, क्रिया) और y है (s2, इनाम) सीखकर ऐसा करता है। खेद है अगर im गलत व्याख्या कर रहा है, लेकिन यह नहीं है कि सीखने की निगरानी की?
विन

12

मॉडल-मुक्त और मॉडल-आधारित सुदृढीकरण सीखने के बीच अंतर क्या है?

सुदृढीकरण सीखने में, शब्द "मॉडल-आधारित" और "मॉडल-मुक्त" मानों की भविष्यवाणी करने के लिए एक तंत्रिका नेटवर्क या अन्य सांख्यिकीय सीखने के मॉडल का उपयोग नहीं करते हैं, या यहां तक ​​कि अगले राज्य की भविष्यवाणी करने के लिए भी (हालांकि बाद का उपयोग किया जा सकता है) एक मॉडल-आधारित एल्गोरिथ्म का हिस्सा और इसे "मॉडल" कहा जाता है, भले ही एल्गोरिथ्म मॉडल-आधारित या मॉडल-मुक्त हो)।

इसके बजाय, यह शब्द कड़ाई से संदर्भित करता है कि क्या सीखने या अभिनय के दौरान, एजेंट पर्यावरण प्रतिक्रिया की भविष्यवाणियों का उपयोग करता है। एजेंट अगले इनाम के मॉडल और अगले राज्य (एक नमूना) से एक ही भविष्यवाणी का उपयोग कर सकता है, या यह मॉडल को अपेक्षित अगले इनाम, या अगले राज्यों और अगले पुरस्कारों के पूर्ण वितरण के लिए पूछ सकता है । इन भविष्यवाणियों को पूरी तरह से सीखने वाले एजेंट के बाहर प्रदान किया जा सकता है - जैसे कंप्यूटर कोड द्वारा जो एक पासा या बोर्ड गेम के नियमों को समझता है। या उन्हें एजेंट द्वारा सीखा जा सकता है, जिस स्थिति में वे अनुमानित होंगे।

सिर्फ इसलिए कि वहाँ पर्यावरण का एक मॉडल लागू किया गया है, इसका मतलब यह नहीं है कि एक आरएल एजेंट "मॉडल-आधारित" है। "मॉडल-आधारित" के रूप में अर्हता प्राप्त करने के लिए, सीखने के एल्गोरिदम को मॉडल को स्पष्ट रूप से संदर्भित करना होगा:

  • मोंटे कार्लो कंट्रोल, सार्सा, क्यू-लर्निंग, एक्टर-क्रिटिक जैसे अनुभव से पूरी तरह से नमूना लेने वाले एल्गोरिदम "आरएल एल्गोरिदम" मॉडल मुक्त हैं। वे पर्यावरण से वास्तविक नमूनों पर भरोसा करते हैं और व्यवहार में परिवर्तन के लिए अगले राज्य और अगले इनाम की उत्पन्न भविष्यवाणियों का उपयोग नहीं करते हैं (हालांकि वे अनुभव स्मृति से नमूना ले सकते हैं, जो एक मॉडल होने के करीब है)।

  • आर्कटिक मॉडल-आधारित एल्गोरिदम डायनेमिक प्रोग्रामिंग (पॉलिसी Iteration और Value Iteration) हैं - ये सभी मॉडल की भविष्यवाणियों या अगले राज्य के वितरण का उपयोग करते हैं और इष्टतम कार्यों की गणना करने के लिए इनाम देते हैं। विशेष रूप से डायनामिक प्रोग्रामिंग में, मॉडल को राज्य संक्रमण संभावनाएं प्रदान करनी चाहिए, और किसी भी राज्य, कार्रवाई जोड़ी से अपेक्षित इनाम। ध्यान दें कि यह शायद ही कभी एक सीखा मॉडल है।

  • बुनियादी टीडी सीखने, केवल राज्य मूल्यों का उपयोग करते हुए, नियंत्रण प्रणाली के रूप में काम करने और कार्रवाई करने के लिए मॉडल-आधारित होना चाहिए। क्रम में सबसे अच्छा कार्रवाई लेने के लिए, यह एक मॉडल भविष्यवाणी की है कि क्या प्रत्येक कार्य पर होगा, और की तरह एक नीति को लागू करने के लिए क्वेरी करने की जरूरत है π(रों)=argmaxΣरों',आरपी(रों',आर|रों,)(आर+v(रों')) जहां पी(रों',आर|रों,) पुरस्कार प्राप्त करने की संभावना हैआर और अगले राज्यरों' जब कार्रवाई करने राज्य मेंरों । यह फ़ंक्शनपी(रों',आर|रों,) अनिवार्य रूप से मॉडल है।

आरएल साहित्य "मॉडल-आधारित" और "मॉडल-मुक्त" सीखने के लिए पर्यावरण के एक मॉडल के रूप में "मॉडल" और तंत्रिका नेटवर्क जैसे सांख्यिकीय शिक्षार्थियों के उपयोग के बीच अंतर करता है।

आरएल में, तंत्रिका नेटवर्क को अक्सर मूल्य कार्यों को सीखने और सामान्य करने के लिए नियोजित किया जाता है, जैसे कि क्यू मूल्य जो कुल रिटर्न की भविष्यवाणी करता है (रियायती पुरस्कारों का योग) एक राज्य और एक्शन जोड़ी को दिया जाता है। इस तरह के एक प्रशिक्षित तंत्रिका नेटवर्क को अक्सर "मॉडल" कहा जाता है जैसे कि पर्यवेक्षित शिक्षण। हालांकि, आरएल साहित्य में, आप अस्पष्टता से बचने के लिए इस तरह के नेटवर्क के लिए "फ़ंक्शन सन्निकटन" शब्द देखेंगे।

यह मुझे लगता है कि किसी भी मॉडल-मुक्त शिक्षार्थी, परीक्षण और त्रुटि के माध्यम से सीखना, मॉडल-आधारित के रूप में फिर से शुरू किया जा सकता है।

मुझे लगता है कि यहां आप किसी भी संरचना को शामिल करने के लिए "मॉडल" शब्द की सामान्य समझ का उपयोग कर रहे हैं जो उपयोगी भविष्यवाणियां करता है। यह SARSA में Q मानों के उदाहरण तालिका पर लागू होगा।

हालाँकि, जैसा कि ऊपर बताया गया है, कि आरएल में इस शब्द का उपयोग कैसे किया जाता है। इसलिए यद्यपि आपकी समझ यह है कि आरएल उपयोगी आंतरिक अभ्यावेदन का निर्माण करता है, सही है, आप तकनीकी रूप से सही नहीं हैं कि इसका उपयोग "मॉडल-मुक्त" के बीच "मॉडल-आधारित" के रूप में फिर से किया जा सकता है, क्योंकि उन शब्दों का आरएल में बहुत विशिष्ट अर्थ है ।

उस स्थिति में, मॉडल-मुक्त शिक्षार्थी कब उपयुक्त होंगे?

आम तौर पर आरएल में कला की वर्तमान स्थिति के साथ, यदि आपके पास समस्या की परिभाषा के भाग के रूप में एक सटीक मॉडल नहीं है, तो मॉडल-मुक्त दृष्टिकोण अक्सर बेहतर होता है।

ऐसे एजेंटों में बहुत रुचि है जो पर्यावरण के पूर्वानुमान मॉडल का निर्माण करते हैं, और ऐसा "साइड इफेक्ट" के रूप में करते हैं (जबकि अभी भी एक मॉडल-मुक्त एल्गोरिथ्म है) अभी भी उपयोगी हो सकता है - यह एक तंत्रिका नेटवर्क को नियमित कर सकता है या महत्वपूर्ण पूर्वानुमान की खोज में मदद कर सकता है। ऐसी सुविधाएँ जिनका उपयोग नीति या मूल्य नेटवर्क में भी किया जा सकता है। हालांकि, मॉडल-आधारित एजेंट जो नियोजन के लिए अपने स्वयं के मॉडल सीखते हैं, एक समस्या है कि इन मॉडलों में अशुद्धि अस्थिरता का कारण बन सकती है (भविष्य में एजेंट को जो दिखता है उसमें अशुद्धि आगे चलकर बढ़ जाती है)। नियोजन के दौरान सीखे गए मॉडल पर कब और कितना भरोसा करना है, यह तय करने के लिए कल्पना आधारित एजेंटों और / या तंत्रों का उपयोग करके कुछ होनहार इनरॉड्स बनाए जा रहे हैं ।

अभी (2018 में), यदि आपके पास शुरू में एक स्पष्ट ज्ञात मॉडल के बिना वातावरण में वास्तविक दुनिया की समस्या है, तो सबसे सुरक्षित शर्त मॉडल-मुक्त दृष्टिकोण जैसे कि DQN या A3C का उपयोग करना है। यह बदल सकता है क्योंकि क्षेत्र तेजी से आगे बढ़ रहा है और नए अधिक जटिल आर्किटेक्चर कुछ वर्षों में आदर्श हो सकते हैं।


1
एक छोटा सुधार, आमतौर पर शब्द "मॉडल आधारित" या "मॉडल मुक्त" का उपयोग एमसीटीएस जैसे योजना एल्गोरिदम के लिए नहीं किया जाता है। इसका उपयोग केवल लर्निंग एल्गोरिदम को वर्गीकृत करने के लिए किया जाता है।
मिगुएल सराहिवा

@MiguelSaraiva: मैं उस बारे में 100% निश्चित नहीं हूं, लेकिन एमसीटीएस के संदर्भ को हटा दिया है। ब्याज से बाहर, आप शर्तों के उपयोग की इस सीमा के बारे में डायनाक्यू को कहां रखेंगे? मुझे लगता है कि यह मुश्किल हो जाता है, जब एल्गोरिदम सभी एमडीपी मॉडल और नीतियों में सुधार के ऐसे सामान्य दृष्टिकोण को साझा करते हैं, यह बताने के लिए कि योजना और सीखने के बीच सीमाएं कहां हैं।
नील स्लाटर

मैं गलत हो सकता हूं, मैं इस क्षेत्र में नौसिखिया हूं। मुझे सिर्फ एक शिक्षक याद है कि मैंने यह टिप्पणी करने के बाद वह टिप्पणी की थी।
मिगुएल सराहिवा

5

रोंरों'आर

एजेंट का मुख्य लक्ष्य "लंबे समय में" इनाम की सबसे बड़ी राशि इकट्ठा करना है। ऐसा करने के लिए, एजेंट को एक इष्टतम नीति (मोटे तौर पर, पर्यावरण में व्यवहार करने के लिए इष्टतम रणनीति) खोजने की आवश्यकता है। सामान्य तौर पर, एक नीति एक ऐसा कार्य है, जिसे पर्यावरण की वर्तमान स्थिति को देखते हुए, पर्यावरण में निष्पादित करने के लिए एक कार्रवाई (या कार्यों पर एक संभाव्यता वितरण, यदि नीति स्टोकेस्टिक है ) को आउटपुट करती है। इस प्रकार एक नीति को इस वातावरण में व्यवहार करने के लिए एजेंट द्वारा उपयोग की जाने वाली "रणनीति" के रूप में सोचा जा सकता है। एक इष्टतम नीति (किसी दिए गए वातावरण के लिए) एक नीति है, जिसका यदि पालन किया जाता है, तो एजेंट लंबे समय में इनाम की सबसे बड़ी राशि एकत्र करेगा (जो एजेंट का लक्ष्य है)। आरएल में, हम इस प्रकार इष्टतम नीतियों को खोजने में रुचि रखते हैं।

पर्यावरण नियतात्मक हो सकता है (अर्थात मोटे तौर पर, एक ही राज्य में एक ही क्रिया एक ही अगली अवस्था की ओर ले जाती है, हर समय कदम के लिए) या स्टोचैस्टिक (या गैर-नियतात्मक), अर्थात यदि एजेंट एक कार्रवाई करता है कुछ निश्चित स्थिति, पर्यावरण की अगली अगली स्थिति हमेशा एक समान नहीं हो सकती है: इस बात की संभावना है कि यह एक निश्चित स्थिति या कोई अन्य होगी। बेशक, ये अनिश्चितताएं इष्टतम नीति को खोजने के कार्य को कठिन बना देंगी।

आरएल में, समस्या को अक्सर गणितीय रूप से मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया जाता है । एक एमडीपी पर्यावरण की "गतिशीलता" का प्रतिनिधित्व करने का एक तरीका है, अर्थात्, जिस तरह से एजेंट किसी दिए गए राज्य में हो सकता है कि पर्यावरण संभावित क्रियाओं पर प्रतिक्रिया करेगा। अधिक सटीक रूप से, एक एमडीपी एक संक्रमण फ़ंक्शन (या "ट्रांज़िशन मॉडल") से सुसज्जित है, जो एक ऐसा फ़ंक्शन है, जो पर्यावरण की वर्तमान स्थिति और एक क्रिया (जिसे एजेंट ले सकता है) को देखते हुए, किसी भी पर जाने की संभावना को आउटपुट करता है अगले राज्यों की। एक इनाम समारोहएक एमडीपी के साथ भी जुड़ा हुआ है। अंतःक्रियात्मक रूप से, इनाम फ़ंक्शन पर्यावरण की वर्तमान स्थिति (और, संभवतः, एजेंट और पर्यावरण के अगले राज्य द्वारा की गई कार्रवाई) को देखते हुए एक इनाम का उत्पादन करता है। सामूहिक रूप से, संक्रमण और इनाम कार्यों को अक्सर पर्यावरण का मॉडल कहा जाता है। निष्कर्ष निकालना, एमडीपी समस्या है और समस्या का समाधान एक नीति है। इसके अलावा, पर्यावरण की "गतिशीलता" संक्रमण और इनाम कार्यों (अर्थात, "मॉडल") द्वारा शासित होती है।

हालांकि, हमारे पास अक्सर एमडीपी नहीं होता है, यानी हमारे पास संक्रमण और इनाम के कार्य नहीं हैं (पर्यावरण से जुड़े एमडीपी के)। इसलिए, हम MDP से एक नीति का अनुमान नहीं लगा सकते, क्योंकि यह अज्ञात है। ध्यान दें, सामान्य रूप से, यदि हमारे पास पर्यावरण से जुड़े एमडीपी के संक्रमण और इनाम कार्य थे, तो हम उनका शोषण कर सकते हैं और एक इष्टतम नीति (गतिशील प्रोग्रामिंग एल्गोरिदम का उपयोग करके) प्राप्त कर सकते हैं।

इन कार्यों की अनुपस्थिति में (अर्थात, जब एमडीपी अज्ञात है), इष्टतम नीति का अनुमान लगाने के लिए, एजेंट को पर्यावरण के साथ बातचीत करने और पर्यावरण की प्रतिक्रियाओं का निरीक्षण करने की आवश्यकता होती है। इसे अक्सर "सुदृढीकरण सीखने की समस्या" के रूप में जाना जाता है, क्योंकि एजेंट को पर्यावरण की गतिशीलता के बारे में अपनी मान्यताओं को मजबूत करके एक नीति का अनुमान लगाने की आवश्यकता होगी । समय के साथ, एजेंट यह समझने लगता है कि पर्यावरण अपने कार्यों के लिए कैसे प्रतिक्रिया करता है, और यह इस प्रकार इष्टतम नीति का अनुमान लगाना शुरू कर सकता है। इस प्रकार, आरएल समस्या में, एजेंट इष्टतम नीति का अनुमान अज्ञात (या आंशिक रूप से ज्ञात) वातावरण में उसके साथ बातचीत करके ("परीक्षण-और-त्रुटि" दृष्टिकोण का उपयोग करके) व्यवहार करने के लिए लगाता है।

इस संदर्भ में, एक मॉडल-आधारितएल्गोरिथ्म एक एल्गोरिथ्म है जो इष्टतम नीति का अनुमान लगाने के लिए संक्रमण फ़ंक्शन (और इनाम फ़ंक्शन) का उपयोग करता है। एजेंट के पास केवल संक्रमण फ़ंक्शन और इनाम कार्यों के एक सन्निकटन तक पहुंच हो सकती है, जिसे एजेंट द्वारा सीखा जा सकता है, जबकि यह पर्यावरण के साथ बातचीत करता है या इसे एजेंट को दिया जा सकता है (जैसे कि किसी अन्य एजेंट द्वारा)। सामान्य तौर पर, एक मॉडल-आधारित एल्गोरिथ्म में, एजेंट संभावित रूप से पर्यावरण की गतिशीलता (सीखने के चरण के दौरान या बाद में) का अनुमान लगा सकता है, क्योंकि इसमें संक्रमण फ़ंक्शन (और इनाम फ़ंक्शन) का अनुमान है। हालाँकि, ध्यान दें कि संक्रमण और इनाम फ़ंक्शन जो एजेंट इष्टतम नीति के अपने अनुमान को बेहतर बनाने के लिए उपयोग करता है, वह केवल "सही" फ़ंक्शन का अनुमान हो सकता है। इसलिए, इष्टतम नीति कभी नहीं मिल सकती है (इन सन्निकटन के कारण)।

एक मॉडल-मुक्त एल्गोरिथ्म एक एल्गोरिथ्म है जो पर्यावरण की गतिशीलता (संक्रमण और इनाम कार्यों) का उपयोग या अनुमान किए बिना इष्टतम नीति का अनुमान लगाता है। व्यवहार में, एक मॉडल-मुक्त एल्गोरिथ्म या तो अनुभव से सीधे "मूल्य फ़ंक्शन" या "नीति" का अनुमान लगाता है (अर्थात एजेंट और पर्यावरण के बीच बातचीत), न तो संक्रमण फ़ंक्शन और न ही रिवॉर्ड फ़ंक्शन का उपयोग किए बिना। एक मान फ़ंक्शन को एक फ़ंक्शन के रूप में माना जा सकता है जो सभी राज्यों के लिए एक राज्य (या किसी राज्य में की गई कार्रवाई) का मूल्यांकन करता है। इस मान फ़ंक्शन से, एक नीति तब प्राप्त की जा सकती है।

व्यवहार में, मॉडल-आधारित या मॉडल-मुक्त एल्गोरिदम के बीच अंतर करने का एक तरीका एल्गोरिदम को देखना है और देखना है कि क्या वे संक्रमण या इनाम फ़ंक्शन का उपयोग करते हैं।

उदाहरण के लिए, आइए Q-Learning एल्गोरिदम में मुख्य अद्यतन नियम को देखें :

क्यू(एसटी,टी)क्यू(एसटी,टी)+α(आरटी+1+γअधिकतमक्यू(एसटी+1,)-क्यू(एसटी,टी))

जैसा कि हम देख सकते हैं, यह अद्यतन नियम एमडीपी द्वारा परिभाषित किसी भी संभाव्यता का उपयोग नहीं करता है। ध्यान दें:आरटी+1केवल वह इनाम है जो अगली बार कदम पर (कार्रवाई करने के बाद) प्राप्त किया जाता है, लेकिन यह पहले से ज्ञात नहीं है। तो, क्यू-लर्निंग एक मॉडल-मुक्त एल्गोरिथ्म है।

अब, आइए नीति सुधार एल्गोरिदम के मुख्य अद्यतन नियम को देखें :

क्यू(रों,)Σरों'एस,आरआरपी(रों',आर|रों,)(आर+γवी(रों'))

हम तुरंत इसका उपयोग कर सकते हैं पी(रों',आर|रों,), एमडीपी मॉडल द्वारा परिभाषित संभावना। इसलिए, नीति पुनरावृत्ति (एक गतिशील प्रोग्रामिंग एल्गोरिथ्म), जो नीति सुधार एल्गोरिथ्म का उपयोग करता है, एक मॉडल-आधारित एल्गोरिथ्म है।


2

मॉडल से मुक्त आरएल

मॉडल-फ्री आरएल में, एजेंट के पास पर्यावरण के मॉडल तक पहुंच नहीं है। पर्यावरण से मेरा मतलब एक ऐसे समारोह से है जो राज्य परिवर्तन और पुरस्कारों की भविष्यवाणी करता है।

लेखन के समय तक, मॉडल-मुक्त तरीके अधिक लोकप्रिय हैं और बड़े पैमाने पर शोध किए गए हैं।

मॉडल आधारित आरएल

मॉडल-आधारित आरएल में, एजेंट के पास पर्यावरण के एक मॉडल तक पहुंच होती है।

मुख्य लाभ यह है कि यह एजेंट को आगे की सोचकर योजना बनाने की अनुमति देता है। एजेंट एक नियोजित नीति में आगे की योजना बनाने से परिणामों को बिगाड़ते हैं। मॉडल-आधारित आरएल का एक प्रसिद्ध उदाहरण अल्फाज़ेरो है

मुख्य नकारात्मक पक्ष यह है कि कई बार पर्यावरण का एक जमीनी सच प्रतिनिधित्व उपलब्ध नहीं होता है।


नीचे आरएल एल्गोरिदम का एक गैर-थकाऊ वर्गीकरण है, जो आपको बेहतर आरएल परिदृश्य की कल्पना करने में मदद कर सकता है।

यहाँ छवि विवरण दर्ज करें


1

OpenAI के अनुसार - KL of RL Al एल्गोरिदम , एल्गोरिदम जो पर्यावरण के एक मॉडल का उपयोग करते हैं, अर्थात एक फ़ंक्शन जो राज्य के संक्रमण और पुरस्कारों की भविष्यवाणी करता है, उन्हें मॉडल-आधारित तरीके कहा जाता है , और जिन्हें मॉडल-मुक्त नहीं कहा जाता है । इस मॉडल को या तो एजेंट दिया जा सकता है या एजेंट द्वारा सीखा जा सकता है।

एक मॉडल का उपयोग करके एजेंट को आगे की सोचकर योजना बनाने की अनुमति मिलती है, यह देखते हुए कि संभावित विकल्पों की एक सीमा के लिए क्या होगा, और इसके विकल्पों के बीच स्पष्ट रूप से निर्णय लेना। यह उन समस्याओं के साथ उपयोगी हो सकता है जब दीर्घकालिक सोच की आवश्यकता होती है। प्लानिंग करने का एक तरीका यह है कि किसी प्रकार के ट्री सर्च का उपयोग किया जाए, उदाहरण के लिए मोंटे कार्लो ट्री सर्च (MCTS), या - जिस पर मुझे संदेह है कि इसका उपयोग भी किया जा सकता है - तेजी से खोजे जाने वाले यादृच्छिक पेड़ (RRT) के वेरिएंट । उदाहरण के लिए एजेंटों को देखें जो कल्पना करते हैं और योजना बनाते हैं

एजेंट तब परिणाम को योजनाबद्ध नीति में आगे बढ़ाने से दूर कर सकता है - इसे विशेषज्ञ पुनरावृत्ति के रूप में जाना जाता है।

एक मॉडल का उपयोग एक सिम्युलेटेड, या "कल्पना," वातावरण बनाने के लिए किया जा सकता है जिसमें मॉडल का उपयोग करके राज्य को अपडेट किया जाता है, और एजेंट को उस वातावरण के अंदर सीखते हैं, जैसे कि वर्ल्ड मॉडल में

कई वास्तविक दुनिया के परिदृश्यों में, पर्यावरण का जमीनी सच मॉडल एजेंट के लिए उपलब्ध नहीं है। यदि कोई एजेंट इस मामले में एक मॉडल का उपयोग करना चाहता है, तो उसे उस मॉडल को सीखना होगा, जो कई कारणों से चुनौतीपूर्ण हो सकता है।

हालांकि ऐसे मामले हैं जिनमें एजेंट एक ऐसे मॉडल का उपयोग करता है जो पहले से ही जाना जाता है और फलस्वरूप मॉडल को सीखना नहीं है, जैसे कि अल्फ़ाज़ेरो में , जहाँ मॉडल गेम के नियमों के रूप में आता है।


1

हालांकि कई अच्छे उत्तर हैं, मैं इस अनुच्छेद को सुदृढीकरण सीखना से जोड़ना चाहता हूं : अंतर पर अधिक मनोवैज्ञानिक दृष्टिकोण के लिए एक परिचय , पृष्ठ 303।

मॉडल-मुक्त और मॉडल-आधारित सुदृढीकरण सीखने के एल्गोरिदम के बीच का अंतर, सीखने वाले व्यवहार पैटर्न के अभ्यस्त और लक्ष्य-निर्देशित नियंत्रण के बीच के अंतर मनोवैज्ञानिकों से मेल खाता है। आदतें व्यवहार पैटर्न हैं जो उपयुक्त उत्तेजनाओं द्वारा ट्रिगर होते हैं और फिर स्वचालित रूप से अधिक-या-कम प्रदर्शन करते हैं। मनोवैज्ञानिकों द्वारा वाक्यांश का उपयोग करने के तरीके के अनुसार लक्ष्य-निर्देशित व्यवहार, इस अर्थ में उद्देश्यपूर्ण है कि यह लक्ष्यों के मूल्य और क्रियाओं और उनके परिणामों के बीच के संबंध के ज्ञान से नियंत्रित होता है। आदतों को कभी-कभी पूर्ववर्ती उत्तेजनाओं द्वारा नियंत्रित किया जाता है, जबकि लक्ष्य-निर्देशित व्यवहार को इसके परिणामों (डिकिंसन, 1980, 1985) द्वारा नियंत्रित किया जाता है। लक्ष्य-निर्देशित नियंत्रण का यह लाभ है कि यह तेजी से किसी जानवर के व्यवहार को बदल सकता है जब पर्यावरण पशु के कार्यों पर प्रतिक्रिया करने का अपना तरीका बदलता है। जबकि अभ्यस्त व्यवहार एक अभ्यस्त पर्यावरण से इनपुट के लिए जल्दी से प्रतिक्रिया करता है, यह जल्दी से पर्यावरण में परिवर्तन के लिए समायोजित करने में असमर्थ है।

यह वहाँ से जा रहा है, और बाद में एक अच्छा उदाहरण है।

मुझे लगता है कि मुख्य बिंदु जो हमेशा अन्य उत्तरों में नहीं समझाया गया था, वह यह है कि एक मॉडल-मुक्त दृष्टिकोण में आपको यह बताने के लिए किसी तरह के वातावरण की आवश्यकता है कि आपकी कार्रवाई से जुड़ा इनाम क्या है। बड़ा अंतर यह है कि आपको मॉडल के बारे में कोई जानकारी संग्रहीत करने की आवश्यकता नहीं है। आप पर्यावरण को अपनी चुनी हुई कार्रवाई देते हैं, आप अपनी अनुमानित नीति को अपडेट करते हैं, और आप इसके बारे में भूल जाते हैं। दूसरी ओर, मॉडल-आधारित दृष्टिकोणों में, आपको या तो डायनामिक प्रोग्रामिंग के रूप में राज्य के संक्रमण के इतिहास को जानने की आवश्यकता है, या आपको वर्तमान राज्य से सभी संभव अगले राज्यों और संबंधित पुरस्कारों की गणना करने में सक्षम होने की आवश्यकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.