क्यू-लर्निंग और पॉलिसी ग्रेडिएंट विधियों के बीच क्या संबंध है?


21

जहां तक ​​मैं समझता हूं, Q- लर्निंग और पॉलिसी ग्रेडिएंट (PG) RL समस्याओं को हल करने के लिए उपयोग किए जाने वाले दो प्रमुख दृष्टिकोण हैं। जबकि क्यू-लर्निंग का लक्ष्य एक निश्चित राज्य में किए गए एक निश्चित कार्रवाई के इनाम की भविष्यवाणी करना है, नीतिगत ढाल सीधे कार्रवाई की भविष्यवाणी करते हैं।

हालांकि, दोनों दृष्टिकोण मेरे समान दिखाई देते हैं, अर्थात किसी कार्रवाई के लिए अधिकतम इनाम की भविष्यवाणी करना (क्यू-लर्निंग) सीधे कार्रवाई (पीजी) लेने की संभावना का अनुमान लगाने के बराबर है। क्या जिस तरह से नुकसान वापस प्रचारित किया गया है उसमें अंतर है?

जवाबों:


20

हालांकि, दोनों दृष्टिकोण मेरे समान दिखाई देते हैं अर्थात किसी कार्रवाई के लिए अधिकतम इनाम की भविष्यवाणी करना (क्यू-लर्निंग) सीधे कार्रवाई (पीजी) लेने की संभावना का अनुमान लगाने के बराबर है।

दोनों विधियां सैद्धांतिक रूप से मार्कोव निर्णय प्रक्रिया निर्माण द्वारा संचालित हैं , और परिणामस्वरूप समान संकेतन और अवधारणाओं का उपयोग करते हैं। इसके अलावा, सरल सॉल्व करने योग्य वातावरण में आपको दोनों विधियों के परिणाम एक ही होने की उम्मीद करनी चाहिए - या कम से कम समकक्ष - इष्टतम नीतियां।

हालांकि, वे वास्तव में आंतरिक रूप से अलग हैं। दृष्टिकोणों के बीच सबसे बुनियादी अंतर यह है कि वे एक्शन सिलेक्शन, दोनों सीखने के दौरान और आउटपुट (सीखी हुई नीति) के रूप में कैसे करते हैं। क्यू-लर्निंग में, लक्ष्य अधिकतम मूल्य ज्ञात करके क्रियाओं के असतत सेट से एकल निर्धारक क्रिया सीखना है। नीति ढ़ालने वाले, और अन्य प्रत्यक्ष नीति खोजों के साथ, लक्ष्य राज्य से कार्रवाई के लिए एक नक्शा सीखना है, जो स्टोचस्टिक हो सकता है, और निरंतर एक्शन स्पेस में काम करता है।

परिणामस्वरूप, नीति-ढाल विधियाँ उन समस्याओं को हल कर सकती हैं जो मूल्य-आधारित विधियाँ नहीं कर सकती हैं:

  • बड़े और निरंतर एक्शन स्पेस। हालांकि, मूल्य-आधारित तरीकों के साथ, यह अभी भी विवेक के साथ अनुमानित किया जा सकता है - और यह एक बुरा विकल्प नहीं है, क्योंकि नीति ढाल में मैपिंग फ़ंक्शन को व्यवहार में किसी प्रकार का अनुमानित होना चाहिए।

  • स्टोकेस्टिक नीतियों। एक मूल्य-आधारित विधि एक ऐसे वातावरण को हल नहीं कर सकती है जहां इष्टतम नीति विशिष्ट संभावनाओं की आवश्यकता होती है, जैसे कि कैंची / कागज / पत्थर। ऐसा इसलिए है क्योंकि क्यू-लर्निंग में कोई ट्रेन करने योग्य पैरामीटर नहीं हैं जो कार्रवाई की संभावनाओं को नियंत्रित करते हैं, टीडी सीखने में समस्या का निर्माण यह मानता है कि एक नियतात्मक एजेंट इष्टतम हो सकता है।

हालाँकि, क्यू-लर्निंग जैसे मूल्य-आधारित तरीकों के कुछ फायदे भी हैं:

  • पी(|रों,θ)θ

  • स्पीड। टीडी सीखने के तरीके जो बूटस्ट्रैप अक्सर एक नीति को सीखने के लिए बहुत तेजी से होते हैं जो प्रगति का मूल्यांकन करने के लिए पर्यावरण से शुद्ध रूप से नमूना होना चाहिए।

अन्य कारणों से आप एक या अन्य दृष्टिकोण का उपयोग करने की परवाह कर सकते हैं:

  • आप एजेंट के साथ जुड़े अन्य नियोजन प्रक्रियाओं की मदद करने के लिए प्रक्रिया के चलने के दौरान पूर्वानुमानित प्रतिफल जानना चाह सकते हैं।

  • समस्या का राज्य प्रतिनिधित्व या तो एक मूल्य समारोह या एक नीति समारोह के लिए अधिक आसानी से उधार देता है। एक मान फ़ंक्शन राज्य के लिए बहुत ही सरल संबंध हो सकता है और पॉलिसी फ़ंक्शन बहुत जटिल और सीखने में कठिन है, या इसके विपरीत

कुछ अत्याधुनिक आरएल सॉल्वर वास्तव में दोनों दृष्टिकोणों का उपयोग करते हैं, जैसे अभिनेता-आलोचक। यह मूल्य और नीति ढाल विधियों की ताकत को जोड़ती है।


आपका क्या मतलब है जब आप कहते हैं कि अभिनेता-आलोचक दोनों तरीकों की ताकत को जोड़ता है? मेरी समझ में, अभिनेता राज्य के आधार पर सर्वश्रेष्ठ कार्रवाई का मूल्यांकन करता है, और आलोचक उस राज्य के मूल्य का मूल्यांकन करता है, फिर अभिनेता को इनाम खिलाता है। उन्हें एक एकल "नीति" इकाई के रूप में मानना ​​अभी भी मेरे लिए नीतिगत ढाल जैसा है। यह वास्तव में क्यू-लर्निंग की तरह क्यों है?
गुलज़ार

1
@ गिज़र: आलोचक एक मूल्य-आधारित पद्धति (जैसे क्यू-लर्निंग) का उपयोग करके सीखता है। तो, कुल मिलाकर, अभिनेता-आलोचक एक मूल्य पद्धति और एक नीति ढाल विधि का एक संयोजन है, और यह संयोजन से लाभान्वित होता है। "वेनिला" पीजी पर एक उल्लेखनीय सुधार यह है कि ग्रेडिएंट का मूल्यांकन प्रत्येक चरण पर किया जा सकता है, बजाय प्रत्येक एपिसोड के अंत में। यदि आप इस विषय पर अधिक विस्तृत उत्तर की तलाश कर रहे हैं, तो आपको साइट पर एक प्रश्न पूछना चाहिए।
नील स्लेटर

@ गिज़र: वास्तव में स्क्रैच (जैसे क्यू-लर्निंग) जैसा कि मैं लाभ अभिनेता-आलोचक के बीच भ्रमित हो रहा हूं (जो क्रिया-मूल्यों पर आधारित होने के लिए आधारभूत समायोजित करता है) और आलोचक जो आमतौर पर एक सरल राज्य मूल्य है। हालांकि, बाकी मेरा विवरण अभी भी समान है, आलोचक को आमतौर पर मूल्य-आधारित टीडी विधियों का उपयोग करके अपडेट किया जाता है, जिनमें से क्यू लर्निंग भी एक उदाहरण है।
नील स्लेटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.