कई निरंतर क्रियाओं के मामले में पॉलिसी ग्रेडिएंट कैसे लागू किया जा सकता है?


11

विश्वसनीय क्षेत्र नीति अनुकूलन (TRPO) और समीपस्थ नीति अनुकूलन (PPO) दो अत्याधुनिक नीति-विन्यास एल्गोरिदम हैं।

एक एकल निरंतर कार्रवाई का उपयोग करते समय, सामान्य रूप से, आप हानि फ़ंक्शन के लिए कुछ प्रायिकता वितरण (उदाहरण के लिए, गाऊसी) का उपयोग करेंगे। मोटा संस्करण है:

एल(θ)=लॉग(पी(1)),

कहाँ पे पुरस्कार का लाभ है, पी(1) द्वारा चित्रित है μ तथा σ2यह पेंडुलम वातावरण की तरह तंत्रिका नेटवर्क से बाहर आता है: https://github.com/leomzhong/DeepReinforceLearningCourse/blob/69e573cd88faec7e9cf900a8eeef08c57dec0f0/hw4/main.py

समस्या यह है कि मैं पॉलिसी ग्रेडिएंट्स का उपयोग करते हुए 2+ निरंतर क्रियाओं पर कोई पेपर नहीं पा सकता हूं (न कि अभिनेता-आलोचक तरीके जो क्यू-फ़ंक्शन से ग्रेडिएंट को स्थानांतरित करके एक अलग दृष्टिकोण का उपयोग करते हैं)।

क्या आप जानते हैं कि LunarLander वातावरण में लगातार 2 क्रियाओं के लिए TRPO का उपयोग कैसे किया जाता है ?

नीति ढाल हानि फ़ंक्शन के लिए निम्नलिखित दृष्टिकोण सही है?

एल(θ)=(लॉगपी()+लॉगपी(2))*

जवाबों:


6

जैसा कि आपने कहा है, अभिनेता-आलोचक द्वारा चुने गए कार्य आम तौर पर एक सामान्य वितरण से आते हैं और वर्तमान स्थिति के आधार पर उचित माध्य और मानक विचलन खोजने के लिए एजेंट का काम है। कई मामलों में यह एक वितरण पर्याप्त है क्योंकि केवल 1 निरंतर कार्रवाई की आवश्यकता है। हालांकि, जैसे कि रोबोटिक्स जैसे डोमेन एआई के साथ अधिक एकीकृत हो जाते हैं, ऐसी परिस्थितियां जहां 2 या अधिक निरंतर क्रियाओं की आवश्यकता होती है, एक बढ़ती समस्या है।

इस समस्या के 2 समाधान हैं: पहला और सबसे आम यह है कि प्रत्येक निरंतर कार्रवाई के लिए, एक अलग एजेंट है जो अपना 1-आयामी माध्य और मानक विचलन सीख रहा है। इसके राज्य के हिस्से में अन्य एजेंटों के कार्यों के साथ-साथ पूरी प्रणाली क्या कर रही है, इसका संदर्भ देना शामिल है। हम आम तौर पर अपनी प्रयोगशाला में ऐसा करते हैं और यहां एक पेपर है जिसमें 3 अभिनेता-आलोचकों के साथ इस दृष्टिकोण का वर्णन किया गया है, जो एक रोबोटिक हाथ को स्थानांतरित करने के लिए एक साथ काम कर रहे हैं।

दूसरा तरीका यह है कि एक एजेंट के पास एक पॉलिसी का बहुभिन्नरूपी (आमतौर पर सामान्य) वितरण होता है। यद्यपि सिद्धांत रूप में, यह दृष्टिकोण सह-विचरण मैट्रिक्स के आधार पर वितरण को "घूर्णन" करके अधिक संक्षिप्त नीति वितरण हो सकता है, इसका मतलब है कि सह-विचरण मैट्रिक्स के सभी मूल्यों को भी सीखना चाहिए। इससे उन मानों की संख्या बढ़ जाती है, जिन्हें सीखना आवश्यक हैn से निरंतर आउटपुट 2n (माध्य और stddev), को n+n2 (n साधन और ए n×nसहप्रसरण आव्यूह)। इस कमी ने इस दृष्टिकोण को साहित्य में उतना लोकप्रिय नहीं बनाया है।

यह एक अधिक सामान्य उत्तर है लेकिन आपको और अन्य को उनकी संबंधित समस्याओं पर मदद करनी चाहिए।


1
महान जवाब के लिए जेडन धन्यवाद। 1. मैंने मल्टी-एजेंट आर्किटेक्चर की कोशिश की, लेकिन यह बहुत कुशल नहीं है। अभिसरण करने में अधिक समय लगता है। 2. अब बहुभिन्नरूपी वितरण मुझे भी स्पष्ट लगता है, धन्यवाद।
Evalds Urtans

1
एप्लिकेशन और आर्किटेक्चर (यदि यह एक गहरा जाल है) के आधार पर, आपके पास एजेंट निम्न स्तर की विशेषताएं साझा कर सकते हैं और फिर उन्हें अपने स्वयं के मूल्य कार्यों में शाखा दे सकते हैं। इसके अतिरिक्त, 1 आलोचक और कई अभिनेताओं का होना भी वास्तुकला को बढ़ाने का एक तरीका है।
जेडन Travnik

फिलहाल मैं आपके सुझावों को टीआरपीओ (सिर्फ नीतिगत तरीके) लागू करना चाहूंगा, न कि अभिनेता-आलोचक। मैं आलोचक से अभिनेता तक धीरे-धीरे हस्तांतरण में बहुत आश्वस्त नहीं हूं - कई कार्यान्वयनों में मैंने देखा है कि यह ऐसा दिखता है कि इसे काम नहीं करना चाहिए, हालांकि यह अभिसरण करता है।
Evalds Urtans

1
इस नॉब प्रश्न के लिए क्षमा करें: यह अभिनेता-आलोचक विधियों (जहां अभिनेता एक साथ कई निरंतर क्रियाएं कर सकता है) में लागू किया जाता है, जहां अभिनेता का नीतिगत कार्य होता है और नीतिगत ढाल विधि द्वारा प्रशिक्षित किया जाता है? @JadenTravnik क्या आप कृपया यह बता सकते हैं कि उत्तर में एक नई शीर्षक के तहत?
गोकुल एनसी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.