कई निरंतर क्रियाओं के मामले में पॉलिसी ग्रेडिएंट कैसे लागू किया जा सकता है?

विश्वसनीय क्षेत्र नीति अनुकूलन (TRPO) और समीपस्थ नीति अनुकूलन (PPO) दो अत्याधुनिक नीति-विन्यास एल्गोरिदम हैं।

एक एकल निरंतर कार्रवाई का उपयोग करते समय, सामान्य रूप से, आप हानि फ़ंक्शन के लिए कुछ प्रायिकता वितरण (उदाहरण के लिए, गाऊसी) का उपयोग करेंगे। मोटा संस्करण है:

एल (θ) = लॉग (पी (ए_{1})) ए,

$L(\theta) = \log(P(a_1)) A,$

कहाँ पे $A$ पुरस्कार का लाभ है, $P(a_1)$ द्वारा चित्रित है $\mu$ तथा $\sigma^2$ यह पेंडुलम वातावरण की तरह तंत्रिका नेटवर्क से बाहर आता है: https://github.com/leomzhong/DeepReinforceLearningCourse/blob/69e573cd88faec7e9cf900a8eeef08c57dec0f0/hw4/main.py ।

समस्या यह है कि मैं पॉलिसी ग्रेडिएंट्स का उपयोग करते हुए 2+ निरंतर क्रियाओं पर कोई पेपर नहीं पा सकता हूं (न कि अभिनेता-आलोचक तरीके जो क्यू-फ़ंक्शन से ग्रेडिएंट को स्थानांतरित करके एक अलग दृष्टिकोण का उपयोग करते हैं)।

क्या आप जानते हैं कि LunarLander वातावरण में लगातार 2 क्रियाओं के लिए TRPO का उपयोग कैसे किया जाता है ?

नीति ढाल हानि फ़ंक्शन के लिए निम्नलिखित दृष्टिकोण सही है?

एल (θ) = (लॉग पी (ए_{)} + लॉग पी (ए_{2})) * ए

$L(\theta) = (\log P(a_) + \log P(a_2) )*A$

deep-learning reinforcement-learning trpo

— उरालदान उतारा
स्रोत

जैसा कि आपने कहा है, अभिनेता-आलोचक द्वारा चुने गए कार्य आम तौर पर एक सामान्य वितरण से आते हैं और वर्तमान स्थिति के आधार पर उचित माध्य और मानक विचलन खोजने के लिए एजेंट का काम है। कई मामलों में यह एक वितरण पर्याप्त है क्योंकि केवल 1 निरंतर कार्रवाई की आवश्यकता है। हालांकि, जैसे कि रोबोटिक्स जैसे डोमेन एआई के साथ अधिक एकीकृत हो जाते हैं, ऐसी परिस्थितियां जहां 2 या अधिक निरंतर क्रियाओं की आवश्यकता होती है, एक बढ़ती समस्या है।

इस समस्या के 2 समाधान हैं: पहला और सबसे आम यह है कि प्रत्येक निरंतर कार्रवाई के लिए, एक अलग एजेंट है जो अपना 1-आयामी माध्य और मानक विचलन सीख रहा है। इसके राज्य के हिस्से में अन्य एजेंटों के कार्यों के साथ-साथ पूरी प्रणाली क्या कर रही है, इसका संदर्भ देना शामिल है। हम आम तौर पर अपनी प्रयोगशाला में ऐसा करते हैं और यहां एक पेपर है जिसमें 3 अभिनेता-आलोचकों के साथ इस दृष्टिकोण का वर्णन किया गया है, जो एक रोबोटिक हाथ को स्थानांतरित करने के लिए एक साथ काम कर रहे हैं।

दूसरा तरीका यह है कि एक एजेंट के पास एक पॉलिसी का बहुभिन्नरूपी (आमतौर पर सामान्य) वितरण होता है। यद्यपि सिद्धांत रूप में, यह दृष्टिकोण सह-विचरण मैट्रिक्स के आधार पर वितरण को "घूर्णन" करके अधिक संक्षिप्त नीति वितरण हो सकता है, इसका मतलब है कि सह-विचरण मैट्रिक्स के सभी मूल्यों को भी सीखना चाहिए। इससे उन मानों की संख्या बढ़ जाती है, जिन्हें सीखना आवश्यक है $n$ से निरंतर आउटपुट $2n$ (माध्य और stddev), को $n+n^2$ ( $n$ साधन और ए $n \times n$ सहप्रसरण आव्यूह)। इस कमी ने इस दृष्टिकोण को साहित्य में उतना लोकप्रिय नहीं बनाया है।

यह एक अधिक सामान्य उत्तर है लेकिन आपको और अन्य को उनकी संबंधित समस्याओं पर मदद करनी चाहिए।

— जादेन त्रावनिक
स्रोत

महान जवाब के लिए जेडन धन्यवाद। 1. मैंने मल्टी-एजेंट आर्किटेक्चर की कोशिश की, लेकिन यह बहुत कुशल नहीं है। अभिसरण करने में अधिक समय लगता है। 2. अब बहुभिन्नरूपी वितरण मुझे भी स्पष्ट लगता है, धन्यवाद।

— Evalds Urtans

एप्लिकेशन और आर्किटेक्चर (यदि यह एक गहरा जाल है) के आधार पर, आपके पास एजेंट निम्न स्तर की विशेषताएं साझा कर सकते हैं और फिर उन्हें अपने स्वयं के मूल्य कार्यों में शाखा दे सकते हैं। इसके अतिरिक्त, 1 आलोचक और कई अभिनेताओं का होना भी वास्तुकला को बढ़ाने का एक तरीका है।

— जेडन Travnik

फिलहाल मैं आपके सुझावों को टीआरपीओ (सिर्फ नीतिगत तरीके) लागू करना चाहूंगा, न कि अभिनेता-आलोचक। मैं आलोचक से अभिनेता तक धीरे-धीरे हस्तांतरण में बहुत आश्वस्त नहीं हूं - कई कार्यान्वयनों में मैंने देखा है कि यह ऐसा दिखता है कि इसे काम नहीं करना चाहिए, हालांकि यह अभिसरण करता है।

— Evalds Urtans

इस नॉब प्रश्न के लिए क्षमा करें: यह अभिनेता-आलोचक विधियों (जहां अभिनेता एक साथ कई निरंतर क्रियाएं कर सकता है) में लागू किया जाता है, जहां अभिनेता का नीतिगत कार्य होता है और नीतिगत ढाल विधि द्वारा प्रशिक्षित किया जाता है? @JadenTravnik क्या आप कृपया यह बता सकते हैं कि उत्तर में एक नई शीर्षक के तहत?

— गोकुल एनसी