विश्वसनीय क्षेत्र नीति अनुकूलन (TRPO) और समीपस्थ नीति अनुकूलन (PPO) दो अत्याधुनिक नीति-विन्यास एल्गोरिदम हैं।
एक एकल निरंतर कार्रवाई का उपयोग करते समय, सामान्य रूप से, आप हानि फ़ंक्शन के लिए कुछ प्रायिकता वितरण (उदाहरण के लिए, गाऊसी) का उपयोग करेंगे। मोटा संस्करण है:
कहाँ पे पुरस्कार का लाभ है, द्वारा चित्रित है तथा यह पेंडुलम वातावरण की तरह तंत्रिका नेटवर्क से बाहर आता है: https://github.com/leomzhong/DeepReinforceLearningCourse/blob/69e573cd88faec7e9cf900a8eeef08c57dec0f0/hw4/main.py ।
समस्या यह है कि मैं पॉलिसी ग्रेडिएंट्स का उपयोग करते हुए 2+ निरंतर क्रियाओं पर कोई पेपर नहीं पा सकता हूं (न कि अभिनेता-आलोचक तरीके जो क्यू-फ़ंक्शन से ग्रेडिएंट को स्थानांतरित करके एक अलग दृष्टिकोण का उपयोग करते हैं)।
क्या आप जानते हैं कि LunarLander वातावरण में लगातार 2 क्रियाओं के लिए TRPO का उपयोग कैसे किया जाता है ?
नीति ढाल हानि फ़ंक्शन के लिए निम्नलिखित दृष्टिकोण सही है?