1
कई निरंतर क्रियाओं के मामले में पॉलिसी ग्रेडिएंट कैसे लागू किया जा सकता है?
विश्वसनीय क्षेत्र नीति अनुकूलन (TRPO) और समीपस्थ नीति अनुकूलन (PPO) दो अत्याधुनिक नीति-विन्यास एल्गोरिदम हैं। एक एकल निरंतर कार्रवाई का उपयोग करते समय, सामान्य रूप से, आप हानि फ़ंक्शन के लिए कुछ प्रायिकता वितरण (उदाहरण के लिए, गाऊसी) का उपयोग करेंगे। मोटा संस्करण है: एल ( θ ) = लॉग( …