कृत्रिम होशियारी trpo

कई निरंतर क्रियाओं के मामले में पॉलिसी ग्रेडिएंट कैसे लागू किया जा सकता है?

विश्वसनीय क्षेत्र नीति अनुकूलन (TRPO) और समीपस्थ नीति अनुकूलन (PPO) दो अत्याधुनिक नीति-विन्यास एल्गोरिदम हैं। एक एकल निरंतर कार्रवाई का उपयोग करते समय, सामान्य रूप से, आप हानि फ़ंक्शन के लिए कुछ प्रायिकता वितरण (उदाहरण के लिए, गाऊसी) का उपयोग करेंगे। मोटा संस्करण है: एल ( θ ) = लॉग( …

11 deep-learning reinforcement-learning trpo

trpo पर टैग किए गए जवाब