trpo पर टैग किए गए जवाब

1
कई निरंतर क्रियाओं के मामले में पॉलिसी ग्रेडिएंट कैसे लागू किया जा सकता है?
विश्वसनीय क्षेत्र नीति अनुकूलन (TRPO) और समीपस्थ नीति अनुकूलन (PPO) दो अत्याधुनिक नीति-विन्यास एल्गोरिदम हैं। एक एकल निरंतर कार्रवाई का उपयोग करते समय, सामान्य रूप से, आप हानि फ़ंक्शन के लिए कुछ प्रायिकता वितरण (उदाहरण के लिए, गाऊसी) का उपयोग करेंगे। मोटा संस्करण है: एल ( θ ) = लॉग( …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.