reinforcement-learning पर टैग किए गए जवाब

बाहरी सकारात्मक सुदृढीकरण या नकारात्मक प्रतिक्रिया संकेत या दोनों के द्वारा नियंत्रित सीखने से संबंधित प्रश्नों के लिए, जहां सीखना और इस प्रकार उपयोग किया गया है कि अब तक सीखा गया है।

राज्य में बेसलाइन सशर्त कुछ समय पर निष्पक्ष क्यों है?

रोबोटिक्स में, रोबोट के लिए नियंत्रण पैटर्न खोजने के लिए सुदृढीकरण सीखने की तकनीक का उपयोग किया जाता है। दुर्भाग्य से, अधिकांश नीतिगत ढाल विधि सांख्यिकीय रूप से पक्षपाती है जो रोबोट को असुरक्षित स्थिति में ला सकती है, पेज 2 को जन पीटर्स और स्टीफन शाल में देखें: नीति …

9 reinforcement-learning

शतरंज जैसे खेल के लिए सुदृढीकरण सीखने के आवेदन के बारे में कुछ संदेह

मैंने एक शतरंज की तरह बोर्ड गेम का आविष्कार किया। मैंने एक इंजन बनाया ताकि यह स्वायत्त रूप से खेल सके। इंजन मूल रूप से एक निर्णय वृक्ष है। यह द्वारा रचित है: एक खोज फ़ंक्शन जो प्रत्येक नोड पर सभी संभव कानूनी चालें पाता है एक मूल्यांकन फ़ंक्शन जो …

9 reinforcement-learning game-ai game-theory combinatorial-games negamax

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।

Licensed under cc by-sa 3.0 with attribution required.