reinforcement-learning पर टैग किए गए जवाब

बाहरी सकारात्मक सुदृढीकरण या नकारात्मक प्रतिक्रिया संकेत या दोनों के द्वारा नियंत्रित सीखने से संबंधित प्रश्नों के लिए, जहां सीखना और इस प्रकार उपयोग किया गया है कि अब तक सीखा गया है।

2
राज्य में बेसलाइन सशर्त कुछ समय पर निष्पक्ष क्यों है?
रोबोटिक्स में, रोबोट के लिए नियंत्रण पैटर्न खोजने के लिए सुदृढीकरण सीखने की तकनीक का उपयोग किया जाता है। दुर्भाग्य से, अधिकांश नीतिगत ढाल विधि सांख्यिकीय रूप से पक्षपाती है जो रोबोट को असुरक्षित स्थिति में ला सकती है, पेज 2 को जन पीटर्स और स्टीफन शाल में देखें: नीति …

1
शतरंज जैसे खेल के लिए सुदृढीकरण सीखने के आवेदन के बारे में कुछ संदेह
मैंने एक शतरंज की तरह बोर्ड गेम का आविष्कार किया। मैंने एक इंजन बनाया ताकि यह स्वायत्त रूप से खेल सके। इंजन मूल रूप से एक निर्णय वृक्ष है। यह द्वारा रचित है: एक खोज फ़ंक्शन जो प्रत्येक नोड पर सभी संभव कानूनी चालें पाता है एक मूल्यांकन फ़ंक्शन जो …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.