deep-rl पर टैग किए गए जवाब

4
क्यू-लर्निंग परीक्षण के दौरान एप्सिलॉन-लालची का उपयोग क्यों करता है?
अटारी वीडियो गेम ( यहां ) के लिए डीप क्यू-लर्निंग पर डीपमाइंड के पेपर में , वे प्रशिक्षण के दौरान अन्वेषण के लिए एप्सिलॉन-लालची विधि का उपयोग करते हैं। इसका मतलब यह है कि जब प्रशिक्षण में एक कार्रवाई का चयन किया जाता है, तो इसे या तो उच्चतम q- …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.