सांख्यिकी और बिग डेटा deep-rl

क्यू-लर्निंग परीक्षण के दौरान एप्सिलॉन-लालची का उपयोग क्यों करता है?

अटारी वीडियो गेम ( यहां ) के लिए डीप क्यू-लर्निंग पर डीपमाइंड के पेपर में , वे प्रशिक्षण के दौरान अन्वेषण के लिए एप्सिलॉन-लालची विधि का उपयोग करते हैं। इसका मतलब यह है कि जब प्रशिक्षण में एक कार्रवाई का चयन किया जाता है, तो इसे या तो उच्चतम q- …

18 machine-learning reinforcement-learning q-learning deep-rl

deep-rl पर टैग किए गए जवाब