4
क्यू-लर्निंग परीक्षण के दौरान एप्सिलॉन-लालची का उपयोग क्यों करता है?
अटारी वीडियो गेम ( यहां ) के लिए डीप क्यू-लर्निंग पर डीपमाइंड के पेपर में , वे प्रशिक्षण के दौरान अन्वेषण के लिए एप्सिलॉन-लालची विधि का उपयोग करते हैं। इसका मतलब यह है कि जब प्रशिक्षण में एक कार्रवाई का चयन किया जाता है, तो इसे या तो उच्चतम q- …