उपयोग करने का कारण ε-परीक्षण के दौरान लालची है कि, पर्यवेक्षित मशीन लर्निंग (उदाहरण छवि वर्गीकरण के लिए) के विपरीत, सुदृढीकरण सीखने में परीक्षण चरण के लिए कोई अनदेखी, आयोजित डेटा सेट उपलब्ध नहीं है। इसका अर्थ है कि एल्गोरिथ्म को उसी सेटअप पर परीक्षण किया गया है जिस पर उसे प्रशिक्षित किया गया है। अब कागज का उल्लेख है (अनुभाग तरीके, मूल्यांकन प्रक्रिया):
प्रशिक्षित एजेंटों का मूल्यांकन प्रत्येक खेल को 30 बार 5 मिनट तक के लिए अलग-अलग प्रारंभिक यादृच्छिक स्थितियों ('नहीं-ऑप' के साथ किया गया था; विस्तारित डेटा तालिका 1 देखें) और एक ε-भोगी नीति के साथ 5 = 0.05। मूल्यांकन के दौरान ओवरफिटिंग की संभावना को कम करने के लिए यह प्रक्रिया अपनाई जाती है।
विशेष रूप से चूंकि प्रीप्रोसेस किए गए इनपुट में पहले से सामना किए गए राज्यों का इतिहास होता है, इसलिए चिंता यह है कि अंतर्निहित गेमप्ले को सामान्य करने के बजाय, एजेंट सिर्फ उस विशिष्ट गेम के लिए इष्टतम ट्रैजेटरी को याद करता है और परीक्षण चरण के दौरान उन्हें फिर से खोल देता है; इसका मतलब "मूल्यांकन के दौरान ओवरफिटिंग की संभावना" से है । नियतात्मक वातावरण के लिए यह स्पष्ट है, लेकिन स्टोकेस्टिक राज्य संक्रमण के लिए भी संस्मरण (यानी ओवरफिटिंग) हो सकता है। परीक्षण के चरण के दौरान यादृच्छिककरण का उपयोग करते हुए, नो-ऑप के रूप में यादृच्छिक लंबाई के साथ-साथ खेल के दौरान यादृच्छिक क्रियाओं के एक हिस्से के रूप में, एल्गोरिदम को अप्रत्याशित राज्यों से निपटने के लिए मजबूर करता है और इसलिए कुछ हद तक सामान्यीकरण की आवश्यकता होती है।
दूसरी ओर ε-गॉर्डी का उपयोग एल्गोरिथ्म के खराब प्रदर्शन वाले क्षेत्रों में अनस्टक पाने में मदद करके एल्गोरिथम के प्रदर्शन में सुधार के लिए नहीं किया जाता है। यद्यपि एक दी गई नीति को हमेशा इष्टतम नीति का एक अनुमानित माना जा सकता है (कम से कम इस तरह के कार्यों के लिए), उन्होंने उस बिंदु से परे अच्छी तरह से प्रशिक्षित किया है जहां एल्गोरिथ्म निरर्थक क्रियाएं करेगा। का उपयोग करते हुएϵ = 0परीक्षण के दौरान संभावित रूप से प्रदर्शन में सुधार होगा, लेकिन यहां बिंदु सामान्यीकरण की क्षमता दिखाने के लिए है। इसके अलावा अधिकांश अटारी खेलों में राज्य भी बिना किसी विकल्प के विकसित होता है और इसलिए एजेंट स्वाभाविक रूप से "अस्थिर" हो जाएगा यदि ऐसा कभी हुआ हो। अन्य जगहों पर वर्णित भूलभुलैया उदाहरण को ध्यान में रखते हुए, जहां पर्यावरण नो-ऑप्स पर विकसित नहीं होता है, एजेंट जल्दी से सीखेंगे कि दीवार में दौड़ना एक अच्छा विचार नहीं है यदि इनाम ठीक से आकार का है (उदाहरण के लिए प्रत्येक चरण के लिए -1); आशावादी प्रारंभिक मूल्यों का उपयोग करते समय विशेष रूप से आवश्यक अन्वेषण स्वाभाविक रूप से होता है। यदि आपको अभी भी लगता है कि आपका एल्गोरिथ्म कुछ स्थितियों में कभी अटक रहा है तो इसका मतलब है कि आपको क्रियाओं के संबंध में कुछ सहायक यादृच्छिककरण शुरू करने के बजाय प्रशिक्षण समय (यानी अधिक एपिसोड चलाने) की आवश्यकता है।
यदि आप सिस्टम डिवेलपिंग के साथ एक वातावरण में चल रहे हैं (जो कि समय के साथ अंतर्निहित राज्य परिवर्तन या पुरस्कार परिवर्तन है) तो आपको कुछ हद तक अन्वेषण को बनाए रखना होगा और परिवर्तनों को बनाए रखने के लिए अपनी नीति को तदनुसार अपडेट करना होगा।