आर्टिफिशियल इंटेलिजेंस वेबसाइट ऑफ-पॉलिसी और ऑन-पॉलिसी लर्निंग को निम्नानुसार परिभाषित करती है:
"एक ऑफ-पॉलिसी शिक्षार्थी एजेंट के कार्यों से स्वतंत्र रूप से इष्टतम नीति का मूल्य सीखता है। क्यू-शिक्षा एक ऑफ-पॉलिसी शिक्षार्थी है। एक ऑन-पॉलिसी शिक्षार्थी अन्वेषण चरणों सहित एजेंट द्वारा की जा रही नीति का मूल्य सीखता है। । "
मैं इस बारे में आपका स्पष्टीकरण पूछना चाहता हूं, क्योंकि उन्हें मुझसे कोई फर्क नहीं पड़ता। दोनों की परिभाषाएं ऐसी लगती हैं कि वे एक जैसे हैं। जो मुझे वास्तव में समझ में आया है वह मॉडल-मुक्त और मॉडल-आधारित शिक्षा है, और मुझे नहीं पता कि क्या उनके पास सवाल करने के लिए कुछ भी है।
यह कैसे संभव है कि एजेंट के कार्यों के लिए स्वतंत्र रूप से इष्टतम नीति सीखी जाए? जब एजेंट कार्रवाई करता है तो क्या पॉलिसी नहीं सीखी जाती है?