3
यदि पर्यावरण भी स्टोकेस्टिक है तो क्या इष्टतम नीति हमेशा स्टोकेस्टिक है?
क्या इष्टतम नीति हमेशा स्टोचस्टिक है (अर्थात, राज्यों से एक नक्शा जो क्रियाओं पर संभाव्यता वितरण के लिए है) यदि पर्यावरण भी स्टोचस्टिक है? अंतःक्रियात्मक रूप से, यदि पर्यावरण नियतात्मक है (अर्थात, यदि एजेंट राज्य में हैsss और कार्रवाई करता है aaa, फिर अगला राज्य s′s′s' हमेशा समान होता है, …