क्या इष्टतम नीति हमेशा स्टोचस्टिक है (अर्थात, राज्यों से एक नक्शा जो क्रियाओं पर संभाव्यता वितरण के लिए है) यदि पर्यावरण भी स्टोचस्टिक है?
नहीं।
एक इष्टतम नीति आम तौर पर नियतात्मक होती है जब तक कि:
महत्वपूर्ण राज्य सूचना गायब है (एक POMDP)। उदाहरण के लिए, एक ऐसे मानचित्र में जहां एजेंट को इसकी सही स्थिति जानने या पिछले राज्यों को याद रखने की अनुमति नहीं है, और यह जिस राज्य को दिया गया है, वह स्थानों के बीच अंतर करने के लिए पर्याप्त नहीं है। यदि लक्ष्य एक विशिष्ट अंतिम स्थान पर जाना है, तो अटक जाने से बचने के लिए इष्टतम नीति में कुछ यादृच्छिक चालें शामिल हो सकती हैं। ध्यान दें कि इस मामले में पर्यावरण नियतात्मक हो सकता है (किसी के दृष्टिकोण से जो पूरे राज्य को देख सकता है), लेकिन फिर भी इसे हल करने के लिए एक स्टोकेस्टिक नीति की आवश्यकता होती है।
कुछ प्रकार के न्यूनतम गेम सिद्धांत परिदृश्य है, जहां एक नियतात्मक नीति को पर्यावरण या किसी अन्य एजेंट द्वारा दंडित किया जा सकता है। कैंची / कागज / पत्थर या कैदी की दुविधा को समझें।
अंतःक्रियात्मक रूप से, यदि पर्यावरण नियतात्मक है (अर्थात, यदि एजेंट एक राज्य में है state और कार्रवाई 𝑎 करता है, तो अगला राज्य 𝑠 always हमेशा समान होता है, चाहे वह कोई भी समय क्यों न हो), तो इष्टतम नीति भी नियतात्मक होनी चाहिए (अर्थात, यह राज्यों से कार्यों के लिए एक मानचित्र होना चाहिए, और कार्यों पर संभाव्यता वितरण के लिए नहीं)।
यह उचित प्रतीत होता है, लेकिन आप मान के आधार पर किसी भी विधि के साथ उस अंतर्ज्ञान को आगे ले जा सकते हैं:
आप एक इष्टतम मूल्य समारोह पाया है, तो सम्मान के साथ लालच से अभिनय इसे करने के लिए है इष्टतम नीति।
उपरोक्त कथन बेलमैन की अधिकतमता समीकरण की एक प्राकृतिक भाषा है।
v∗(s)=maxa∑r,s′p(r,s′|s,a)(r+γv∗(s′))
हमेशा इष्टतम मान प्राप्त होते हैं जब हमेशा कार्रवाई का चयन करते हैं जो अगले चरण के इनाम प्लस रियायती मूल्य को अधिकतम करता है। maxa ऑपरेशन नियतात्मक है (यदि आवश्यक हो तो आप अधिकतम मूल्य के लिए निश्चित रूप से उदाहरण के लिए कार्रवाई की एक सूचीबद्ध सूची से संबंध तोड़ सकते हैं)।
इसलिए, किसी भी वातावरण को एमडीपी द्वारा मॉडल किया जा सकता है और मूल्य-आधारित विधि (जैसे मूल्य पुनरावृत्ति, क्यू-लर्निंग) द्वारा हल किया जा सकता है, एक इष्टतम नीति है जो नियतात्मक है।
ऐसे वातावरण में यह संभव है कि इष्टतम समाधान बिल्कुल भी स्टोचस्टिक नहीं हो सकता है (यानी यदि आप निर्धारक इष्टतम नीति में कोई यादृच्छिकता जोड़ते हैं, तो नीति सख्ती से बदतर हो जाएगी)। हालाँकि, जब एक या एक से अधिक राज्यों में एक या एक से अधिक कार्यों के लिए अधिकतम मूल्य के संबंध होते हैं तो कई समतुल्य इष्टतम और निर्धारक नीतियाँ होती हैं। आप एक स्टोकेस्टिक नीति का निर्माण कर सकते हैं जो किसी भी संयोजन में इनका मिश्रण करता है, और यह भी इष्टतम होगा।