यदि पर्यावरण भी स्टोकेस्टिक है तो क्या इष्टतम नीति हमेशा स्टोकेस्टिक है?


10

क्या इष्टतम नीति हमेशा स्टोचस्टिक है (अर्थात, राज्यों से एक नक्शा जो क्रियाओं पर संभाव्यता वितरण के लिए है) यदि पर्यावरण भी स्टोचस्टिक है?

अंतःक्रियात्मक रूप से, यदि पर्यावरण नियतात्मक है (अर्थात, यदि एजेंट राज्य में हैs और कार्रवाई करता है a, फिर अगला राज्य s हमेशा समान होता है, चाहे कोई भी समय क्यों न हो), फिर इष्टतम नीति भी नियतात्मक होनी चाहिए (अर्थात, यह राज्यों से कार्यों के लिए एक मानचित्र होना चाहिए, और कार्यों पर संभाव्यता वितरण के लिए नहीं)।


यहाँ एक संबंधित प्रश्न है: mathoverflow.net/q/44677
nbro

जवाबों:


6

क्या इष्टतम नीति हमेशा स्टोचस्टिक है (अर्थात, राज्यों से एक नक्शा जो क्रियाओं पर संभाव्यता वितरण के लिए है) यदि पर्यावरण भी स्टोचस्टिक है?

नहीं।

एक इष्टतम नीति आम तौर पर नियतात्मक होती है जब तक कि:

  • महत्वपूर्ण राज्य सूचना गायब है (एक POMDP)। उदाहरण के लिए, एक ऐसे मानचित्र में जहां एजेंट को इसकी सही स्थिति जानने या पिछले राज्यों को याद रखने की अनुमति नहीं है, और यह जिस राज्य को दिया गया है, वह स्थानों के बीच अंतर करने के लिए पर्याप्त नहीं है। यदि लक्ष्य एक विशिष्ट अंतिम स्थान पर जाना है, तो अटक जाने से बचने के लिए इष्टतम नीति में कुछ यादृच्छिक चालें शामिल हो सकती हैं। ध्यान दें कि इस मामले में पर्यावरण नियतात्मक हो सकता है (किसी के दृष्टिकोण से जो पूरे राज्य को देख सकता है), लेकिन फिर भी इसे हल करने के लिए एक स्टोकेस्टिक नीति की आवश्यकता होती है।

  • कुछ प्रकार के न्यूनतम गेम सिद्धांत परिदृश्य है, जहां एक नियतात्मक नीति को पर्यावरण या किसी अन्य एजेंट द्वारा दंडित किया जा सकता है। कैंची / कागज / पत्थर या कैदी की दुविधा को समझें।

अंतःक्रियात्मक रूप से, यदि पर्यावरण नियतात्मक है (अर्थात, यदि एजेंट एक राज्य में है state और कार्रवाई 𝑎 करता है, तो अगला राज्य 𝑠 always हमेशा समान होता है, चाहे वह कोई भी समय क्यों न हो), तो इष्टतम नीति भी नियतात्मक होनी चाहिए (अर्थात, यह राज्यों से कार्यों के लिए एक मानचित्र होना चाहिए, और कार्यों पर संभाव्यता वितरण के लिए नहीं)।

यह उचित प्रतीत होता है, लेकिन आप मान के आधार पर किसी भी विधि के साथ उस अंतर्ज्ञान को आगे ले जा सकते हैं:

आप एक इष्टतम मूल्य समारोह पाया है, तो सम्मान के साथ लालच से अभिनय इसे करने के लिए है इष्टतम नीति।

उपरोक्त कथन बेलमैन की अधिकतमता समीकरण की एक प्राकृतिक भाषा है।

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

हमेशा इष्टतम मान प्राप्त होते हैं जब हमेशा कार्रवाई का चयन करते हैं जो अगले चरण के इनाम प्लस रियायती मूल्य को अधिकतम करता है। maxa ऑपरेशन नियतात्मक है (यदि आवश्यक हो तो आप अधिकतम मूल्य के लिए निश्चित रूप से उदाहरण के लिए कार्रवाई की एक सूचीबद्ध सूची से संबंध तोड़ सकते हैं)।

इसलिए, किसी भी वातावरण को एमडीपी द्वारा मॉडल किया जा सकता है और मूल्य-आधारित विधि (जैसे मूल्य पुनरावृत्ति, क्यू-लर्निंग) द्वारा हल किया जा सकता है, एक इष्टतम नीति है जो नियतात्मक है।

ऐसे वातावरण में यह संभव है कि इष्टतम समाधान बिल्कुल भी स्टोचस्टिक नहीं हो सकता है (यानी यदि आप निर्धारक इष्टतम नीति में कोई यादृच्छिकता जोड़ते हैं, तो नीति सख्ती से बदतर हो जाएगी)। हालाँकि, जब एक या एक से अधिक राज्यों में एक या एक से अधिक कार्यों के लिए अधिकतम मूल्य के संबंध होते हैं तो कई समतुल्य इष्टतम और निर्धारक नीतियाँ होती हैं। आप एक स्टोकेस्टिक नीति का निर्माण कर सकते हैं जो किसी भी संयोजन में इनका मिश्रण करता है, और यह भी इष्टतम होगा।


1
"इस तरह के माहौल में यह संभव है कि कोई स्टोकेस्टिक नीति इष्टतम नहीं है", आपका मतलब नियतात्मक नीति है?
nbro

2
@nbro: नहीं, मेरा वास्तव में मतलब है कि कोई इष्टतम स्टोकेस्टिक नीति नहीं है। यह आमतौर पर मामला है। एक साधारण भूलभुलैया सॉल्वर के उदाहरण के लिए सोचें। यदि इष्टतम निर्धारक समाधान शुरू से बाहर निकलने तक एक ही रास्ता है, तो इसमें कोई भी यादृच्छिकता जोड़ने से नीति सख्ती से खराब हो जाएगी। अगर पर्यावरण यादृच्छिक शोर (जैसे कभी-कभी विफल रहता है) जोड़ता है तो यह नहीं बदलता है
नील स्लेटर

2
मैं अब समझता हूँ। आप कह रहे हैं कि हमेशा एक नियतात्मक नीति होती है, फिर एक नीति जो निर्धारक नीति से निर्धारित और व्युत्पन्न होती है, संभवतः इष्टतम निर्धारक नीति से भी बदतर होगी।
nbro

1
@nbro: हाँ, यह बात है।
नील स्लेटर

5

मैं कहूंगा कि नहीं।

उदाहरण के लिए, बहु-सशस्त्र दस्यु समस्या पर विचार करें । मतलब आपके पास हैn हथियार जो आप सभी को एक इनाम देने की संभावना रखते हैं (उदाहरण के लिए 1 अंक), pi, i 1 और के बीच होना n। यह एक सरल स्टोकेस्टिक वातावरण है: यह एक राज्य का वातावरण है, लेकिन यह अभी भी एक पर्यावरण है।

लेकिन स्पष्ट रूप से इष्टतम नीति हाथ को उच्चतम के साथ चुनना है pi। तो यह एक कट्टर नीति नहीं है।

जाहिर है, यदि आप एक ऐसे वातावरण में हैं जहां आप अन्य एजेंट (एक गेम थ्योरी सेटिंग) के खिलाफ खेलते हैं, तो आपकी इष्टतम नीति निश्चित रूप से स्टोकेस्टिक होगी (उदाहरण के लिए, पोकर गेम के बारे में सोचें)।


हमेशा हाथ को उच्चतम के साथ चुनना स्पष्ट क्यों होगा pi? pi एक संभावना है, इसलिए यह निश्चित नहीं है कि आप हमेशा सबसे अधिक इनाम (कम से कम, परिमित समय में) प्राप्त करेंगे यदि आप हाथ चुनते हैं मैं
nbro

2
@nbro: यह अपेक्षा में निश्चित है, जो कि इष्टतम नीति अधिकतम होती है। नीतियां रैंडम नंबर जनरेटर का अनुमान लगाने की कोशिश नहीं करती हैं, जो असंभव माना जाता है (यदि सिस्टम की कुछ आंतरिक स्थिति के कारण यह संभव था, तो आपको उस आंतरिक स्थिति को मॉडल में जोड़ना होगा, या POMDP के रूप में व्यवहार करना होगा)
नील स्लेटर

@NeilSlater ठीक है। लेकिन क्या समय के परिमित होने पर निष्कर्ष बदल जाएगा? यदि आपके पास खेलने के लिए सीमित समय है, तो उम्मीद है, मुझे लगता है, खेलने के लिए उपलब्ध समय पर भी विचार करना चाहिए।
nbro

2
@nbro: यह आपके निर्णय बदल सकता है, लेकिन वास्तव में इष्टतम नीति के बारे में नहीं है। दस्यु बाहु के लिए इष्टतम नीति अभी भी निर्धारक है, सबसे अच्छी भुजा का उपयोग करने के बारे में, लेकिन आप इसे नहीं जानते हैं। यह अन्वेषण बनाम शोषण के बारे में है। आप शायद "दस्यु समस्या की खोज के लिए एक इष्टतम नीति" के रूप में वाक्यांश दे सकते हैं । उदाहरण के लिए, सदन और बार्टो में प्रयुक्त शब्दावली नहीं, लेकिन शायद कुछ परीक्षकों का कहना है कि, मुझे नहीं पता। । ।
नील स्लेटर

1
पर्यावरण में केवल एक राज्य होता है जिसमें आप एक ही निर्णय का सामना करते हैं: मुझे कौन सी भुजा चुननी है?
एड्रिन फोर्बु

0

मैं एक संभावना परिदृश्य के बारे में सोच रहा हूं, जिसमें आप विभिन्न अज्ञात चोटियों और गर्तों के साथ खुद को एक अभिनेता के रूप में पाते हैं। एक अच्छा नियतात्मक दृष्टिकोण हमेशा आपको निकटतम स्थानीय इष्टतम तक ले जाने की संभावना है, लेकिन वैश्विक इष्टतम के लिए आवश्यक नहीं है। वैश्विक इष्टतम को खोजने के लिए, MCMC एल्गोरिथ्म की तरह कुछ एक स्थानीय इष्टतम से बचने और वैश्विक इष्टतम खोजने के लिए अस्थायी रूप से बदतर परिणाम को स्वीकार करने की अनुमति देगा। मेरा अंतर्ज्ञान यह है कि एक रूढ़िवादी वातावरण में यह सच भी होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.