मूल्य पुनरावृत्ति और नीति पुनरावृत्ति के बीच अंतर क्या है?

Question 1

सुदृढीकरण सीखने में, नीति पुनरावृत्ति और मूल्य पुनरावृत्ति में क्या अंतर है ?

जितना मैं समझता हूं, मूल्य पुनरावृत्ति में, आप इष्टतम नीति के समाधान के लिए बेलमैन समीकरण का उपयोग करते हैं, जबकि, नीति पुनरावृत्ति में, आप बेतरतीब ढंग से एक नीति π का चयन करते हैं, और उस नीति का प्रतिफल पाते हैं।

मेरा संदेह यह है कि यदि आप PI में एक यादृच्छिक नीति का चयन कर रहे हैं, तो यह इष्टतम नीति होने की गारंटी कैसे दी जाती है, भले ही हम कई यादृच्छिक नीतियां चुन रहे हों।

Question 2

आइए उनकी तरफ देखते हैं। तुलना के लिए प्रमुख भागों पर प्रकाश डाला गया है। आंकड़े सटन और बार्टो की किताब: रीनफोर्स लर्निंग: एन इंट्रोडक्शन से हैं ।

प्रमुख बिंदु:

नीति पुनरावृत्ति में शामिल हैं: नीति मूल्यांकन + नीति में सुधार , और जब तक नीति में परिवर्तन नहीं किया जाता तब तक दोनों को पुनरावृत्त रूप से दोहराया जाता है।
मूल्य पुनरावृत्ति में शामिल हैं: इष्टतम मान फ़ंक्शन + एक नीति निष्कर्षण खोजना । दोनों का कोई दोहराव नहीं है क्योंकि एक बार मान फ़ंक्शन इष्टतम है, तो इससे बाहर की नीति भी इष्टतम होनी चाहिए (अर्थात परिवर्तित)।
इष्टतम मान फ़ंक्शन ढूँढना को नीति सुधार (अधिकतम के कारण) और काटे गए नीति मूल्यांकन (v_ के पुनर्मूल्यांकन के बाद सभी राज्यों के केवल एक स्वीप के बावजूद अभिसरण की परवाह किए बिना) के संयोजन के रूप में भी देखा जा सकता है।
नीति निर्धारण के लिए एल्गोरिदम और अधिकतम मान को छोड़कर अधिकतम मान प्राप्त करने के लिए फ़ंक्शन समान हैं (जैसा कि हाइलाइट किया गया है)
इसी तरह, नीति में सुधार और नीतिगत निकासी के लिए महत्वपूर्ण कदम समान हैं सिवाय इसके कि पूर्व में स्थिरता जांच शामिल है।

मेरे अनुभव में, नीति पुनरावृत्ति की तुलना में तेज है मूल्य पुनरावृत्ति की , क्योंकि नीति मान फ़ंक्शन की तुलना में अधिक तेज़ी से परिवर्तित होती है। मुझे याद है यह किताब में भी वर्णित है।

मुझे लगता है कि भ्रम मुख्य रूप से इन सभी समान शर्तों से आया है, जिसने मुझे पहले भी भ्रमित किया था।

Question 3

में नीति यात्रा एल्गोरिदम, आप एक यादृच्छिक नीति के साथ शुरू करते हैं, तो उस नीति (नीति मूल्यांकन कदम) के मान समारोह मिल जाए, तो पिछले मान कार्य के आधार पर एक नया (सुधार) नीति मिल जाए, और इतने पर। इस प्रक्रिया में, प्रत्येक पॉलिसी को पिछले एक (जब तक यह पहले से ही इष्टतम नहीं है) पर एक सख्त सुधार की गारंटी है। किसी नीति को देखते हुए, इसका मान फ़ंक्शन का उपयोग करके प्राप्त किया जा सकता है बेलमैन ऑपरेटर ।

में मूल्य यात्रा , आप एक यादृच्छिक मान समारोह के साथ शुरू और फिर इष्टतम मूल्य समारोह तक पहुँचने तक, एक नया (सुधार) मूल्य एक सतत प्रक्रिया में समारोह पाते हैं। ध्यान दें कि आप इष्टतम मूल्य फ़ंक्शन से इष्टतम नीति को आसानी से प्राप्त कर सकते हैं। यह प्रक्रिया इष्टतम बेलमैन ऑपरेटर पर आधारित है ।

कुछ अर्थों में, दोनों एल्गोरिदम एक ही कार्य सिद्धांत को साझा करते हैं, और उन्हें सामान्यीकृत नीति पुनरावृत्ति के दो मामलों के रूप में देखा जा सकता है । हालांकि, इष्टतम बेलमैन ऑपरेटर में ए शामिल है अधिकतम ऑपरेटर होता है, जो गैर रेखीय होता है और इसलिए, इसकी अलग-अलग विशेषताएं होती हैं। इसके अलावा, शुद्ध मूल्य पुनरावृत्ति और शुद्ध नीति पुनरावृत्ति के बीच संकर विधियों का उपयोग करना संभव है।

Question 4

मूल अंतर है -

में नीति पुनरावृत्ति - आप बेतरतीब ढंग से एक नीति का चयन करें और मूल्य समारोह में यह करने के लिए इसी मिल जाए, तो पिछले मान कार्य के आधार पर एक नया (सुधार) नीति को खोजने, और इसलिए इस पर इष्टतम नीति को बढ़ावा मिलेगा।

में मूल्य पुनरावृत्ति - आप बेतरतीब ढंग से एक मूल्य के समारोह का चयन करें, तो इष्टतम मूल्य समारोह है कि इष्टतम मूल्य समारोह से, तो निकाले जाते हैं इष्टतम नीति तक पहुंच गया जब तक, एक नया (सुधार) मूल्य एक सतत प्रक्रिया में समारोह पाते हैं।

नीति निर्धारण "नीति मूल्यांकन-> नीति सुधार" के सिद्धांत पर काम करता है।

मूल्य परिवर्तन "इष्टतम मान फ़ंक्शन-> इष्टतम नीति" के सिद्धांत पर काम करता है।

Question 5

जहां तक मेरा सवाल है, @zyxue के विचार के विपरीत, VI आमतौर पर PI की तुलना में बहुत तेज है।

कारण बहुत सीधा है, जैसा कि आप पहले से ही जानते थे, बेलमैन इक्वेशन का उपयोग दिए गए पॉलिसी के मूल्य फ़ंक्शन को हल करने के लिए किया जाता है। चूंकि हम सीधे इष्टतम नीति के लिए मान फ़ंक्शन को हल कर सकते हैं , वर्तमान नीति के लिए मूल्य फ़ंक्शन को हल करना स्पष्ट रूप से समय की बर्बादी है।

पीआई की परिवर्तनीयता के बारे में आपके प्रश्न के लिए, मुझे लगता है कि आप इस तथ्य को नजरअंदाज कर सकते हैं कि यदि आप प्रत्येक सूचना राज्य के लिए रणनीति में सुधार करते हैं, तो आप पूरे खेल के लिए रणनीति में सुधार करते हैं। यह साबित करना भी आसान है, यदि आप काउंटरफैक्टुअल रेग्रेट मिनिमाइजेशन से परिचित थे - प्रत्येक सूचना राज्य के लिए अफसोस का योग समग्र अफसोस का ऊपरी हिस्सा बना है, और इस प्रकार प्रत्येक राज्य के लिए अफसोस कम करने से समग्र अफसोस कम हो जाएगा, जो इष्टतम नीति की ओर जाता है।