मूल्य पुनरावृत्ति और नीति पुनरावृत्ति के बीच अंतर क्या है?


93

सुदृढीकरण सीखने में, नीति पुनरावृत्ति और मूल्य पुनरावृत्ति में क्या अंतर है ?

जितना मैं समझता हूं, मूल्य पुनरावृत्ति में, आप इष्टतम नीति के समाधान के लिए बेलमैन समीकरण का उपयोग करते हैं, जबकि, नीति पुनरावृत्ति में, आप बेतरतीब ढंग से एक नीति π का ​​चयन करते हैं, और उस नीति का प्रतिफल पाते हैं।

मेरा संदेह यह है कि यदि आप PI में एक यादृच्छिक नीति का चयन कर रहे हैं, तो यह इष्टतम नीति होने की गारंटी कैसे दी जाती है, भले ही हम कई यादृच्छिक नीतियां चुन रहे हों।


13
Ai.stackexchange.com , आँकड़े . stackexchange.com या datascience.stackexchange.com जैसी वेबसाइटों पर यह प्रश्न पूछना अधिक उपयुक्त होगा ।
नबर

जवाबों:


123

आइए उनकी तरफ देखते हैं। तुलना के लिए प्रमुख भागों पर प्रकाश डाला गया है। आंकड़े सटन और बार्टो की किताब: रीनफोर्स लर्निंग: एन इंट्रोडक्शन से हैं

यहाँ छवि विवरण दर्ज करें प्रमुख बिंदु:

  1. नीति पुनरावृत्ति में शामिल हैं: नीति मूल्यांकन + नीति में सुधार , और जब तक नीति में परिवर्तन नहीं किया जाता तब तक दोनों को पुनरावृत्त रूप से दोहराया जाता है।
  2. मूल्य पुनरावृत्ति में शामिल हैं: इष्टतम मान फ़ंक्शन + एक नीति निष्कर्षण खोजना । दोनों का कोई दोहराव नहीं है क्योंकि एक बार मान फ़ंक्शन इष्टतम है, तो इससे बाहर की नीति भी इष्टतम होनी चाहिए (अर्थात परिवर्तित)।
  3. इष्टतम मान फ़ंक्शन ढूँढना को नीति सुधार (अधिकतम के कारण) और काटे गए नीति मूल्यांकन (v_ के पुनर्मूल्यांकन के बाद सभी राज्यों के केवल एक स्वीप के बावजूद अभिसरण की परवाह किए बिना) के संयोजन के रूप में भी देखा जा सकता है।
  4. नीति निर्धारण के लिए एल्गोरिदम और अधिकतम मान को छोड़कर अधिकतम मान प्राप्त करने के लिए फ़ंक्शन समान हैं (जैसा कि हाइलाइट किया गया है)
  5. इसी तरह, नीति में सुधार और नीतिगत निकासी के लिए महत्वपूर्ण कदम समान हैं सिवाय इसके कि पूर्व में स्थिरता जांच शामिल है।

मेरे अनुभव में, नीति पुनरावृत्ति की तुलना में तेज है मूल्य पुनरावृत्ति की , क्योंकि नीति मान फ़ंक्शन की तुलना में अधिक तेज़ी से परिवर्तित होती है। मुझे याद है यह किताब में भी वर्णित है।

मुझे लगता है कि भ्रम मुख्य रूप से इन सभी समान शर्तों से आया है, जिसने मुझे पहले भी भ्रमित किया था।


3
मैं मानता हूं कि नीति पुनरावृत्ति कम पुनरावृत्तियों में परिवर्तित होती है और मैंने कई स्थानों पर यह भी पढ़ा है कि यह तेज है। मैंने कुछ सरल बॉक्स-वर्ल्ड और भूलभुलैया समाधान दोनों तरीकों के साथ बर्लैप में किए। मैंने पाया कि मूल्य पुनरावृत्ति ने अधिक पुनरावृत्तियों का प्रदर्शन किया लेकिन अभिसरण तक पहुंचने में कम समय लिया। YMMV।
रयान

1
@Chrom, आपको oppposite पढ़ना चाहिए। यहाँ पुस्तक का एक उद्धरण है, " नीति पुनरावृत्ति अक्सर आश्चर्यजनक रूप से कुछ पुनरावृत्तियों में परिवर्तित होती है। यह चित्र 4.1 में उदाहरण द्वारा सचित्र है। ", पुस्तक के 2017nov5 संस्करण के पृष्ठ 65 से ।
zyxue

3
हाँ, मैंने ग्रिड दुनिया के कई स्वादों के साथ खेला है। मैं सिर्फ यह बताना चाह रहा था कि पुनरावृत्तियों के संदर्भ में "तेज़" शायद पीआई का पक्ष लेने वाला है। लेकिन सेकंड के मामले में "तेज़" वास्तव में VI का पक्ष ले सकता है।
रियान

3
स्पष्ट करने के लिए, नीति पुनरावृत्ति कम पुनरावृत्तियों ले जाएगा, लेकिन मूल्य पुनरावृत्ति की तुलना में अधिक कम्प्यूटेशनल रूप से जटिल है; जो तेज है वह पर्यावरण पर निर्भर करता है।
आरएफ नेल्सन

2
मुझे पता है कि यह एक पुरानी पोस्ट है। लेकिन मैं अत्यधिक सुझाव देता हूं, इसे देखते हुए ( medium.com/@m.alzantot/… ) लिंक एक कोड प्रदान करता है और इसने मेरे लिए इसे बहुत स्पष्ट कर दिया है।
अग्रानुक्रम

72

में नीति यात्रा एल्गोरिदम, आप एक यादृच्छिक नीति के साथ शुरू करते हैं, तो उस नीति (नीति मूल्यांकन कदम) के मान समारोह मिल जाए, तो पिछले मान कार्य के आधार पर एक नया (सुधार) नीति मिल जाए, और इतने पर। इस प्रक्रिया में, प्रत्येक पॉलिसी को पिछले एक (जब तक यह पहले से ही इष्टतम नहीं है) पर एक सख्त सुधार की गारंटी है। किसी नीति को देखते हुए, इसका मान फ़ंक्शन का उपयोग करके प्राप्त किया जा सकता है बेलमैन ऑपरेटर

में मूल्य यात्रा , आप एक यादृच्छिक मान समारोह के साथ शुरू और फिर इष्टतम मूल्य समारोह तक पहुँचने तक, एक नया (सुधार) मूल्य एक सतत प्रक्रिया में समारोह पाते हैं। ध्यान दें कि आप इष्टतम मूल्य फ़ंक्शन से इष्टतम नीति को आसानी से प्राप्त कर सकते हैं। यह प्रक्रिया इष्टतम बेलमैन ऑपरेटर पर आधारित है ।

कुछ अर्थों में, दोनों एल्गोरिदम एक ही कार्य सिद्धांत को साझा करते हैं, और उन्हें सामान्यीकृत नीति पुनरावृत्ति के दो मामलों के रूप में देखा जा सकता है । हालांकि, इष्टतम बेलमैन ऑपरेटर में ए शामिल है अधिकतम ऑपरेटर होता है, जो गैर रेखीय होता है और इसलिए, इसकी अलग-अलग विशेषताएं होती हैं। इसके अलावा, शुद्ध मूल्य पुनरावृत्ति और शुद्ध नीति पुनरावृत्ति के बीच संकर विधियों का उपयोग करना संभव है।


1
इस पर अच्छा वर्णन। खैर मुझे इस बात को नीतिगत पुनरावृत्ति में जोड़ना चाहिए यह बेलमैन अपेक्षा समीकरण का उपयोग करता है और मूल्य पुनरावृत्ति में मेलमैन अधिकतम समीकरण का उपयोग करता है। मूल्य पुनरावृत्ति के लिए यह कम पुनरावृत्तियों हो सकता है, लेकिन एक पुनरावृत्ति के लिए इतना काम हो सकता है। नीति पुनरावृति अधिक पुनरावृत्तियों के लिए
शामे सिरिवर्धना

क्या नीति के रूप में अच्छी तरह से अधिकतम ऑपरेटर नहीं है? अन्यथा नए मूल्य फ़ंक्शन के आधार पर नीति को कैसे अपडेट किया जाए?
हुंगज़ोंगहाओ

नहींं, SARSA एल्गोरिदम नीति पुनरावृत्ति का एक विशिष्ट उदाहरण है। जैसा कि आप इस छद्म कोड में देख सकते हैं ( अपूर्ण ई.प्रा ..net/book/ebook/node64.html ), मान फ़ंक्शन अद्यतन में कोई भी अधिकतम ऑपरेटर नहीं है। हालांकि, यदि आप मूल्य फ़ंक्शन (यानी लालची कार्यों) से सर्वोत्तम कार्यों को चुनने के लिए एक अधिकतम ऑपरेटर का मतलब रखते हैं, तो हाँ, ऐसी प्रक्रिया में अधिकतम ऑपरेशन होता है।
पाब्लो ईएम

10

मूल अंतर है -

में नीति पुनरावृत्ति - आप बेतरतीब ढंग से एक नीति का चयन करें और मूल्य समारोह में यह करने के लिए इसी मिल जाए, तो पिछले मान कार्य के आधार पर एक नया (सुधार) नीति को खोजने, और इसलिए इस पर इष्टतम नीति को बढ़ावा मिलेगा।

में मूल्य पुनरावृत्ति - आप बेतरतीब ढंग से एक मूल्य के समारोह का चयन करें, तो इष्टतम मूल्य समारोह है कि इष्टतम मूल्य समारोह से, तो निकाले जाते हैं इष्टतम नीति तक पहुंच गया जब तक, एक नया (सुधार) मूल्य एक सतत प्रक्रिया में समारोह पाते हैं।

नीति निर्धारण "नीति मूल्यांकन-> नीति सुधार" के सिद्धांत पर काम करता है।

मूल्य परिवर्तन "इष्टतम मान फ़ंक्शन-> इष्टतम नीति" के सिद्धांत पर काम करता है।


0

जहां तक ​​मेरा सवाल है, @zyxue के विचार के विपरीत, VI आमतौर पर PI की तुलना में बहुत तेज है।

कारण बहुत सीधा है, जैसा कि आप पहले से ही जानते थे, बेलमैन इक्वेशन का उपयोग दिए गए पॉलिसी के मूल्य फ़ंक्शन को हल करने के लिए किया जाता है। चूंकि हम सीधे इष्टतम नीति के लिए मान फ़ंक्शन को हल कर सकते हैं , वर्तमान नीति के लिए मूल्य फ़ंक्शन को हल करना स्पष्ट रूप से समय की बर्बादी है।

पीआई की परिवर्तनीयता के बारे में आपके प्रश्न के लिए, मुझे लगता है कि आप इस तथ्य को नजरअंदाज कर सकते हैं कि यदि आप प्रत्येक सूचना राज्य के लिए रणनीति में सुधार करते हैं, तो आप पूरे खेल के लिए रणनीति में सुधार करते हैं। यह साबित करना भी आसान है, यदि आप काउंटरफैक्टुअल रेग्रेट मिनिमाइजेशन से परिचित थे - प्रत्येक सूचना राज्य के लिए अफसोस का योग समग्र अफसोस का ऊपरी हिस्सा बना है, और इस प्रकार प्रत्येक राज्य के लिए अफसोस कम करने से समग्र अफसोस कम हो जाएगा, जो इष्टतम नीति की ओर जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.