ऑफ-पॉलिसी और ऑन-पॉलिसी सीखने के बीच अंतर क्या है?


78

आर्टिफिशियल इंटेलिजेंस वेबसाइट ऑफ-पॉलिसी और ऑन-पॉलिसी लर्निंग को निम्नानुसार परिभाषित करती है:

"एक ऑफ-पॉलिसी शिक्षार्थी एजेंट के कार्यों से स्वतंत्र रूप से इष्टतम नीति का मूल्य सीखता है। क्यू-शिक्षा एक ऑफ-पॉलिसी शिक्षार्थी है। एक ऑन-पॉलिसी शिक्षार्थी अन्वेषण चरणों सहित एजेंट द्वारा की जा रही नीति का मूल्य सीखता है। । "

मैं इस बारे में आपका स्पष्टीकरण पूछना चाहता हूं, क्योंकि उन्हें मुझसे कोई फर्क नहीं पड़ता। दोनों की परिभाषाएं ऐसी लगती हैं कि वे एक जैसे हैं। जो मुझे वास्तव में समझ में आया है वह मॉडल-मुक्त और मॉडल-आधारित शिक्षा है, और मुझे नहीं पता कि क्या उनके पास सवाल करने के लिए कुछ भी है।

यह कैसे संभव है कि एजेंट के कार्यों के लिए स्वतंत्र रूप से इष्टतम नीति सीखी जाए? जब एजेंट कार्रवाई करता है तो क्या पॉलिसी नहीं सीखी जाती है?


1
मैंने stackoverflow.com/questions/6848828/… , TL में एक टिप्पणी जोड़ी , NR हिस्सा समझ के साथ भी मददगार हो सकता है।
zyxue

यहाँ एक अच्छी व्याख्या है nb4799.neu.edu/wordpress/?p=1850
इवान कुश

मैं यह भी जोड़ना चाहूंगा कि SARSA का एक ऑफ-पॉलिसी संस्करण है। यह पेपर ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) परिचय में नीति की समीक्षा और बंद करेगा, और फिर अपेक्षित सरसा की व्याख्या करेगा। इसके अलावा दो प्रकार के जाल को खोजने के लिए एक अधिक सामान्य सिद्धांत खोजने के लिए अपेक्षित नीतिगत ढाल (ईपीजी) देखने की जरूरत है।
जोश अल्बर्ट

जवाबों:


93

सबसे पहले, कोई कारण नहीं है कि एक एजेंट को लालची कार्रवाई करना है ; एजेंट विकल्प तलाश सकते हैं या उनका अनुसरण कर सकते हैं । यह वह नहीं है जो ऑन-पॉलिसी सीखने को नीति से अलग करता है।

कारण यह है कि क्यू सीखने ऑफ नीति है कि यह अगले राज्य के क्यू मूल्य का उपयोग कर अपने क्यू मूल्यों को अद्यतन करता है और लालची कार्रवाई । दूसरे शब्दों में, यह अनुमान लगाता है कि लालची नीति मानने वाले राज्य-एक्शन जोड़े के लिए रिटर्न (कुल रियायती भविष्य का इनाम) इस तथ्य के बावजूद पीछा किया गया था कि यह लालची नीति का पालन नहीं कर रहा है।sa a

SARSA ऑन-पॉलिसी का कारण यह है कि यह अगले राज्य के Q- मूल्य और वर्तमान नीति की कार्रवाई का उपयोग करके अपने क्यू-मूल्यों को अपडेट करता है । यह अनुमान लगाता है कि वर्तमान नीति का पालन करते हुए राज्य-कार्रवाई जोड़े के लिए वापसी जारी है।sa

यदि वर्तमान नीति एक लालची नीति है, तो भेद मिट जाता है। हालांकि, ऐसा एजेंट अच्छा नहीं होगा क्योंकि यह कभी नहीं फटता है।

क्या आपने मुफ्त ऑनलाइन उपलब्ध पुस्तक को देखा है? रिचर्ड एस सटन और एंड्रयू जी बार्टो। सुदृढीकरण सीखना: एक परिचय। दूसरा संस्करण, एमआईटी प्रेस, कैम्ब्रिज, एमए, 2018।


8
अच्छी व्याख्या! क्यू-लर्निंग पर आपका उदाहरण बेहतर रूप से तैयार किया गया है, जो कि सटन की पुस्तक में कहा गया है: " सीखा क्रिया-मूल्य फ़ंक्शन, Q, सीधे Q * का अनुमान लगाता है, जो इष्टतम कार्रवाई-मूल्य फ़ंक्शन, नीति से स्वतंत्र है। यह नाटकीय रूप से सरल करता है। एल्गोरिथ्म का विश्लेषण और जल्दी अभिसरण सबूत सक्षम। नीति का अभी भी इसमें एक प्रभाव है कि यह निर्धारित करता है कि कौन से राज्य-क्रिया जोड़े का दौरा किया और अद्यतन किया गया है। "
सिप्रियन टॉमोयागै

3
सामान्य तौर पर, मुझे सटन और बार्टो बिल्कुल भी पढ़ने योग्य नहीं लगते हैं। मुझे लगता है कि वे जो स्पष्टीकरण प्रस्तुत करते हैं, वह बहुत समझदार नहीं है। मुझे यकीन नहीं है कि उनकी पुस्तक को सभी जगह अनुशंसित क्यों किया गया है
एसएन

@ एसएन सुदृढीकरण सीखने के कई छात्रों के लिए, सटन और बार्टो पहली किताब है जो उन्होंने पढ़ी है।
नील जी

3
@ जाकूबअर्नॉल्ड मूल सटन और बार्टो पुस्तक 1998 से है और यह गहन सुदृढीकरण सीखने को कवर नहीं करता है। दूसरे संस्करण में केवल अल्फा गो जैसी चीजों का उल्लेख है, लेकिन पुस्तक का फोकस अधिक शास्त्रीय दृष्टिकोणों में है। यदि आप अधिक आरएल संसाधन चाहते हैं, तो इस सूची पर एक नज़र डालें । मैं डेविड सिल्वर के वीडियो और पुटमैन की पुस्तक का सुझाव देता हूं क्योंकि वे अधिक स्वीकार्य हैं। अधिक सैद्धांतिक सामग्री के लिए, मैं बर्टसेकस की पुस्तकों की सिफारिश करता हूं। डीआरएल एल्गोरिदम के लिए स्पिनिंग अप वेबसाइट और मूल कागजात के लिंक पर एक नज़र डालें।
डगलस डी रिज़ो मेनेगेटी

1
@AlbertChen "तो इस मामले में, यह अन्वेषण पर निर्भर करता है या नहीं": नहीं, क्योंकि दोनों एल्गोरिदम का पता लगाते हैं। अंतर यह है कि Q को कैसे अपडेट किया जाता है।
नील जी

12

नियंत्रण के लिए उपयोग करते समय ऑन-पॉलिसी विधियां किसी नीति के मूल्य का अनुमान लगाती हैं।

में बंद नीति के तरीकों, व्यवहार उत्पन्न करने के लिए प्रयोग किया जाता नीति कहा जाता है, व्यवहार , नीति, नीति है कि मूल्यांकन और सुधार हुआ है से संबंधित नहीं हो सकता है कहा जाता आकलन नीति।

इस पृथक्करण का एक लाभ यह है कि अनुमान नीति नियतात्मक (जैसे लालची) हो सकती है, जबकि व्यवहार नीति सभी संभावित कार्यों का नमूना जारी रख सकती है।

अधिक जानकारी के लिए, पुस्तक सुदृढीकरण सीखना के खंड 5.4 और 5.6 देखें : बार्टो और सटन द्वारा एक परिचय , पहला संस्करण।


7

ऑफ-पॉलिसी और ऑन-पॉलिसी विधियों के बीच का अंतर यह है कि पहले के साथ आपको किसी विशिष्ट नीति का पालन करने की आवश्यकता नहीं है, आपका एजेंट बेतरतीब ढंग से व्यवहार कर सकता है और इसके बावजूद, ऑफ-पॉलिसी के तरीकों को अभी भी इष्टतम नीति मिल सकती है। दूसरी ओर ऑन-पॉलिसी विधियां उपयोग की जाने वाली नीति पर निर्भर हैं। क्यू-लर्निंग के मामले में, जो कि ऑफ-पॉलिसी है, यह अन्वेषण के दौरान उपयोग की जाने वाली नीति से स्वतंत्र इष्टतम नीति को प्राप्त करेगा, हालांकि यह केवल तभी सच है जब आप अलग-अलग राज्यों में पर्याप्त बार जाते हैं। आप वाक्किंस द्वारा वास्तविक प्रमाण में मूल पेपर में पा सकते हैं जो क्यू-लर्निंग की बहुत अच्छी संपत्ति को दर्शाता है। हालांकि, एक व्यापार बंद है और वह ऑफ-पॉलिसी विधियां ऑन-पॉलिसी विधियों की तुलना में धीमी हैं। यहाँ अन्य दिलचस्प सारांश के साथ एक कड़ी है दोनों प्रकार के तरीकों के गुणों का


1
ऑफ-पॉलिसी विधियाँ न केवल धीमी हैं, बल्कि बूटस्ट्रैपिंग के साथ संयुक्त होने पर अस्थिर हो सकती हैं (यानी क्यू-लर्निंग एक दूसरे से अनुमान कैसे लगाती है) और फ़ंक्शन सन्निकटन (जैसे तंत्रिका नेटवर्क)।
नील स्लेटर

7

सबसे पहले, वास्तव में नीति ( द्वारा चिह्नित ) का क्या अर्थ है? नीति लिए कार्यवाही को निर्दिष्ट , कि में लिया जाता है एक राज्य (या अधिक सटीक, एक संभावना है कि एक क्रिया है, एक राज्य में लिया जाता है )।π
asπas

दूसरा, हमारे पास किस प्रकार की सीख है?
1. फ़ंक्शन का मूल्यांकन करें : भविष्य में रियायती पुरस्कारों की राशि की भविष्यवाणी करें, जहां एक कार्रवाई है और एक राज्य है। 2. Find (वास्तव में, ), जो अधिकतम इनाम देता है।Q(s,a)as
ππ(a|s)

मूल प्रश्न पर वापस जाएं। ऑन-पॉलिसी और ऑफ-पॉलिसी लर्निंग केवल पहले कार्य से संबंधित है: मूल्यांकन करना ।Q(s,a)

अंतर यह है:
में ऑन-नीति सीखने समारोह कार्यों से पता चला है, हम अपने वर्तमान नीति का उपयोग करने लग गए । में बंद नीति सीखने समारोह विभिन्न कार्यों (उदाहरण के लिए, यादृच्छिक कार्यों) से सीखा है। हम भी एक नीति की जरूरत नहीं है!Q(s,a)π
Q(s,a)

यह ऑन-पॉलिसी SARSA एल्गोरिदम के लिए अपडेट फ़ंक्शन है: , जहां क्रिया है, जिसे नीति अनुसार लिया गया था ।Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

ऑफ-पॉलिसी Q- लर्निंग एल्गोरिदम के अपडेट फ़ंक्शन के साथ इसकी तुलना करें : , जहां सभी क्रियाएं हैं, जो राज्य में जांच की गई थीं ।Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as


1

सटन पुस्तक से: "पूर्ववर्ती अनुभाग में ऑन-पॉलिसी दृष्टिकोण वास्तव में एक समझौता है- यह इष्टतम नीति के लिए नहीं, बल्कि एक निकट-इष्टतम नीति के लिए क्रिया मान सीखता है जो अभी भी अन्वेषण करता है। दो नीतियों का उपयोग करने के लिए एक अधिक सरल दृष्टिकोण है। , वह जिसके बारे में सीखा जाता है और वह इष्टतम नीति बन जाती है, और वह जो अधिक खोजपूर्ण होती है और व्यवहार उत्पन्न करने के लिए उपयोग की जाती है। जिस नीति के बारे में सीखा जा रहा है उसे लक्ष्य नीति कहा जाता है, और व्यवहार उत्पन्न करने के लिए उपयोग की जाने वाली नीति को व्यवहार नीति कहा जाता है। इस मामले में हम कहते हैं कि लक्ष्य लक्ष्य नीति "o the" डेटा से है, और समग्र प्रक्रिया को o↵- नीति अधिगम कहा जाता है। "


यदि आप इस विवरण का अनुसरण करते हैं, तो यह बताना आसान नहीं है कि क्यू-शिक्षा ऑफ-पॉलिसी क्यों है
अल्बर्ट चेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.