हालांकि, दोनों दृष्टिकोण मेरे समान दिखाई देते हैं अर्थात किसी कार्रवाई के लिए अधिकतम इनाम की भविष्यवाणी करना (क्यू-लर्निंग) सीधे कार्रवाई (पीजी) लेने की संभावना का अनुमान लगाने के बराबर है।
दोनों विधियां सैद्धांतिक रूप से मार्कोव निर्णय प्रक्रिया निर्माण द्वारा संचालित हैं , और परिणामस्वरूप समान संकेतन और अवधारणाओं का उपयोग करते हैं। इसके अलावा, सरल सॉल्व करने योग्य वातावरण में आपको दोनों विधियों के परिणाम एक ही होने की उम्मीद करनी चाहिए - या कम से कम समकक्ष - इष्टतम नीतियां।
हालांकि, वे वास्तव में आंतरिक रूप से अलग हैं। दृष्टिकोणों के बीच सबसे बुनियादी अंतर यह है कि वे एक्शन सिलेक्शन, दोनों सीखने के दौरान और आउटपुट (सीखी हुई नीति) के रूप में कैसे करते हैं। क्यू-लर्निंग में, लक्ष्य अधिकतम मूल्य ज्ञात करके क्रियाओं के असतत सेट से एकल निर्धारक क्रिया सीखना है। नीति ढ़ालने वाले, और अन्य प्रत्यक्ष नीति खोजों के साथ, लक्ष्य राज्य से कार्रवाई के लिए एक नक्शा सीखना है, जो स्टोचस्टिक हो सकता है, और निरंतर एक्शन स्पेस में काम करता है।
परिणामस्वरूप, नीति-ढाल विधियाँ उन समस्याओं को हल कर सकती हैं जो मूल्य-आधारित विधियाँ नहीं कर सकती हैं:
बड़े और निरंतर एक्शन स्पेस। हालांकि, मूल्य-आधारित तरीकों के साथ, यह अभी भी विवेक के साथ अनुमानित किया जा सकता है - और यह एक बुरा विकल्प नहीं है, क्योंकि नीति ढाल में मैपिंग फ़ंक्शन को व्यवहार में किसी प्रकार का अनुमानित होना चाहिए।
स्टोकेस्टिक नीतियों। एक मूल्य-आधारित विधि एक ऐसे वातावरण को हल नहीं कर सकती है जहां इष्टतम नीति विशिष्ट संभावनाओं की आवश्यकता होती है, जैसे कि कैंची / कागज / पत्थर। ऐसा इसलिए है क्योंकि क्यू-लर्निंग में कोई ट्रेन करने योग्य पैरामीटर नहीं हैं जो कार्रवाई की संभावनाओं को नियंत्रित करते हैं, टीडी सीखने में समस्या का निर्माण यह मानता है कि एक नियतात्मक एजेंट इष्टतम हो सकता है।
हालाँकि, क्यू-लर्निंग जैसे मूल्य-आधारित तरीकों के कुछ फायदे भी हैं:
पी ( एक | रों , θ )θ
स्पीड। टीडी सीखने के तरीके जो बूटस्ट्रैप अक्सर एक नीति को सीखने के लिए बहुत तेजी से होते हैं जो प्रगति का मूल्यांकन करने के लिए पर्यावरण से शुद्ध रूप से नमूना होना चाहिए।
अन्य कारणों से आप एक या अन्य दृष्टिकोण का उपयोग करने की परवाह कर सकते हैं:
आप एजेंट के साथ जुड़े अन्य नियोजन प्रक्रियाओं की मदद करने के लिए प्रक्रिया के चलने के दौरान पूर्वानुमानित प्रतिफल जानना चाह सकते हैं।
समस्या का राज्य प्रतिनिधित्व या तो एक मूल्य समारोह या एक नीति समारोह के लिए अधिक आसानी से उधार देता है। एक मान फ़ंक्शन राज्य के लिए बहुत ही सरल संबंध हो सकता है और पॉलिसी फ़ंक्शन बहुत जटिल और सीखने में कठिन है, या इसके विपरीत ।
कुछ अत्याधुनिक आरएल सॉल्वर वास्तव में दोनों दृष्टिकोणों का उपयोग करते हैं, जैसे अभिनेता-आलोचक। यह मूल्य और नीति ढाल विधियों की ताकत को जोड़ती है।