सुदृढीकरण लर्निंग एल्गोरिदम पर अवलोकन

मैं वर्तमान में सुदृढीकरण सीखना एल्गोरिदम पर एक अवलोकन की तलाश कर रहा हूं और शायद उनका वर्गीकरण। लेकिन सरसा और क्यू-लर्निंग + डीप क्यू-लर्निंग के आगे मुझे वास्तव में कोई लोकप्रिय एल्गोरिदम नहीं मिल सकता है।

विकिपीडिया मुझे अलग-अलग सामान्य सुदृढीकरण सीखने के तरीकों पर एक अवलोकन देता है लेकिन इस तरीकों को लागू करने वाले विभिन्न एल्गोरिदम का कोई संदर्भ नहीं है।

लेकिन शायद मैं सामान्य दृष्टिकोण और एल्गोरिदम को भ्रमित कर रहा हूं और मूल रूप से इस क्षेत्र में कोई वास्तविक वर्गीकरण नहीं है, जैसे मशीन सीखने के अन्य क्षेत्रों में। क्या कोई मुझे शायद एक छोटा परिचय या केवल एक संदर्भ दे सकता है जहां मैं अलग-अलग दृष्टिकोणों में पढ़ना शुरू कर सकता हूं, उनके बीच अंतर और उदाहरण एल्गोरिदम जो इस दृष्टिकोण को लागू करते हैं?

reinforcement-learning q-learning

— greece57
स्रोत

संबंधित: गहन सुदृढीकरण सीखने के साथ आरंभ करने के लिए संसाधन

— फ्रेंक डर्नोनकोर्ट

यहां एक अच्छा सर्वेक्षण पत्र है ।

एक त्वरित सारांश के रूप में, क्यू-सीखने के तरीकों के अतिरिक्त, नीति-आधारित विधियों का एक वर्ग भी है, जहां क्यू फ़ंक्शन सीखने के बजाय, आप सीधे सबसे अच्छी नीति सीखते हैं $\pi$ उपयोग करने के लिए।

इन विधियों में लोकप्रिय REINFORCE एल्गोरिथ्म शामिल है, जो कि एक पॉलिसी ग्रेडिएंट एल्गोरिथम है। TRPO और GAE समान पॉलिसी ग्रेडिएंट एल्गोरिदम हैं।

नीतिगत ढालों पर कई अन्य प्रकार हैं और इसे अभिनेता-आलोचक के ढांचे में क्यू-लर्निंग के साथ जोड़ा जा सकता है। A3C एल्गोरिथ्म - अतुल्यकालिक लाभ अभिनेता-आलोचक - एक ऐसा अभिनेता-आलोचक एल्गोरिदम है, और सुदृढीकरण सीखने में एक बहुत मजबूत आधारभूत है।

आप सर्वोत्तम नीति भी खोज सकते हैं $\pi$ एक इष्टतम नियंत्रण एल्गोरिथ्म से आउटपुट की नकल करके, और इसे निर्देशित नीति खोज कहा जाता है।

क्यू-लर्निंग और पॉलिसी ग्रेडिएंट्स के अलावा, जो दोनों मॉडल फ्री सेटिंग्स में लागू होते हैं (न ही एल्गोरिथ्म दुनिया के एक मॉडल को बनाए रखता है), मॉडल आधारित तरीके भी हैं जो दुनिया की स्थिति का अनुमान लगाते हैं। ये मॉडल मूल्यवान हैं क्योंकि वे बहुत अधिक नमूना कुशल हो सकते हैं।

मॉडल आधारित एल्गोरिदम पॉलिसी ग्रेडिएंट या क्यू-लर्निंग के साथ अनन्य नहीं हैं। एक सामान्य दृष्टिकोण है राज्य का आकलन करना / एक डायनामिक्स मॉडल सीखना, और फिर अनुमानित स्थिति के शीर्ष पर एक नीति को प्रशिक्षित करना।

इसलिए वर्गीकरण के लिए, एक ब्रेकडाउन होगा

क्यू या वी फ़ंक्शन सीखने
नीति आधारित तरीके
मॉडल आधारित

नीति आधारित विधियों को और अधिक विभाजित किया जा सकता है

नीतिगत ढाल
अभिनेता आलोचक
नीति खोज

— Shimao
स्रोत