सुदृढीकरण लर्निंग एल्गोरिदम पर अवलोकन


9

मैं वर्तमान में सुदृढीकरण सीखना एल्गोरिदम पर एक अवलोकन की तलाश कर रहा हूं और शायद उनका वर्गीकरण। लेकिन सरसा और क्यू-लर्निंग + डीप क्यू-लर्निंग के आगे मुझे वास्तव में कोई लोकप्रिय एल्गोरिदम नहीं मिल सकता है।

विकिपीडिया मुझे अलग-अलग सामान्य सुदृढीकरण सीखने के तरीकों पर एक अवलोकन देता है लेकिन इस तरीकों को लागू करने वाले विभिन्न एल्गोरिदम का कोई संदर्भ नहीं है।

लेकिन शायद मैं सामान्य दृष्टिकोण और एल्गोरिदम को भ्रमित कर रहा हूं और मूल रूप से इस क्षेत्र में कोई वास्तविक वर्गीकरण नहीं है, जैसे मशीन सीखने के अन्य क्षेत्रों में। क्या कोई मुझे शायद एक छोटा परिचय या केवल एक संदर्भ दे सकता है जहां मैं अलग-अलग दृष्टिकोणों में पढ़ना शुरू कर सकता हूं, उनके बीच अंतर और उदाहरण एल्गोरिदम जो इस दृष्टिकोण को लागू करते हैं?


जवाबों:


14

यहां एक अच्छा सर्वेक्षण पत्र है

एक त्वरित सारांश के रूप में, क्यू-सीखने के तरीकों के अतिरिक्त, नीति-आधारित विधियों का एक वर्ग भी है, जहां क्यू फ़ंक्शन सीखने के बजाय, आप सीधे सबसे अच्छी नीति सीखते हैं π उपयोग करने के लिए।

इन विधियों में लोकप्रिय REINFORCE एल्गोरिथ्म शामिल है, जो कि एक पॉलिसी ग्रेडिएंट एल्गोरिथम है। TRPO और GAE समान पॉलिसी ग्रेडिएंट एल्गोरिदम हैं।

नीतिगत ढालों पर कई अन्य प्रकार हैं और इसे अभिनेता-आलोचक के ढांचे में क्यू-लर्निंग के साथ जोड़ा जा सकता है। A3C एल्गोरिथ्म - अतुल्यकालिक लाभ अभिनेता-आलोचक - एक ऐसा अभिनेता-आलोचक एल्गोरिदम है, और सुदृढीकरण सीखने में एक बहुत मजबूत आधारभूत है।

आप सर्वोत्तम नीति भी खोज सकते हैं π एक इष्टतम नियंत्रण एल्गोरिथ्म से आउटपुट की नकल करके, और इसे निर्देशित नीति खोज कहा जाता है।

क्यू-लर्निंग और पॉलिसी ग्रेडिएंट्स के अलावा, जो दोनों मॉडल फ्री सेटिंग्स में लागू होते हैं (न ही एल्गोरिथ्म दुनिया के एक मॉडल को बनाए रखता है), मॉडल आधारित तरीके भी हैं जो दुनिया की स्थिति का अनुमान लगाते हैं। ये मॉडल मूल्यवान हैं क्योंकि वे बहुत अधिक नमूना कुशल हो सकते हैं।

मॉडल आधारित एल्गोरिदम पॉलिसी ग्रेडिएंट या क्यू-लर्निंग के साथ अनन्य नहीं हैं। एक सामान्य दृष्टिकोण है राज्य का आकलन करना / एक डायनामिक्स मॉडल सीखना, और फिर अनुमानित स्थिति के शीर्ष पर एक नीति को प्रशिक्षित करना।

इसलिए वर्गीकरण के लिए, एक ब्रेकडाउन होगा

  • क्यू या वी फ़ंक्शन सीखने
  • नीति आधारित तरीके
  • मॉडल आधारित

नीति आधारित विधियों को और अधिक विभाजित किया जा सकता है

  • नीतिगत ढाल
  • अभिनेता आलोचक
  • नीति खोज
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.