मैं वर्तमान में सुदृढीकरण सीखना एल्गोरिदम पर एक अवलोकन की तलाश कर रहा हूं और शायद उनका वर्गीकरण। लेकिन सरसा और क्यू-लर्निंग + डीप क्यू-लर्निंग के आगे मुझे वास्तव में कोई लोकप्रिय एल्गोरिदम नहीं मिल सकता है।
विकिपीडिया मुझे अलग-अलग सामान्य सुदृढीकरण सीखने के तरीकों पर एक अवलोकन देता है लेकिन इस तरीकों को लागू करने वाले विभिन्न एल्गोरिदम का कोई संदर्भ नहीं है।
लेकिन शायद मैं सामान्य दृष्टिकोण और एल्गोरिदम को भ्रमित कर रहा हूं और मूल रूप से इस क्षेत्र में कोई वास्तविक वर्गीकरण नहीं है, जैसे मशीन सीखने के अन्य क्षेत्रों में। क्या कोई मुझे शायद एक छोटा परिचय या केवल एक संदर्भ दे सकता है जहां मैं अलग-अलग दृष्टिकोणों में पढ़ना शुरू कर सकता हूं, उनके बीच अंतर और उदाहरण एल्गोरिदम जो इस दृष्टिकोण को लागू करते हैं?