सुदृढीकरण सीखने पर पाठ्यपुस्तक


12

मैं सुदृढीकरण सीखने में एक पाठ्यपुस्तक / व्याख्यान नोट्स की तलाश कर रहा हूं। मैं "सांख्यिकीय शिक्षा का परिचय" का शौकीन हूं , लेकिन दुर्भाग्य से वे इस विषय को कवर नहीं करते हैं। मुझे पता है कि सटन और बार्टो की एक पुस्तक एक मानक संदर्भ है, और शायद एनडीपी भी अच्छी है, लेकिन वे 1997-98 दिनांकित हैं, और मैं एक और अधिक आधुनिक प्रदर्शनी खोजने की उम्मीद कर रहा था क्योंकि इस क्षेत्र में हाल ही में काफी कुछ विकास होने की संभावना है समय।

जवाबों:


15

मुझे लगता है कि सटन और बार्टो अभी भी मानक हैं। ऑनलाइन एआई कक्षाओं से बहुत सारे स्लाइड डेक और नोट्स हैं, लेकिन वे आमतौर पर बहुत अधिक विस्तार में नहीं जाते हैं।

सटन और बार्टो थोड़ा पुराना है, लेकिन वे अपनी पाठ्यपुस्तक का दूसरा संस्करण तैयार कर रहे हैं। एक मसौदा, दिनांकित जनवरी २०१ January, यहाँ उपलब्ध है ; यह सटन के वेबपेज से जुड़ा हुआ है , जिसमें पहले संस्करण का पूरा पाठ भी है।

कोकेंडरफर एट अल के डिसीजन मेकिंग अंडर अनसूटी से निपटने से पहले मैं इसे देखूंगा । उस पुस्तक में कुछ दिलचस्प अनुप्रयोग हैं (ज्यादातर विमानन में) लेकिन यह जल्दी से आगे बढ़ता है और बहुत अधिक उछलता है। रेनफोर्समेंट लर्निंग के लिए स्ज़ेप्सव्री के एल्गोरिदम भी अच्छे हैं, लेकिन पिट्ठू - इसमें लगभग सात पेज लगते हैं, जो कि textrm , बनाम सात चैपर्स और 150 पेज न्यू सटन और बार्टो में मिलते हैं।TD(λ)

इसके अलावा, आप कुछ कागजों में गोताखोरी की कोशिश कर सकते हैं - सुदृढीकरण सीखने की सामग्री बहुत सुलभ हो जाती है।


धन्यवाद, मैंने नए संस्करण पर एक नज़र डाली है, लेकिन मैं यह नहीं कहूंगा कि यह बहुत अद्यतन है। मैं अभी भी एक अधिक अप-टू-डेट जोखिम में दिलचस्पी रखता हूं।
यूलिसिस

हाँ, यह निश्चित रूप से एक पूर्ण ओवरहाल नहीं है, लेकिन वास्तव में स्प्रिंगर के "व्याख्यान नोट्स" के कुछ संस्करणों के अलावा कुछ और नहीं आता है, जो अनिवार्य रूप से केवल कागजात का संग्रह है। यदि आपको कुछ और मिलता है, तो कृपया एक अपडेट पोस्ट करें; मुझे इसकी जाँच करना अच्छा लगेगा।
मैट क्रैस

मैं देख रहा हूँ, यकीन है कि मैं करूँगा
Ulysses

1
@CharlieParker, मुझे यकीन नहीं है। सबसे हालिया ड्राफ्ट (19 जून 2017) काफी पूर्ण दिखता है और एमआईटी प्रेस का उल्लेख करता है, लेकिन एमआईटी प्रेस साइट पहले संस्करण को बेचती हुई प्रतीत होती है। इसके लायक होने के लिए, ड्राफ्ट सीधे लेखकों की सार्वजनिक वेबसाइट से है, इसलिए "लीक" संस्करण या ऐसा कुछ भी उपयोग करने के बारे में चिंतित होने की आवश्यकता नहीं है।
मैट क्रैस

1
@ थोमस, मैंने एक नए ड्राफ्ट के साथ लिंक को अपडेट किया।
मैट क्राउज

6

आप 2010 में प्रकाशित Csaba Szepesvári द्वारा सुदृढीकरण सीखने के लिए एल्गोरिदम की जाँच करना चाह सकते हैं । पीडीएफ वेब साइट से डाउनलोड करने योग्य है। मेरी राय में, यह सटन और बार्टो की तुलना में थोड़ा अधिक तकनीकी है लेकिन कम सामग्री को कवर करता है।


6

यहाँ आपके पास कुछ अच्छी पाठ्यपुस्तकें / संदर्भ हैं:

क्लासिक

सटन आरएस, बार्टो एजी। सुदृढीकरण सीखना: एक परिचय। कैम्ब्रिज, मास: एक ब्रैडफोर्ड पुस्तक; 1998. 322 पी।

दूसरे संस्करण का प्रारूप मुफ्त में उपलब्ध है: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

रसेल / नॉरविग अध्याय 21:

रसेल एसजे, नॉरविग पी, डेविस ई। आर्टिफिशियल इंटेलिजेंस: एक आधुनिक दृष्टिकोण। ऊपरी सैडल नदी, एनजे: अप्रेंटिस हॉल; 2010।

अधिक तकनीकी

सुदृढीकरण सीखने के लिए स्ज़ेपेसवरी सी। एल्गोरिदम। कृत्रिम बुद्धि और मशीन लर्निंग पर संश्लेषण व्याख्यान। 2010, 4 (1): 1-103। http://www.ualberta.ca/~szepesva/RLBook.html

बर्टसेकस डीपी। गतिशील प्रोग्रामिंग और इष्टतम नियंत्रण। चौथा संस्करण। बेलमोंट, मास: एथेना वैज्ञानिक; 2007. 1270 पी। अध्याय 6, खंड 2 मुफ्त में उपलब्ध है: http://web.mit.edu/dimitrib/www/dpchacha.pdf

हाल के घटनाक्रमों के लिए

Wiering M, van Otterlo M, संपादक। सुदृढीकरण सीखना। बर्लिन, हीडलबर्ग: स्प्रिंगर बर्लिन हीडलबर्ग; 2012 से उपलब्ध: http://link.springer.com/10.1007/978-3-642-27645-3

कोचेंडरफर एमजे, अमेटो सी, चौधरी जी, कैसे जेपी, रेनॉल्ड्स एचजेडी, थॉर्नटन जेआर, एट अल। अनिश्चितता के तहत निर्णय लेना: सिद्धांत और अनुप्रयोग। 1 संस्करण। कैम्ब्रिज, मैसाचुसेट्स: द एमआईटी प्रेस; 2015. 352 पी।

मल्टी-एजेंट सुदृढीकरण सीखने

बुसोनू एल, बाबूस्का आर, शटर बीडी। बहु-एजेंट सुदृढीकरण सीखना: एक अवलोकन। इन: श्रीनिवासन डी, जैन एलसी, संपादक। मल्टी-एजेंट सिस्टम और अनुप्रयोगों में नवाचार - 1। स्प्रिंगर बर्लिन हीडलबर्ग; 2010 पी। 183-221। से उपलब्ध: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7

श्वार्ट्ज एच.एम. मल्टी-एजेंट मशीन लर्निंग: एक सुदृढीकरण दृष्टिकोण। होबोकेन, न्यू जर्सी: विली; 2014।

वीडियो / पाठ्यक्रम

मैं YouTube में डेविड सिल्वर पाठ्यक्रम भी सुझाऊंगा: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa


3

सुदृढीकरण सीखने पर मेरे पसंदीदा व्याख्यान नोट्स एमएल CS229 पर स्टैनफोर्ड के पाठ्यक्रम में एंड्रयू एनजी द्वारा हैं:

स्टैनफोर्ड CS229 नोट्स सीखने के लिए पुनर्वसन

आप iTunes पर व्याख्यान वीडियो डाउनलोड कर सकते हैं। या यूट्यूब पर, वे निम्नलिखित लिंक में शुरू करते हैं:

व्याख्यान 16 CS229

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.