यहाँ आपके पास कुछ अच्छी पाठ्यपुस्तकें / संदर्भ हैं:
क्लासिक
सटन आरएस, बार्टो एजी। सुदृढीकरण सीखना: एक परिचय। कैम्ब्रिज, मास: एक ब्रैडफोर्ड पुस्तक; 1998. 322 पी।
दूसरे संस्करण का प्रारूप मुफ्त में उपलब्ध है: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
रसेल / नॉरविग अध्याय 21:
रसेल एसजे, नॉरविग पी, डेविस ई। आर्टिफिशियल इंटेलिजेंस: एक आधुनिक दृष्टिकोण। ऊपरी सैडल नदी, एनजे: अप्रेंटिस हॉल; 2010।
अधिक तकनीकी
सुदृढीकरण सीखने के लिए स्ज़ेपेसवरी सी। एल्गोरिदम। कृत्रिम बुद्धि और मशीन लर्निंग पर संश्लेषण व्याख्यान। 2010, 4 (1): 1-103। http://www.ualberta.ca/~szepesva/RLBook.html
बर्टसेकस डीपी। गतिशील प्रोग्रामिंग और इष्टतम नियंत्रण। चौथा संस्करण। बेलमोंट, मास: एथेना वैज्ञानिक; 2007. 1270 पी।
अध्याय 6, खंड 2 मुफ्त में उपलब्ध है: http://web.mit.edu/dimitrib/www/dpchacha.pdf
हाल के घटनाक्रमों के लिए
Wiering M, van Otterlo M, संपादक। सुदृढीकरण सीखना। बर्लिन, हीडलबर्ग: स्प्रिंगर बर्लिन हीडलबर्ग; 2012 से उपलब्ध: http://link.springer.com/10.1007/978-3-642-27645-3
कोचेंडरफर एमजे, अमेटो सी, चौधरी जी, कैसे जेपी, रेनॉल्ड्स एचजेडी, थॉर्नटन जेआर, एट अल। अनिश्चितता के तहत निर्णय लेना: सिद्धांत और अनुप्रयोग। 1 संस्करण। कैम्ब्रिज, मैसाचुसेट्स: द एमआईटी प्रेस; 2015. 352 पी।
मल्टी-एजेंट सुदृढीकरण सीखने
बुसोनू एल, बाबूस्का आर, शटर बीडी। बहु-एजेंट सुदृढीकरण सीखना: एक अवलोकन। इन: श्रीनिवासन डी, जैन एलसी, संपादक। मल्टी-एजेंट सिस्टम और अनुप्रयोगों में नवाचार - 1। स्प्रिंगर बर्लिन हीडलबर्ग; 2010 पी। 183-221। से उपलब्ध: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
श्वार्ट्ज एच.एम. मल्टी-एजेंट मशीन लर्निंग: एक सुदृढीकरण दृष्टिकोण। होबोकेन, न्यू जर्सी: विली; 2014।
वीडियो / पाठ्यक्रम
मैं YouTube में डेविड सिल्वर पाठ्यक्रम भी सुझाऊंगा: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa