यहाँ आपके पास सुदृढीकरण सीखने पर कुछ अच्छे संदर्भ हैं:
क्लासिक
सटन आरएस, बार्टो एजी। सुदृढीकरण सीखना: एक परिचय। कैम्ब्रिज, मास: एक ब्रैडफोर्ड पुस्तक; 1998. 322 पी।
दूसरे संस्करण का प्रारूप मुफ्त में उपलब्ध है: http://incompleteideas.net/book/the-book-2nd.html
रसेल / नॉरविग अध्याय 21:
रसेल एसजे, नॉरविग पी, डेविस ई। कृत्रिम बुद्धि: एक आधुनिक दृष्टिकोण। ऊपरी सैडल नदी, एनजे: अप्रेंटिस हॉल; 2010।
अधिक तकनीकी
सुदृढीकरण सीखने के लिए एसजेसेवरी सी। एल्गोरिदम। कृत्रिम बुद्धि और मशीन लर्निंग पर संश्लेषण व्याख्यान। 2010, 4 (1): 1-103। http://www.ualberta.ca/~szepesva/RLBook.html
बर्टसेकस डीपी। गतिशील प्रोग्रामिंग और इष्टतम नियंत्रण। चौथा संस्करण। बेलमोंट, मास: एथेना वैज्ञानिक; 2007. 1270 पी।
अध्याय 6, खंड 2 मुफ्त में उपलब्ध है: http://web.mit.edu/dimitrib/www/dpchait.pdf
हाल के घटनाक्रमों के लिए
वाइरिंग एम, वैन ओटरलो एम, संपादक। सुदृढीकरण सीखना। बर्लिन, हीडलबर्ग: स्प्रिंगर बर्लिन हीडलबर्ग; 2012 से उपलब्ध: http://link.springer.com/10.1007/978-3-642-27645-3
कोचेंडरफर एमजे, अमेटो सी, चौधरी जी, कैसे जेपी, रेनॉल्ड्स एचजेडी, थॉर्नटन जेआर, एट अल। अनिश्चितता के तहत निर्णय लेना: सिद्धांत और अनुप्रयोग। 1 संस्करण। कैम्ब्रिज, मैसाचुसेट्स: द एमआईटी प्रेस; 2015. 352 पी।
मल्टी-एजेंट सुदृढीकरण सीखने
बुसोनीउ एल, बाबूस्का आर, शटर बीडी। मल्टी-एजेंट सुदृढीकरण सीखना: एक अवलोकन। इन: श्रीनिवासन डी, जैन एलसी, संपादक। मल्टी-एजेंट सिस्टम और अनुप्रयोगों में नवाचार - 1। स्प्रिंगर बर्लिन हीडलबर्ग; 2010 पी। 183-221। से उपलब्ध: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
श्वार्ट्ज एच.एम. मल्टी-एजेंट मशीन लर्निंग: एक सुदृढीकरण दृष्टिकोण। होबोकेन, न्यू जर्सी: विली; 2014।
वीडियो / पाठ्यक्रम
मैं YouTube में डेविड सिल्वर पाठ्यक्रम का सुझाव भी दूंगा: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa