मैंने क्यू-लर्निंग को इस रूप में वर्णित किया है,
http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf
लगभग करने के लिए। क्यू (एस, ए) मैं निम्नलिखित की तरह एक तंत्रिका नेटवर्क संरचना का उपयोग करता हूं,
- एक्टिवेशन सिग्मॉइड
- एक्शन न्यूरॉन्स के लिए इनपुट्स, इनपुट्स + 1 की संख्या (सभी इनपुट्स स्केल २. number)
- आउटपुट, एकल आउटपुट। क्यू मूल्य
- N हिडन एम लेयर्स की संख्या।
- अन्वेषण विधि यादृच्छिक 0 <रैंड () <PropExplore
निम्नलिखित सूत्र का उपयोग करते हुए प्रत्येक सीखने के पुनरावृत्ति में,
मैं Q- लक्ष्य मान की गणना करता हूं, फिर एक त्रुटि का उपयोग करके गणना करता हूं,
error = QTarget - LastQValueReturnedFromNN
और तंत्रिका नेटवर्क के माध्यम से त्रुटि को वापस फैलाना।
Q1, क्या मैं सही रास्ते पर हूँ? मैंने कुछ कागजात देखे हैं जो प्रत्येक क्रिया के लिए एक आउटपुट न्यूरॉन के साथ एक एनएन लागू करते हैं।
Q2, मेरा इनाम फ़ंक्शन -1 और 1 के बीच एक संख्या देता है। क्या सक्रियण फ़ंक्शन सिग्मॉइड (0 1) के बीच -1 और 1 के बीच की संख्या वापस करना ठीक है
Q3, इस पद्धति के बारे में मेरी समझ से पर्याप्त प्रशिक्षण के उदाहरण दिए गए हैं, जिन्हें एक इष्टतम नीतिगत दृष्टि खोजने के लिए इसे छोड़ दिया जाना चाहिए? जब XOR के लिए प्रशिक्षण कभी-कभी इसे 2k पुनरावृत्तियों के बाद सीखता है तो कभी-कभी यह 40k 50k पुनरावृत्तियों के बाद भी नहीं सीखेगा।