अटारी के खेलों पर Google की गहरी उपलब्धियों को पढ़ने के बाद , मैं q- Learning और q-नेटवर्क को समझने की कोशिश कर रहा हूं, लेकिन मैं थोड़ा भ्रमित हूं। छूट कारक की अवधारणा में भ्रम पैदा होता है। जो मैं समझता हूं उसका संक्षिप्त सारांश। किसी क्रिया के अनुकूलतम अपेक्षित मान का अनुमान लगाने के लिए एक गहरी संवेदी तंत्रिका नेटवर्क का उपयोग किया जाता है। नेटवर्क को नुकसान फ़ंक्शन जहाँ is जहां Q एक संचयी स्कोर मान और r है
देखने का गणितीय दृष्टि से छूट कारक है और संभावना का प्रतिनिधित्व करता है राज्य तक पहुंचने के लिए राज्य से ।
मुझे लगता है कि नेटवर्क वास्तव में \ गामा के वास्तविक मूल्य के अनुसार क्यू को पुनर्विक्रय करना सीखता है , तो क्यों नहीं गामा = 1 दे रहा है ?