यदि आप प्रलेखन http://keras.io/optimizers/ को देखते हैं तो क्षय के लिए SGD में एक पैरामीटर है। मुझे पता है कि यह समय के साथ सीखने की दर को कम करता है। हालांकि, मैं यह पता नहीं लगा सकता कि यह कैसे काम करता है। क्या यह एक मूल्य है जो सीखने की दर से गुणा किया जाता lr = lr * (1 - decay) है जैसे कि यह घातीय है? इसके अलावा मैं कैसे देख सकता हूं कि मेरा मॉडल किस सीखने की दर का उपयोग कर रहा है? जब मैं model.optimizer.lr.get_value()कुछ युगों तक एक फिट चलने के बाद प्रिंट करता हूं तो यह मूल शिक्षण दर को वापस देता है, भले ही मैंने क्षय को सेट किया हो।
इसके अलावा क्या मुझे नेस्टरोव सेट करना है = गति का उपयोग करने के लिए सही या केवल दो अलग-अलग प्रकार के संवेग हैं जिनका मैं उपयोग कर सकता हूं। उदाहरण के लिए ऐसा करने का एक बिंदु हैsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterationsअलग-अलग SGD चरणों की संख्या को संदर्भित करता है, युगों की संख्या नहीं, कठोरता?