यदि आप प्रलेखन http://keras.io/optimizers/ को देखते हैं तो क्षय के लिए SGD में एक पैरामीटर है। मुझे पता है कि यह समय के साथ सीखने की दर को कम करता है। हालांकि, मैं यह पता नहीं लगा सकता कि यह कैसे काम करता है। क्या यह एक मूल्य है जो सीखने की दर से गुणा किया जाता lr = lr * (1 - decay)
है जैसे कि यह घातीय है? इसके अलावा मैं कैसे देख सकता हूं कि मेरा मॉडल किस सीखने की दर का उपयोग कर रहा है? जब मैं model.optimizer.lr.get_value()
कुछ युगों तक एक फिट चलने के बाद प्रिंट करता हूं तो यह मूल शिक्षण दर को वापस देता है, भले ही मैंने क्षय को सेट किया हो।
इसके अलावा क्या मुझे नेस्टरोव सेट करना है = गति का उपयोग करने के लिए सही या केवल दो अलग-अलग प्रकार के संवेग हैं जिनका मैं उपयोग कर सकता हूं। उदाहरण के लिए ऐसा करने का एक बिंदु हैsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
अलग-अलग SGD चरणों की संख्या को संदर्भित करता है, युगों की संख्या नहीं, कठोरता?