यदि आप इस दावे को एक संदर्भ प्रदान करते हैं कि ढाल मूल अक्षम है तो यह मदद करेगा। क्या करने के लिए अक्षम रिश्तेदार?
मुझे लगता है कि यहाँ गायब संदर्भ मशीन लर्निंग में स्टोचैस्टिक या बैच ग्रैडिएंट डिसेंट की तुलना है। इस संदर्भ में प्रश्न का उत्तर कैसे दिया जाए। आप मॉडल के मापदंडों का अनुकूलन कर रहे हैं, यहां तक कि हाइपरपरमेटर्स भी। तो, आपके पास लागत फ़ंक्शन , जहां - आपका डेटा, और - मापदंडों का वेक्टर, और - हानि फ़ंक्शन है। इस लागत को कम करने के लिए आप पैरामीटर्स पर the ढाल का उपयोग करते हैं :
एक्स मैं Θ एल ( ) θ जे ∂∑ni=1L(xi|Θ)xiΘL() θj
∂∂θj∑i=1nL(Θ|xi)
तो, आप देखते हैं कि आपको सभी डेटा पर योग प्राप्त करने की आवश्यकता है । यह दुर्भाग्यपूर्ण है, क्योंकि इसका मतलब है कि आप अपने ढाल वंश के प्रत्येक चरण के लिए डेटा के माध्यम से लूपिंग करते रहते हैं। यह है कि बैच और स्टोकेस्टिक ग्रेडिएंट वंश कैसे आता है: क्या होगा यदि हमने डेटा सेट से नमूना लिया, और एक नमूने पर ग्रेडिएंट की गणना की, न कि पूर्ण सेट?
यहाँ, नमूना में टिप्पणियों की संख्या है । इसलिए, यदि आपका नमूना कुल सेट का 1/100 वां है, तो आप अपनी गणना को 100 गुना तेज कर देते हैं! जाहिर है, यह शोर का परिचय देता है, जो सीखने को लंबा करता है, लेकिन दर से शोर कम हो जाता है∂xi=1,…,nएनएसएस√
∂∂θj∑k=1nsL(Θ|xk)
nss nn−−√जबकि पर गणना की मात्रा बढ़ जाती है , इसलिए यह चाल काम कर सकती है।
n
वैकल्पिक रूप से, इसके बजाय पूर्ण योग तक प्रतीक्षा की जाती है, आप इसे बैचों में विभाजित कर सकते हैं, और प्रत्येक बैच लिए एक चरण करें । इस तरह से आपने M चरणों को पूरे डेटा सेट की गणना के समय तक कर लिया होगा। ये शोर करने वाले कदम होंगे, लेकिन समय के साथ शोर रद्द हो जाता है। Σ एम एस = 1 Σ एन एस मैं रों = 1∑ni=1∑Ms=1∑nsis=1