मान लीजिए कि हम निम्नलिखित स्थिति में हैं। हमारे पास कुछ डेटा है{एक्समैं,yमैं}, जहां प्रत्येक एक्समैं एक संख्या या वेक्टर हो सकता है, और हम एक फ़ंक्शन निर्धारित करना चाहते हैं च यह रिश्ता तय करता है च(एक्समैं) ≈yमैं, इस अर्थ में कि कम से कम वर्ग त्रुटि:
12Σमैं(yमैं- च(एक्समैं))2
छोटा है।
अब, इस सवाल में प्रवेश करता है कि हम क्या डोमेन पसंद करेंगे चहोने के लिए। डोमेन के लिए एक पतित पसंद हमारे प्रशिक्षण डेटा में सिर्फ अंक हैं। इस मामले में, हम सिर्फ परिभाषित कर सकते हैंच(एक्समैं) = य, संपूर्ण इच्छित डोमेन को कवर करना, और उसके साथ किया जाना। इस उत्तर पर आने के रास्ते के बारे में एक दौर डोमेन के रूप में इस असतत स्थान के साथ ढाल वंश को करना है। यह देखने के बिंदु में थोड़ा बदलाव लेता है। चलो नुकसान को बिंदु के एक समारोह के रूप में देखेंyऔर भविष्यवाणी च (अभी के लिये, च एक फ़ंक्शन नहीं है, लेकिन सिर्फ भविष्यवाणी का मूल्य है)
एल ( एफ; y) =12( y- च)2
और फिर भविष्यवाणी के संबंध में ढाल लें
∇चएल ( एफ; y) = च- y
फिर एक प्रारंभिक मूल्य से शुरू होने वाला ग्रेडिएंट अपडेट y0 है
y1=y0-∇च(y0, वाई) =y0- (y0- y) = य
तो हम इस सेटअप के साथ एक क्रमिक कदम में हमारी सही भविष्यवाणी को ठीक करते हैं, जो अच्छा है!
यहाँ दोष यह है कि हम चाहते हैं चहमारे प्रशिक्षण डेटा बिंदुओं की तुलना में बहुत अधिक परिभाषित किया जाना है। ऐसा करने के लिए, हमें कुछ रियायतें देनी चाहिए, क्योंकि हम अपने प्रशिक्षण डेटा सेट के अलावा किसी भी बिंदु पर नुकसान फ़ंक्शन, या इसकी ढाल का मूल्यांकन करने में सक्षम नहीं हैं।
बड़ा विचार कमजोर रूप से अनुमानित है ∇ ल।
Start
प्रारंभिक अनुमान के साथ च, लगभग हमेशा एक साधारण स्थिर कार्य च( x ) =च0, यह हर जगह परिभाषित किया गया है। अब प्रारंभिक आंकड़ों का उपयोग करते हुए, प्रशिक्षण डेटा पर नुकसान फ़ंक्शन की ढाल का मूल्यांकन करके एक नया काम कर रहे डेटासेट का निर्माण करेंच:
डब्ल्यू= {एक्समैं,च0- y}
Now approximate
∇ ल कमजोर शिक्षार्थी को फिट करके डब्ल्यू। कहते हैं हमें सन्निकटन मिलता हैएफ≈ ∇ एल। हमें डेटा का विस्तार प्राप्त हुआ हैडब्ल्यू के रूप में पूरे डोमेन में एफ( एक्स))हालाँकि, हमने प्रशिक्षण बिंदुओं पर सटीकता खो दी है, क्योंकि हम एक छोटे से शिक्षार्थी को फिट करते हैं।
Finally
, उपयोग एफ की जगह में ∇ ल के क्रमिक अद्यतन में च0 पूरे डोमेन पर:
च1( x ) =च0( x ) - एफ( x )
हम बाहर निकलते हैं च1, का एक नया सन्निकटन चसे थोड़ा बेहतर है च0। के साथ शुरू करोच1, और संतुष्ट होने तक पुनरावृति।
उम्मीद है, आप देखते हैं कि वास्तव में जो महत्वपूर्ण है वह नुकसान की प्रवणता का अनुमान लगा रहा है। कम से कम वर्गों के मामले में यह कच्चे अवशेषों का रूप ले लेता है, लेकिन अधिक परिष्कृत मामलों में ऐसा नहीं होता है। मशीनरी अभी भी लागू होती है। जब तक कोई प्रशिक्षण डेटा पर नुकसान की गणना और ढाल की गणना के लिए एक एल्गोरिथ्म का निर्माण कर सकता है, हम इस एल्गोरिथ्म का उपयोग उस नुकसान को कम करने वाले फ़ंक्शन को अनुमानित करने के लिए कर सकते हैं।