हम समस्या को निम्नानुसार तोड़ सकते हैं:
< एक्स0, वाई0, एक्स1, वाई1>( x)0- y0)2+ ( x)1- y1)2------------------√
< एक्स0, वाई0, एक्स1, वाई1>
बेशक, दो अलग-अलग तंत्रिका नेटवर्क में ऐसा करने का कोई कारण नहीं है, इसलिए हम केवल दो अंत-टू-एंड संयोजन कर सकते हैं एक मॉडल है जो छवि को इनपुट के रूप में और आउटपुट के रूप में दूरी पर ले जाता है।
हालांकि, इस मॉडल को लेबल किए गए डेटा पर प्रशिक्षित करने की आवश्यकता होगी, इसलिए आपको या तो स्वयं डेटा उत्पन्न करना होगा या छवियों को लेबल करना होगा।
लेकिन अगर आप चाहते थे कि कम निगरानी वाले तरीके से दूरी को बंद करने की धारणा सीखे, तो आपको सुदृढीकरण सीखने का उपयोग करने की आवश्यकता होगी। इस स्थिति में, आपको उस वातावरण को सेटअप करना होगा जो एजेंट को दूरी कम करने के लिए प्रोत्साहित करता है। यह उतना ही सरल हो सकता है जितना कि अगर कोई एक्शन दूरी को कम करता है तो इनाम मिलना आसान है।
एक और दृष्टिकोण भविष्य के इनाम का उपयोग करके एजेंट को प्रोत्साहित करना होगा। यही है, यह इनाम केवल अगले इम्पीडिएट राज्य के परिणामों से नहीं आता है, लेकिन अगले संभावित राज्य से भी योगदान है, और उसके बाद एक, और इसी तरह। यह डीप क्यू-लर्निंग के पीछे का विचार है, और मैं इस नोटबुक में एक साधारण उदाहरण (बहुत ही जैसा आप वर्णन कर रहा हूं) को लागू करता है ।
तो, अब सवाल यह है कि क्या इस कार्यान्वयन ने यादृच्छिक रूप से आगे बढ़ने के अलावा कुछ और किया है जब तक कि यह सफलता का मार्ग नहीं है?
अपने उदाहरण में, आप एजेंट को पुरस्कृत करने की बात करते हैं जब वह लक्ष्य पर पहुंचता है। लेकिन मैंने जो वर्णन किया है, उसने लक्ष्य के करीब जाकर (या तो क्यू-फ़ंक्शन के माध्यम से या सीधे पर्यावरण से) इनाम प्राप्त किया। यह दूरी के कुछ सार विचार (जो पर्यवेक्षित संस्करण में चित्रित किया जा सकता है) को सीखकर ऐसा करने में सक्षम है।
जब एक मानव यह सीखता है, तो यह उसी सटीक कारण के लिए होता है: मानव भविष्य के पुरस्कार की भावना के माध्यम से उस दिशा में आगे बढ़ने के लिए पुरस्कार प्राप्त कर रहा है।
मैं कहूंगा कि पर्याप्त प्रशिक्षण और डेटा दिया गया है, सुदृढीकरण सीखने से इस अवधारणा को आसानी से सीखा जा सकता है। जहां तक अन्य पुरस्कार बोर्ड पर मौजूद हैं (उदाहरण के लिए, "बोर्ड की एन्ट्रापी को कम करने के साथ-साथ पुरस्कार प्राप्त करने का प्रयास करें"), तो आपको यह सोचने की आवश्यकता है कि आप क्या पूछ रहे हैं। क्या आप बल्कि एजेंट से दूरी कम से कम करेंगे या इनाम बढ़ाएंगे? कारण, सामान्य तौर पर, यह दोनों नहीं कर सकता। यदि आप दोनों के बीच कुछ संतुलन की तलाश कर रहे हैं, तो वास्तव में आप रिवार्ड को फिर से परिभाषित कर रहे हैं ताकि दूरी पर भी विचार किया जा सके।