प्रेरणा को लागू करने की वर्तमान विधि कुछ प्रकार के कृत्रिम इनाम है। उदाहरण के लिए दीपमिन्द का DQN खेल के स्कोर से प्रेरित है। स्कोर जितना अधिक होगा, उतना अच्छा होगा। एआई सबसे अधिक अंक प्राप्त करने के लिए अपने कार्यों को समायोजित करना सीखता है और इसलिए सबसे अधिक इनाम। इसे रीइनफोर्समेंट लेयरिंग कहा जाता है । इनाम एआई को अपने कार्यों को अनुकूलित करने के लिए प्रेरित करता है, इसलिए बोलने के लिए।
अधिक तकनीकी शब्द में, AI उपयोगिता को अधिकतम करना चाहता है, जो कार्यान्वित उपयोगिता फ़ंक्शन पर निर्भर करता है । DQN के मामले में, यह खेल में स्कोर को अधिकतम करेगा।
मानव मस्तिष्क एक समान फैशन में कार्य करता है, हालांकि थोड़ा अधिक जटिल और अक्सर सीधे आगे के रूप में नहीं। हम मनुष्य के रूप में आमतौर पर डोपामाइन और सेरोटोनिन के उच्च उत्पादन के लिए अपने कार्यों को समायोजित करने की कोशिश करते हैं । यह एक तरह से सुदृढीकरण सीखने के दौरान एआई को नियंत्रित करने के लिए उपयोग किए जाने वाले इनाम के समान है। मानव मस्तिष्क सीखता है कि कौन सी क्रियाएं उन पदार्थों की सबसे अधिक मात्रा में उत्पादन करती हैं और आउटपुट को अधिकतम करने के लिए रणनीतियों का पता लगाती हैं। यह, निश्चित रूप से, इस जटिल प्रक्रिया का एक सरलीकरण है, लेकिन आपको चित्र मिलता है।
जब आप प्रेरणा के बारे में बात करते हैं, तो कृपया इसे चेतना या योग्यता के साथ न मिलाएं । प्रेरणा के लिए उन लोगों की आवश्यकता नहीं है। यदि आप AI में चेतना और गुण के बारे में चर्चा करना चाहते हैं, तो यह पूरी तरह से अलग गेंद का खेल है।
एक बच्चा जिज्ञासा के लिए उत्सुक नहीं है। यह खोज करते समय सकारात्मक सुदृढीकरण प्राप्त करता है क्योंकि न्यूरोट्रांसमीटर को पुरस्कृत करके बच्चे के मस्तिष्क के उत्थान कार्य की उपयोगिता कार्य करती है। तो तंत्र एक ही है। एआई पर इसे लागू करने का मतलब है एक उपयोगिता फ़ंक्शन को परिभाषित करना जो नए अनुभवों को पुरस्कृत करता है। किसी भी प्रकार के प्रबलित इनाम के बिना कोई आंतरिक ड्राइव नहीं है।