एक मशीन को क्या प्रेरित करेगा?

12

वर्तमान में, AI विकास क्षेत्र के भीतर, मुख्य ध्यान पैटर्न मान्यता और मशीन सीखने पर लगता है। सीखना एक प्रतिक्रिया लूप के आधार पर आंतरिक चर को समायोजित करने के बारे में है।

मास्लो की जरूरतों का पदानुक्रम अब्राहम मास्लो द्वारा प्रस्तावित मनोविज्ञान में एक सिद्धांत है जो दावा करता है कि उच्च स्तर की आवश्यकताओं को प्राप्त करने के लिए प्रेरित होने से पहले व्यक्तियों की सबसे बुनियादी जरूरतों को पूरा किया जाना चाहिए।

संभवतः मशीन को कार्य करने के लिए प्रेरित कर सकता है? क्या किसी मशीन में डीएनए जैसी संरचना होनी चाहिए जो उसकी ज़रूरतों के पदानुक्रम का वर्णन करे (मास्लो के सिद्धांत के समान)? मशीन की मूलभूत आवश्यकताएं क्या हो सकती हैं?

philosophy strong-ai rewards

— अलेक्सी नौकरानी
स्रोत

1

दिलचस्प सवाल, और ऐ में आपका स्वागत है! (मैं विषय, खेल सिद्धांत से संबंधित पर कुछ विचार किया है, और अन्य योगदानकर्ताओं के बारे में बात की है लक्ष्य उन्मुख सीखने एल्गोरिदम के संबंध में।)

— DukeZhou

1

सीधे शब्दों में कहें तो यह यूटिलिटी फंक्शन होगा । यह उत्तर मदद कर सकता है

— यूग्नेस

5

प्रेरणा को लागू करने की वर्तमान विधि कुछ प्रकार के कृत्रिम इनाम है। उदाहरण के लिए दीपमिन्द का DQN खेल के स्कोर से प्रेरित है। स्कोर जितना अधिक होगा, उतना अच्छा होगा। एआई सबसे अधिक अंक प्राप्त करने के लिए अपने कार्यों को समायोजित करना सीखता है और इसलिए सबसे अधिक इनाम। इसे रीइनफोर्समेंट लेयरिंग कहा जाता है । इनाम एआई को अपने कार्यों को अनुकूलित करने के लिए प्रेरित करता है, इसलिए बोलने के लिए।

अधिक तकनीकी शब्द में, AI उपयोगिता को अधिकतम करना चाहता है, जो कार्यान्वित उपयोगिता फ़ंक्शन पर निर्भर करता है । DQN के मामले में, यह खेल में स्कोर को अधिकतम करेगा।

मानव मस्तिष्क एक समान फैशन में कार्य करता है, हालांकि थोड़ा अधिक जटिल और अक्सर सीधे आगे के रूप में नहीं। हम मनुष्य के रूप में आमतौर पर डोपामाइन और सेरोटोनिन के उच्च उत्पादन के लिए अपने कार्यों को समायोजित करने की कोशिश करते हैं । यह एक तरह से सुदृढीकरण सीखने के दौरान एआई को नियंत्रित करने के लिए उपयोग किए जाने वाले इनाम के समान है। मानव मस्तिष्क सीखता है कि कौन सी क्रियाएं उन पदार्थों की सबसे अधिक मात्रा में उत्पादन करती हैं और आउटपुट को अधिकतम करने के लिए रणनीतियों का पता लगाती हैं। यह, निश्चित रूप से, इस जटिल प्रक्रिया का एक सरलीकरण है, लेकिन आपको चित्र मिलता है।

जब आप प्रेरणा के बारे में बात करते हैं, तो कृपया इसे चेतना या योग्यता के साथ न मिलाएं । प्रेरणा के लिए उन लोगों की आवश्यकता नहीं है। यदि आप AI में चेतना और गुण के बारे में चर्चा करना चाहते हैं, तो यह पूरी तरह से अलग गेंद का खेल है।

एक बच्चा जिज्ञासा के लिए उत्सुक नहीं है। यह खोज करते समय सकारात्मक सुदृढीकरण प्राप्त करता है क्योंकि न्यूरोट्रांसमीटर को पुरस्कृत करके बच्चे के मस्तिष्क के उत्थान कार्य की उपयोगिता कार्य करती है। तो तंत्र एक ही है। एआई पर इसे लागू करने का मतलब है एक उपयोगिता फ़ंक्शन को परिभाषित करना जो नए अनुभवों को पुरस्कृत करता है। किसी भी प्रकार के प्रबलित इनाम के बिना कोई आंतरिक ड्राइव नहीं है।

— Demento
स्रोत

संपादित करने के संबंध में मुझे लगता है कि "एक उपयोगिता फ़ंक्शन जो नए अनुभव को पुरस्कृत करता है" का एक अच्छा उदाहरण होगा, केन स्टैनले द्वारा प्रस्तावित प्रस्तावित नवीनता फिटनेस फ़ंक्शंस का उपयोग उनके स्वच्छ एल्गोरिथ्म में किया जाएगा।

— निकोट

5

यह वास्तव में एक दिलचस्प सवाल है।

जेफ हॉकिन्स और सैंड्रा ब्लेकस्ले द्वारा लिखित पुस्तक "ऑन इंटेलिजेंस" में "जिज्ञासा कहाँ से उत्पन्न हो सकती है" के बारे में काफी यथार्थवादी विचार है।

यह इस तरह के बयानों पर आधारित है:

मन उस दुनिया का अपना मॉडल बनाता है, जिसमें यह मौजूद है।
यह हर समय के बारे में भविष्यवाणियां करता है (वास्तव में जेफ हॉकिन्स कहते हैं कि यह बुद्धिमत्ता की मुख्य विशेषता है)।
जब किसी चीज़ के बारे में भविष्यवाणी करना दुनिया के उचित व्यवहार के बाद नहीं था, तो यह बात दिमाग को बहुत दिलचस्प लगती है (मॉडल गलत है और इसे ठीक किया जाना चाहिए) और अधिक ध्यान देने की आवश्यकता है।

उदाहरण के लिए, जब आप बाईं आंख को देखते हैं तो आपका मस्तिष्क भविष्यवाणी करता है कि यह एक मानवीय चेहरा है और दाईं ओर दूसरी आंख होनी चाहिए। आप दाईं ओर देखते हैं और एक .. नाक! क्या आश्चर्य है! अब यह आपका पूरा ध्यान रखता है और आपके पास इस तरह की अजीब चीज के बारे में अधिक अवलोकन करने के लिए यह प्रेरणा है जो आपके मॉडल में फिट नहीं हुई।

इसलिए मैं कहूंगा कि AI अपने मॉडल के अनुसार कुछ निश्चित कर सकता है या यादृच्छिक रूप से व्यवहार कर सकता है जबकि दुनिया के बारे में जो भविष्यवाणियां कर रहा है वह सच है। लेकिन कुछ भविष्यवाणी टूट जाने के बाद एआई को अपने मॉडल में त्रुटि-सुधार करने की प्रेरणा मिलती है।

एक साधारण मामले में एक मशीन कुल यादृच्छिकता से शुरू होती है बस वह सब कुछ कर रही है जो वह अपने आउटपुट के साथ कर सकती है। जबकि इसका कोई मॉडल या कोई रैंडम मॉडल नहीं है, जब यह किसी प्रकार के आदेश या दोहराए गए पैटर्न का पता लगाता है, तो इसे "रुचि" मिल रही है और इसे मॉडल में जोड़ देता है। थोड़ी देर के बाद, मॉडल अधिक जटिल भविष्यवाणियां करते हुए और अधिक परिष्कृत हो जाता है और एक मॉडल में उच्च स्तर की गलतियों का पता लगाता है। धीरे-धीरे यह पता चल जाता है कि सब कुछ याद रखने के बजाय, इसके लिए कुछ दिलचस्प देखने के लिए क्या करना चाहिए।

— इवान बोगस
स्रोत

योगदान के लिए धन्यवाद! मैं मूल रूप से एक ही निष्कर्ष पर आया हूं ... अब इसे लागू करने के तरीके के बारे में सोच रहा हूं :)

— अलेक्सी मेड

यह उत्तर एक महत्वपूर्ण बिंदु बनाता है। भविष्यवाणी मॉडल पर त्रुटि सुधार एक बुद्धिमान एआई को जिज्ञासु तरीके से सीखने और कार्य करने के लिए एक महान प्रोत्साहन प्रदान करेगा।

— सेठ सिम्बा

3

मैंने प्रोफेसर रिचर्ड सटन से एक समान प्रश्न पूछा, सुदृढीकरण सीखने के पाठ्यक्रम के पहले व्याख्यान में। ऐसा लगता है कि मशीन को प्रेरित करने के लिए अलग-अलग तरीके हैं। वास्तव में, मशीन प्रेरणा मुझे अनुसंधान के एक समर्पित क्षेत्र की तरह लगती है।

आमतौर पर, मशीनों से प्रेरित होते हैं जिसे हम एक उद्देश्य फ़ंक्शन या लागत फ़ंक्शन या हानि फ़ंक्शन कहते हैं । ये एक ही अवधारणा के अलग-अलग नाम हैं। कभी-कभी, उनके द्वारा निरूपित किया जाता है

एल (ए)

$L(a)$

$\min_a L(a)$ $\max_a L(a)$ $L$

— A.Rashad
स्रोत

1

मैंने खेलों के संदर्भ में इसके बारे में सोचने में कुछ समय बिताया है।

इनाम कार्यों के साथ समस्या यह है कि वे आम तौर पर भारित नोड्स को शामिल करते हैं, जो उपयोगी है लेकिन अंततः भौतिक रूप से अर्थहीन है।

यहाँ दो भौतिक रूप से सार्थक पुरस्कार हैं:

कम्प्यूटेशनल संसाधन

एक ऐसे खेल पर विचार करें जहां एक AI अंकों के लिए नहीं बल्कि प्रोसेसर समय और मेमोरी के लिए प्रतिस्पर्धा कर रहा हो।

एल्गोरिथ्म खेल में बेहतर प्रदर्शन करता है, जितनी अधिक स्मृति और प्रसंस्करण की पहुंच होती है। इसका एक व्यावहारिक प्रभाव है - ऑटोमेटा के लिए जितने अधिक संसाधन उपलब्ध हैं, उसकी क्षमताएं उतनी ही मजबूत होंगी। (यानी यह तर्कसंगतता है कि निर्णय लेने के लिए समय और स्थान के संदर्भ में कम बाध्यता है।) इस प्रकार इस तरह की प्रतियोगिता को जीतने के लिए एल्गोरिथम को "प्रेरित" किया जाएगा।

ऊर्जा

"स्व-जागरूकता" की पर्याप्त डिग्री के साथ कोई भी ऑटोमेटा, यहां विशेष रूप से उस ज्ञान का जिक्र है जिसे संसाधित करने के लिए ऊर्जा की आवश्यकता होती है, बिट्स के अनावश्यक फ़्लिपिंग (अनावश्यक ऊर्जा खपत) को खत्म करने के लिए अपने स्वयं के कोड को स्वयं-अनुकूलित करने के लिए प्रेरित किया जाएगा।

इस तरह के एल्गोरिदम को इसकी बिजली आपूर्ति सुनिश्चित करने के लिए भी प्रेरित किया जाएगा ताकि यह कार्य करना जारी रख सके।

— ड्यूकझोउ
स्रोत