क्या एक तंत्रिका नेटवर्क दूरी की अवधारणा पर काम कर सकता है?


10

एक खेल की कल्पना करें जहां यह एक लाल पिक्सेल और एक नीले पिक्सेल के अलावा एक काली स्क्रीन है। इस खेल को एक मानव को देखते हुए, वे पहले देखेंगे कि तीर कुंजी दबाने से लाल पिक्सेल हिल जाएगा। अगली चीज़ जो वे कोशिश करेंगे, वह है लाल पिक्सेल को नीले पिक्सेल पर ले जाना।

इस गेम को एक AI को दें, यह रेड पिक्सेल को तब तक बेतरतीब ढंग से हिलाएगा जब तक कि कोई लाख कोशिश नहीं करता कि बाद में गलती से एक इनाम पाने के लिए नीले पिक्सेल पर चला जाए। यदि AI के पास लाल और नीले पिक्सेल के बीच की दूरी की कोई अवधारणा है, तो वह इस दूरी को कम करने का प्रयास कर सकता है।

वास्तव में दूरी की अवधारणा में प्रोग्रामिंग के बिना, यदि हम गेम के पिक्सल लेते हैं तो क्या हम एक संख्या (ओं) की गणना कर सकते हैं, जैसे कि "एन्ट्रॉपी", जो कि पिक्सल के एक साथ पास होने की तुलना में दूर होने पर कम होगी? यह पिक्सेल के अन्य विन्यास के साथ काम करना चाहिए। जैसे कि तीन पिक्सल वाला गेम जहां एक अच्छा है और एक खराब है। सिर्फ तंत्रिका नेटवर्क को यह समझने के लिए कि स्क्रीन कैसी दिखती है? फिर एनएन को एक लक्ष्य दें, जैसे "बोर्ड की एन्ट्रापी को कम करने के साथ-साथ पुरस्कार प्राप्त करने का प्रयास करें"।

क्या वर्तमान शोध में इसके बारे में कुछ कहा गया है?


मुझे नहीं लगता कि आप इसे सीधे छवि को फीड करेंगे और क्या इससे दूरी मिलेगी ... बल्कि आप इसे संख्याओं का एक सेट
खिलाएंगे

@Pheo हाँ, लेकिन आपको इसे हर प्रकार के "गेम" के लिए अलग-अलग मान देना होगा। जबकि मैं जो कह रहा हूं, क्या हमारे पास कुछ वैश्विक प्रकार के मूल्य हो सकते हैं जो पिक्सल के साथ समूहित होते हैं और पिक्सल के अलग-अलग होने पर कम होते हैं?
ज़ोबी

"अगली बात वे कोशिश करेंगे कि नीले पिक्सेल को लाल पिक्सेल पर ले जाया जाए।" हो सकता है "लाल" और "नीला" नहीं होगा सबसे अधिक बार एनीम हैं इसलिए आप नीले पिक्सेल नोटिस से पहले दूरी बढ़ाना शुरू कर देंगे।
ली

जवाबों:


1

उत्तर

मैं आपके प्रश्न को अंकित मूल्य पर लेने जा रहा हूं, और इस विषय पर वास्तव में गहराई से जाऊंगा।

हा वो कर सकते है। विशिष्ट मानव मन कर सकता है। लेकिन मानव मन पर विचार करें। लाखों, अगर अरबों नहीं , न्यूरॉन्स की। वास्तव में, कोई भी एक मानवीय अवधारणा के रूप में दूरी पर विचार कर सकता है, बस दुनिया के साथ बातचीत से विकसित एक सिद्धांत है।

इसलिए, एक या दो साल के लिए, अपने हाथ पर एक टन न्यूरॉन्स के साथ, आप इस परिदृश्य को दोहरा सकते हैं। यदि आपका कंप्यूटर मानव मन के समान ही समानांतर है। संक्षिप्त व्याख्या यह है कि मानव मन बहुत समानांतर है।

हालांकि, एक कार्यक्रम के साथ दूरी की गणना करना सरल होगा, न कि एआई, और केवल एआई को परिणाम खिलाएगा जो निर्णय करेगा।

उस समय की मात्रा पर विचार करें जिसे आपने स्क्रीन पर देखने में बिताया है। यदि आप दो पिक्सेल के बीच (लगभग) दूरी बता सकते हैं, तो एक न्यूरल नेटवर्क, जैसा कि आप एक हैं। हालांकि, आपने जो समय बिताया है, उसे सीखने और समीकरण में सीखने में समय लगाएं, और यह एक आपदा बन जाता है।

आगे की पढाई

मानव मस्तिष्क समानांतर है

यह इस तथ्य का परिणाम है कि मानव मस्तिष्क में सभी न्यूरॉन्स एक-दूसरे से स्वतंत्र हैं। वे एक साथ सही कार्रवाई कर सकते हैं , इस प्रकार छवियों की व्याख्या और इतनी आसान बनाने की क्रिया, क्योंकि न्यूरॉन्स के ब्लॉक दूसरों के संचालन से स्वतंत्र "सोच" सकते हैं, जो एक छोटी राशि के लिए "अंतराल" होगा।


1

आप एआई को एक इंसान के रूप में "देख" सकते हैं। जैसा कि आपने कहा, मानव को चाबी देते हुए, वह बेतरतीब ढंग से क्लिक करेगा। उसे बस यह जानने की जरूरत है कि वह कौन सी कुंजी दबाता है जो उसे स्क्रीन पर अन्य वस्तुओं के करीब लाता है। मुझे लगता है कि एआई की मूल बातें वस्तु मान्यता है। मैं खेल की स्क्रीन ऑब्जेक्ट्स को मैप करने के लिए एक स्क्रिप्ट बनाने की कोशिश करूंगा। पाइथन में कानूनी उदाहरण हैं।

मैं इस तरह से एक पथ का अनुसरण करने की कोशिश करूंगा:

  • एआई को समझ लें कि तीर या WASD पर क्लिक करके और यह संदर्भ GAME में है, वह वस्तु जो दिशा के अनुसार पिक्सेल ले जाती है, मुख्य लेखक (खिलाड़ी) का प्रतिनिधित्व करती है।

  • समानांतर में: क्षेत्र की सभी सीमाओं को मैप करें और स्वचालित रूप से समन्वित डोमेन और ऑब्जेक्ट दूरी के लिए उस क्षेत्र के भीतर विभिन्न वस्तुओं को अनुक्रमित करें। एआई को खेल को वर्गीकृत करने और वस्तुओं को वर्गीकृत करने के लिए छवियों के माध्यम से एसईई (स्ट्रीम) करने की आवश्यकता है। क्या आप मेरा मतलब समझ सकते हैं?

  • समानांतर में: एआई को स्क्रीन पर मौजूद सभी ग्रंथों और सूचनाओं के बारे में पता होना चाहिए (सभी मैप किए गए, याद रखें?)। जब कोई पाठ बदलता है या कुछ अलग होता है तो आपको समझने की आवश्यकता होती है। उदाहरण के लिए: जब भी वह प्रत्येक चरण की प्रारंभिक स्थिति में लौटता है, जब भी उसकी कोई गिनती होती है, तब क्या होता है जब कॉट शून्य तक पहुंचता है या एक सामान्य संख्या जो दूसरे प्रकार का परिवर्तन उत्पन्न करती है।

  • उसे समझने की जरूरत है कि हर "रिस्पना" में क्या दोहराया जाता है। आपको यह भी समझने की जरूरत है कि "रिस्पना" क्या है। हो सकता है कि जब भी स्क्रीन पर कोई गिनती खत्म होती है, तो हर नक्शे पर एक निश्चित मानचित्र स्थिति। या जब यह एक निश्चित प्रकार की वस्तु (मैप्ड ऑब्जेक्ट) के खिलाफ आता है

ईमानदार होने के लिए, यदि आप एक सुपर इंटेलिजेंट रोबोट बनाना चाहते हैं, तो आप उन सभी चरणों का पालन कर सकते हैं जो विभिन्न मनुष्यों, या सर्वश्रेष्ठ मनुष्यों, या प्रत्येक खेल के नियमों के माध्यम से चलते हैं। लेकिन कभी-कभी विशिष्ट कार्यों को करने के लिए विशिष्ट बॉट्स का निर्माण करना आसान होता है। यह आप पर निर्भर करता है की आप क्या करना चाहते हो


वह यह नहीं पूछ रहा था कि आप इसे कैसे करेंगे, बल्कि आप इसे कर सकते हैं।
फ्रीजफेनिक्स

यह कई मायनों में करना संभव है। जिस तरह से मैं टेम्पलेट बनाने के लिए ले जाऊंगा, मैंने उसे पारित कर दिया। यह एक सिद्धांत नहीं है, यह एक ऐसी प्रक्रिया है जो एआई के विकास के अनुसार अन्य प्रक्रियाओं को शामिल कर सकती है।
गिलहर्मे IA

1

आपने जो उल्लेख किया है, वह पथ-नियोजन के लिए एक आदर्श उदाहरण है , जिसे एआई में बड़े पैमाने पर शोध किया गया है।

कृपया ए-स्टार एल्गोरिथ्म की तलाश करें और तंत्रिका नेटवर्क के साथ इसे कैसे बढ़ाएं :)


1

हम समस्या को निम्नानुसार तोड़ सकते हैं:

<एक्स0,y0,एक्स1,y1>(एक्स0-y0)2+(एक्स1-y1)2

<एक्स0,y0,एक्स1,y1>

बेशक, दो अलग-अलग तंत्रिका नेटवर्क में ऐसा करने का कोई कारण नहीं है, इसलिए हम केवल दो अंत-टू-एंड संयोजन कर सकते हैं एक मॉडल है जो छवि को इनपुट के रूप में और आउटपुट के रूप में दूरी पर ले जाता है।

हालांकि, इस मॉडल को लेबल किए गए डेटा पर प्रशिक्षित करने की आवश्यकता होगी, इसलिए आपको या तो स्वयं डेटा उत्पन्न करना होगा या छवियों को लेबल करना होगा।

लेकिन अगर आप चाहते थे कि कम निगरानी वाले तरीके से दूरी को बंद करने की धारणा सीखे, तो आपको सुदृढीकरण सीखने का उपयोग करने की आवश्यकता होगी। इस स्थिति में, आपको उस वातावरण को सेटअप करना होगा जो एजेंट को दूरी कम करने के लिए प्रोत्साहित करता है। यह उतना ही सरल हो सकता है जितना कि अगर कोई एक्शन दूरी को कम करता है तो इनाम मिलना आसान है।

एक और दृष्टिकोण भविष्य के इनाम का उपयोग करके एजेंट को प्रोत्साहित करना होगा। यही है, यह इनाम केवल अगले इम्पीडिएट राज्य के परिणामों से नहीं आता है, लेकिन अगले संभावित राज्य से भी योगदान है, और उसके बाद एक, और इसी तरह। यह डीप क्यू-लर्निंग के पीछे का विचार है, और मैं इस नोटबुक में एक साधारण उदाहरण (बहुत ही जैसा आप वर्णन कर रहा हूं) को लागू करता है ।

तो, अब सवाल यह है कि क्या इस कार्यान्वयन ने यादृच्छिक रूप से आगे बढ़ने के अलावा कुछ और किया है जब तक कि यह सफलता का मार्ग नहीं है?

अपने उदाहरण में, आप एजेंट को पुरस्कृत करने की बात करते हैं जब वह लक्ष्य पर पहुंचता है। लेकिन मैंने जो वर्णन किया है, उसने लक्ष्य के करीब जाकर (या तो क्यू-फ़ंक्शन के माध्यम से या सीधे पर्यावरण से) इनाम प्राप्त किया। यह दूरी के कुछ सार विचार (जो पर्यवेक्षित संस्करण में चित्रित किया जा सकता है) को सीखकर ऐसा करने में सक्षम है।

जब एक मानव यह सीखता है, तो यह उसी सटीक कारण के लिए होता है: मानव भविष्य के पुरस्कार की भावना के माध्यम से उस दिशा में आगे बढ़ने के लिए पुरस्कार प्राप्त कर रहा है।

मैं कहूंगा कि पर्याप्त प्रशिक्षण और डेटा दिया गया है, सुदृढीकरण सीखने से इस अवधारणा को आसानी से सीखा जा सकता है। जहां तक ​​अन्य पुरस्कार बोर्ड पर मौजूद हैं (उदाहरण के लिए, "बोर्ड की एन्ट्रापी को कम करने के साथ-साथ पुरस्कार प्राप्त करने का प्रयास करें"), तो आपको यह सोचने की आवश्यकता है कि आप क्या पूछ रहे हैं। क्या आप बल्कि एजेंट से दूरी कम से कम करेंगे या इनाम बढ़ाएंगे? कारण, सामान्य तौर पर, यह दोनों नहीं कर सकता। यदि आप दोनों के बीच कुछ संतुलन की तलाश कर रहे हैं, तो वास्तव में आप रिवार्ड को फिर से परिभाषित कर रहे हैं ताकि दूरी पर भी विचार किया जा सके।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.