समस्या स्थान बहुत बड़ा होने पर AI कैसे कार्य करना सीखता है


10

मैं प्रयोग और उदाहरण के माध्यम से सबसे अच्छा सीखता हूं। मैं तंत्रिका नेटवर्क के बारे में सीख रहा हूं और मेरे पास (जो मुझे लगता है) वर्गीकरण और प्रतिगमन की एक बहुत अच्छी समझ है और पर्यवेक्षित और अनुपयोगी शिक्षा भी है, लेकिन मैंने कुछ ऐसा किया है जिसे मैं समझ नहीं सकता हूं;

अगर मैं एक जटिल खेल खेलने के लिए एआई को प्रशिक्षित करना चाहता था; मैं एक आरटीएस (उदाहरण के लिए, साम्राज्यों, साम्राज्य पृथ्वी आदि) की तरह कुछ सोच रहा हूं। इस प्रकार के खेलों में आम तौर पर विभिन्न क्षमताओं वाले खिलाड़ी (इकाइयों, भवनों) द्वारा नियंत्रित कई इकाइयाँ होती हैं। ऐसा लगता है कि एआई वर्गीकरण करता है (जैसे कि उस इकाई को चुनें, और उस कार्रवाई को) की समस्या है, हालांकि चूंकि इकाइयों की संख्या एक चर है, इसलिए कोई इस तरह से वर्गीकरण समस्या को कैसे संभालता है?

केवल एक चीज जिसके बारे में मैं सोच सकता हूं, वह है कई नेटवर्क जो विभिन्न चरणों को करते हैं (एक समग्र रणनीति के लिए, एक इस प्रकार की इकाई को नियंत्रित करने के लिए, एक उस प्रकार की इमारत आदि के लिए); लेकिन ऐसा लगता है कि मैं समस्या को जटिल बना रहा हूं।

क्या मशीन सीखने / तंत्रिका नेटवर्क के जटिल गेम सीखने का कोई अच्छा उदाहरण है (विशेष रूप से आरटीएस नहीं, लेकिन अधिक जटिल मारियो )?


"RTS AI: समस्याएं और तकनीकें", webdocs.cs.ualberta.ca/~cdavid/pdf/ecgg15_chapter-rts_ai.pdf
एंटोन

एक उत्तर के लिए उपयोगी हो सकता है: ijcai.org/papers07/Papers/IJCAI07-168.pdf और उसी की समीक्षा: aigamedev.com/open/review/transfer-learning-rts
नील स्लेटर

क्या आपने cs.toronto.edu/~vmnih/docs/dqn.pdf देखा है ?
xgdgsc

जवाबों:


4

यह एक अच्छा सवाल है और दुनिया भर के कई वैज्ञानिक ऐसा ही पूछ रहे हैं। ठीक है, पहले गेम ऑफ एम्पायर जैसे खेल को वास्तव में बड़ा समाधान स्थान नहीं माना जाता है, ऐसी बहुत सी चीजें नहीं हैं जो आप कर सकते हैं। यह मारियो ब्रदर्स जैसे खेलों में समान है। अटारी गेम जैसे आसान गेम में सीखने की समस्या को डीपमाइंड (यहाँ कागज़ ) के लोगों ने हल किया , जो कि गूगल द्वारा हासिल किया गया था। उन्होंने डीप लर्निंग के साथ रीइनफोर्समेंट लर्निंग के कार्यान्वयन का उपयोग किया।

अपने सवाल पर वापस जाना। वास्तव में एक बड़ी समस्या यह है कि हर दिन एक इंसान को कितने फैसलों की नकल करनी है। उठो, नाश्ता करो, एक शॉवर लो, अपना घर छोड़ दो ... इन सभी क्रियाओं को वास्तव में उच्च स्तर की बुद्धि और कई कार्यों को विकसित करने की आवश्यकता है।

इस समस्या पर कई लोग काम कर रहे हैं, मैं उनमें से एक हूं। मैं समाधान नहीं जानता, लेकिन मैं आपको बता सकता हूं कि मैं किस तरीके से देख रहा हूं। मैं मार्विन मिंस्की के सिद्धांतों का पालन करता हूं, वह एआई के पिता हैं। यह पुस्तक, इमोशन मशीन, समस्या का बहुत अच्छा दृश्य बताती है। उन्होंने सुझाव दिया कि मानव व्यवहार की नकल करने वाली मशीन बनाने का तरीका कृत्रिम बुद्धिमत्ता के एकीकृत कॉम्पैक्ट सिद्धांत का निर्माण नहीं है। इसके विपरीत, उनका तर्क है कि हमारे मस्तिष्क में ऐसे संसाधन हैं जो एक ही समय में विभिन्न लक्ष्यों को पूरा करने के लिए एक-दूसरे के बीच प्रतिस्पर्धा करते हैं। उन्होंने इस तरीके को सोचने के लिए बुलाया ।


1

बड़ा सवाल है। यह जटिलता का विषय है, और आपके द्वारा उपयोग किया जाने वाला दृष्टिकोण इस बात पर निर्भर करेगा कि समस्या कितनी जटिल है। किसी भी समस्या को हम हल करने की कोशिश करेंगे, उसके साथ जुड़ी जटिलता की एक डिग्री होगी, बोलचाल की भाषा में "चीजों की संख्या, या जिन चीजों पर विचार करने की आवश्यकता है, उन्हें परिभाषित किया गया है।" पर्यवेक्षित और अनुपयोगी अधिगम में हम ठीक से विचार करने के लिए चीजों की संख्या निर्दिष्ट करते हैं।

उदाहरण के लिए, कई रेखीय प्रतिगमन में हम लर्निंग एल्गोरिदम को बताते हैं कि किसी मॉडल को फिट करते समय कितनी विशेषताओं पर विचार करना चाहिए (आपके प्रशिक्षण सेट में कॉलम की संख्या)। एक ही स्थिति अनिश्चित सीखने के लिए रखती है; सुविधाओं की एक स्पष्ट संख्या के साथ एक अच्छी तरह से परिभाषित प्रशिक्षण सेट का उपयोग किया जाता है (लेबल के बिना इस मामले में)।

आप जो भी सामना कर रहे हैं, वह वर्गीकरण या प्रतिगमन के लिए एक स्थिति के अनुकूल है, क्योंकि आप विशिष्ट रूप से "चीजों पर विचार करने के लिए" की संख्या को विशिष्ट रूप से निर्धारित नहीं कर सकते हैं। जैसा कि आप कहते हैं, आपकी समस्या का स्थान बहुत बड़ा है। इस बारे में सोचने का एक और तरीका एक मॉडल सीखने के लिए आवश्यक प्रशिक्षण सेट के संदर्भ में है; आपके लिए कितना मुश्किल है कि प्रशिक्षण सेट कैसा दिखता है? आपके मामले में मुश्किल है। मेरे सेट के कॉलम में वास्तव में क्या होगा?

यही कारण है कि सेल्फ-ड्राइविंग कार, अटारी और अल्फ़ागो जैसे एप्लिकेशन वर्गीकरण या प्रतिगमन का उपयोग नहीं करते हैं। यह जानना असंभव है कि प्रशिक्षण सेट भी कैसा दिखेगा। आप कोशिश कर सकते हैं, लेकिन आपका मॉडल मज़बूती से मजबूत भविष्यवाणियां करने में विफल रहेगा (इस मामले में चालें)। सड़क की स्थिति का मॉडल बनाने के लिए आपको कितनी चीजों पर विचार करना होगा?

यही कारण है कि मशीन लर्निंग, रीइनफोर्समेंट लर्निंग का एक तीसरा प्रकार मौजूद है। पूर्व-निर्दिष्ट प्रशिक्षण सेट का उपयोग करने के बजाय, यह परीक्षण और त्रुटि का उपयोग करता है। लगातार अपने वातावरण को पोक करने से यह एक ऐसी नीति सीख सकता है जो दीर्घकालिक रूप से काम करती है।

इसलिए, छोटी समस्या वाले स्थानों के लिए जहां हम प्रशिक्षण सेट को परिभाषित करने का एक मौका देते हैं, हम पर्यवेक्षित और अप्रमाणित मशीन लर्निंग का उपयोग करते हैं। बड़ी समस्या वाले स्थानों के लिए जहां प्रशिक्षण सेट को परिभाषित करना मुश्किल है, हम सुदृढीकरण सीखने का उपयोग करते हैं। बेशक आप उपरोक्त सभी दृष्टिकोणों का दिलचस्प संयोजन भी कर सकते हैं, लेकिन यह अभी भी जटिलता में आता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.