मोंटे कार्लो ट्री खोज: किस तरह की चाल आसानी से पाई जा सकती है और किस प्रकार की परेशानी पैदा करती है?


10

मैं एक ऐसे परिदृश्य से शुरुआत करना चाहता हूं जो मुझे यह सोचने के लिए मिला कि एमसीटीएस कितना अच्छा प्रदर्शन कर सकता है: चलो मान लेते हैं कि एक चाल है जो अभी तक खोज पेड़ में नहीं जोड़ा गया है। यह कुछ परतें / चालें बहुत गहरी हैं। लेकिन अगर हम खेलते हैं तो खेल मूल रूप से जीता जाता है। हालांकि, यह भी मान लें कि दिए गए खेल की स्थिति में बदले जाने वाले सभी चाल बहुत खराब हैं। तर्क के लिए मान लें कि 1000 संभावित चालें हैं और उनमें से केवल एक अच्छा है (लेकिन बहुत अच्छा है) और बाकी बहुत खराब है। MCTS इसे पहचानने में विफल होगा और नहींइस चाल की दिशा में खोज ट्री बढ़ाएं और इस सबट्री को बहुत बुरी तरह से रेट करें? मुझे पता है कि एमसीटीएस अंततः मिनिमैक्स में परिवर्तित हो जाता है (और अंततः यह पूरे पेड़ का निर्माण करेगा यदि पर्याप्त मेमोरी है)। तब यह पता होना चाहिए कि कई अच्छे भाई-बहन होने के बावजूद यह कदम अच्छा है। लेकिन मुझे लगता है कि व्यवहार में यह कुछ ऐसा नहीं है जिस पर भरोसा किया जा सकता है। शायद कोई मुझे बता सकता है कि क्या यह मेरी ओर से सही मूल्यांकन है।

इस विशेष परिदृश्य के अलावा मैं यह भी जानना चाहूंगा कि क्या ऐसे अन्य परिदृश्य हैं जहां MCTS बुरी तरह से (या असाधारण अच्छी तरह से) प्रदर्शन करेगा।


MCTS संभाव्य है। जैसे कि उसे सुराग चाहिए या उसे कुछ नहीं मिलेगा। उदाहरण के लिए: हिस्टैक में सुई मांगना। यह कोशिश करो और आप असफल हो जाएंगे। यह अच्छा होगा यदि आप अधिक यथार्थवादी उदाहरण के साथ आ सकते हैं और पूछेंगे कि उस उदाहरण के लिए इष्टतम रणनीति क्या होगी। यह हिस्टैक में सुइयों को बेहतर तरीके से खोजने का एक संकेत दे सकता है।
20

जवाबों:


2

क्या यह कदम पाया जाता है और कितनी जल्दी पाया जाता है, कुछ बातों पर निर्भर करता है। अगर मैं सही ढंग से समझता हूं, तो कई "खराब" चालों का एक क्रम है जो "बड़ी जीत" की ओर जाता है, और आप डरते हैं कि एमसीटीएस एल्गोरिथ्म "बड़ी जीत" चाल को नहीं मिलेगा क्योंकि यह अधिक आशाजनक होगा पेड़ को आगे बढ़ाता है। सोचने के लिए कुछ बातें (विकिपीडिया MCTS लेख भी पढ़ें ):

  • जब आप playouts कर रहे हैं, तो आप अपने खेल को केवल कुछ और चालों के लिए या खेल के अंत तक खेल सकते हैं। केवल कुछ ही कदम आगे बढ़ना स्पष्ट रूप से तेज है, लेकिन आपके द्वारा वर्णित चरम मामले में यह सबसे अच्छा विकल्प नहीं होगा। यदि आप ऐसे परिदृश्यों के अस्तित्व के बारे में जानते हैं, तो खेल को खेल के अंत तक खेलना सुनिश्चित करें।

  • प्लेआउट करते समय, आप अपनी चाल / क्रियाओं को या तो यादृच्छिक रूप से चुन सकते हैं या आपकी समस्या के अनुरूप कुछ सरल, लालची (त्वरित) अनुमानों के आधार पर। क्या आपके खेल / समस्या के लिए इस तरह के परिदृश्यों को खोजने या लेने के लिए डिज़ाइन किए गए लालची आंकड़े हैं? यदि हाँ, तो उन्हें लागू करें। इसे तब "हेवी प्लेआउट" कहा जाता है। यादृच्छिक चाल का उपयोग करके परिणामों को प्लेआउट से तुलना करें।

  • यदि आप यूसीटी (पेड़ों पर लागू ऊपरी विश्वास सीमा) का उपयोग करके कार्रवाई चुनते हैं, तो अभिव्यक्ति का पहला हिस्सा शोषण के लिए जिम्मेदार है। उच्च औसत जीत अनुपात वाली चालों को प्राथमिकता दी जाती है। दूसरा भाग हालांकि अन्वेषण से मेल खाता है। यदि अन्वेषण पैरामीटर पर्याप्त रूप से सेट किया गया है (आपकी समस्या के लिए अनुभवजन्य रूप से परीक्षण), तो कुछ सिमुलेशन के साथ चालें पसंद की जाएंगी। उच्च अन्वेषण आपके सुनहरे कदम को खोजने के लिए एक और तरीका होगा, शोषण के विरोध में (अन्वेषण / शोषण दुविधा के बारे में पढ़ें)।

यदि आप एक यथार्थवादी गेम या समस्या परिदृश्य का वर्णन करते हैं, तो हम आपको एक उपयुक्त रणनीति के साथ आने में मदद कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.