एमसीटीएस / यूसीटी के आवेदन


10

MCTS / UCT एक गेम ट्री सर्च मेथड है जिसका पता लगाने के लिए आशाजनक नोड्स का चयन करने के लिए एक बैंडिट एल्गोरिथ्म का उपयोग किया जाता है। खेलों को बेतरतीब ढंग से पूरा करने के लिए खेला जाता है और अधिक जीत के लिए नोड्स को अधिक जोर से खोजा जाता है। बैंडिट एल्गोरिथ्म उच्च जीत दर के साथ नोड्स की खोज और अज्ञात नोड्स की खोज के बीच एक संतुलन रखता है (और अपने शुद्ध रूप में जरूरी नहीं कि एक मूल्यांकन मूल्यांकन फ़ंक्शन का उपयोग करता है)। इस सामान्य तकनीक पर आधारित कार्यक्रमों ने कंप्यूटर गो में बहुत आश्चर्यजनक परिणाम प्राप्त किए हैं ।

क्या दस्यु-चालित मोंटे-कार्लो खोजों को किसी अन्य खोज समस्याओं पर लागू किया गया है? उदाहरण के लिए, क्या यह MAX-SAT, BKP, या अन्य दहनशील अनुकूलन समस्याओं के समाधान के लिए एक उपयोगी दृष्टिकोण होगा? क्या किसी समस्या (संरचनात्मक / सांख्यिकीय / आदि) की कोई विशेष विशेषताएं हैं जो बताएंगी कि बैंडिट-शैली का दृष्टिकोण प्रभावी होगा या नहीं?

क्या कोई ज्ञात नियतात्मक समस्याएं हैं जो समाधान स्थान की प्रकृति के कारण, दस्यु विधियों के लिए पूरी तरह से प्रतिरोधी होंगी?

जवाबों:


7

यह एक पूर्ण उत्तर नहीं है, लेकिन MAX-SAT पर इसे लागू करने के बारे में कुछ बुनियादी टिप्पणियां हैं।

उच्च स्तर पर, यह इस हेयुरिस्टिक दृष्टिकोण (जब मैक्स-सैट पर लागू होता है) की तरह दिखता है, जो "सशर्त अपेक्षा", व्युत्पन्नकरण में एक मानक विधि की विधि के आधार पर ब्रंचिंग एल्गोरिथ्म के समान होगा। उदाहरण के लिए, MAX 3-SAT (प्रति खंड 3 चर के साथ) के लिए एक निर्धारक -प्रतिरक्षा प्राप्त करने के लिए , कोई एक चर सेट करता है, खंड के अपेक्षित अंश का अनुमान लगाता है जो शेष में एक यादृच्छिक असाइनमेंट से संतुष्ट होगा। सूत्र, फिर सेट करता है और समान गणना करता है। (यह "बेतरतीब ढंग से पूरा करने के लिए एक गेम खेलना" के समान लगता है।) क्लॉस ( या ) के उच्च प्रत्याशित अंश के साथ चर सेटिंग को चुना जाएगा। इस बहुपद समय एल्गोरिथ्म एक देता हैएक्स = 0 एक्स = 1 x = 0 एक्स = 1 7 / 8 7 / 87/8x=0x=1x=0x=17/8 -परिवर्तन और तंग होने के लिए जाना जाता है (आप इसे केवल खंडों को संतुष्ट करने में मूर्ख बना सकते हैं)। इस संबंध को इस अनुमान की क्षमता पर कम सीमा साबित करना संभव बनाना चाहिए।7/8

यह ज्ञात है कि मैक्स 3-सैट की तुलना में बेहतर अनुमान करने वाले है , -हार्ड तो हम एक कुशल अनुमानी इससे बेहतर करने की उम्मीद नहीं है। यह दिखाना दिलचस्प होगा (और मुझे लगता है कि यह सच है) कि उपरोक्त चर पसंद के आधार पर एक शाखाओं में बंटी एल्गोरिथ्म को बेहतर-से-7/ सन्निकटन खोजने के लिए घातीय रूप से कई चरणों की आवश्यकता होती है । बैकट्रैकिंग पर पहले से ही कम सीमाएं हैं जो कहती हैं कि कोई फर्क नहीं पड़ता कि आप किस अनुमान का उपयोग करते हैं, भले ही आप पूरी तरह से अनुमान लगाते हों, अभी भी असंतोषजनक सूत्र हैं जिनके लिए बैकट्रैकिंग केवल यह निष्कर्ष निकालेंगे कि घातीय रूप से कई चरणों के बाद वे असंतोषजनक हैं। रिज़ॉल्यूशन प्रूफ की लंबाई पर निचले सीमा इन परिणामों को प्राप्त करते हैं। एक संदर्भ है:एन पी 7 / 87/8NP7/8

पावेल पुडलक, रसेल इम्पेग्लियाज़ो: के-सैट (प्रारंभिक संस्करण) के लिए डीएलएल एल्गोरिदम के लिए एक निचली बाउंड। सोडा 2000: 128-136


3

बैंडिट-आधारित दृष्टिकोणों के लिए एक समस्या के कारण कौन-कौन सी विशेषताएँ समस्या का कारण बनती हैं, इस प्रश्न के लिए, यह शोधपत्र विभिन्न शोध खोजों में UCT के व्यवहार का वर्णन करता है:

http://www.cs.cornell.edu/~raghu/Raghuram_Ramanujan_files/mcts11.pdf

सादर, कैमरन


2

यह हालिया सर्वेक्षण पेपर धारा 7.8 में गेम के अलावा कई खोज और अनुकूलन समस्याओं के लिए एमसीटीएस के आवेदन को सूचीबद्ध करता है:

http://pubs.doc.ic.ac.uk/survey-mcts-methods/survey-mcts-methods.pdf

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=6145622

उन डोमेन के लिए जो बैंडिट-आधारित विधियों के लिए पूरी तरह से प्रतिरोधी हैं, मुझे किसी भी ऑफ-हैंड के बारे में पता नहीं है। शतरंज एमसीटीएस साहित्य से एक चकाचौंध चूक है, संभवतः "ट्रैप स्टेट्स" के कारण जो खोज को नुकसान पहुंचाता है, लेकिन संभवतः इस तथ्य के कारण भी है कि इन दिनों कंप्यूटर शतरंज के खिलाड़ी सिर्फ इतने अधिक अनुकूलित और अच्छे हैं कि कोई नया दृष्टिकोण बनाने की संभावना नहीं है उन पर एक दाँत।

सादर, कैमरन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.