"मोंटे-कार्लो खोज" कैसे काम करती है?


16

मैंने अल्फा गो के बारे में एक Reddit पोस्ट में इस अवधारणा के बारे में सुना है। मैंने कागज और लेख के माध्यम से जाने की कोशिश की है, लेकिन वास्तव में एल्गोरिथ्म की समझ नहीं बना सका।

तो, क्या कोई व्यक्ति इस बात की आसानी से व्याख्या कर सकता है कि मोंटे-कार्लो सर्च अल्गोरिद्म कैसे काम करता है और गेम-प्ले एआई बॉट्स के निर्माण में इसका उपयोग कैसे किया जा रहा है?


MCTS एल्गोरिथ्म का एक अच्छा विवरण यहां पाया जा सकता है: https://towardsdatascience.com/monte-carlo-tree-search-in-reinforce-learning-b97d3e743d0f
नबंर

जवाबों:


13

मोंटे कार्लो पद्धति एक दृष्टिकोण है जहां आप बड़ी संख्या में यादृच्छिक मूल्य या सिमुलेशन उत्पन्न करते हैं और सामान्य पैटर्न के आधार पर कुछ प्रकार के निष्कर्ष बनाते हैं, जैसे कि साधन और संस्करण।

एक उदाहरण के रूप में, आप इसे मौसम के पूर्वानुमान के लिए उपयोग कर सकते हैं । लंबे समय तक मौसम की भविष्यवाणी करना काफी मुश्किल है, क्योंकि यह एक अराजक प्रणाली है जहां छोटे बदलाव बहुत अलग परिणाम दे सकते हैं। मोंटे कार्लो विधियों का उपयोग करते हुए, आप बड़ी संख्या में सिमुलेशन चला सकते हैं, प्रत्येक थोड़ा अलग वायुमंडलीय परिवर्तन के साथ। फिर आप परिणामों का विश्लेषण कर सकते हैं और उदाहरण के लिए बारिश के साथ कितने सिमुलेशन समाप्त हुए, इसके आधार पर किसी दिन बारिश की संभावना की गणना करें।

अल्फा गो में मोंटे कार्लो के उपयोग के लिए, वे तथाकथित मोंटे कार्लो ट्री खोज का उपयोग करते प्रतीत होते हैं । इस दृष्टिकोण में, आप संभव चालों का एक पेड़ बनाते हैं, कुछ भविष्य में बदल जाता है, और सबसे अच्छा अनुक्रम खोजने की कोशिश करता है। हालाँकि, गो गेम में संभावित चालों की संख्या बहुत बड़ी है, इसलिए आप बहुत आगे नहीं जा पाएंगे। इसका मतलब है कि कुछ चालें जो अब अच्छी लगती हैं, बाद में खराब हो सकती हैं।

तो, मोंटे कार्लो ट्री सर्च में, आप चालों का एक आशाजनक क्रम चुनते हैं और एक या अधिक सिमुलेशन चलाते हैं कि खेल उस बिंदु से कैसे आगे बढ़ सकता है। फिर आप उस सिमुलेशन के परिणामों का उपयोग करके एक बेहतर विचार प्राप्त कर सकते हैं कि चालों का विशिष्ट क्रम कितना अच्छा है और आप तदनुसार पेड़ को अपडेट करते हैं। जब तक आपको एक अच्छा कदम नहीं मिलता है तब तक दोहराएं।

यदि आप अधिक जानकारी चाहते हैं या कुछ चित्र देखना चाहते हैं, तो मुझे इस विषय पर एक दिलचस्प पेपर मिला: सी। ब्राउन एट अल।, मोंटे कार्लो ट्री सर्च मेथड्स का एक सर्वेक्षण ( खुला भंडार / स्थायी लिंक (भुगतान किया गया) )


तो मूल रूप से अल्फा कार्लो में जो मोंटे कार्लो करता है, वह लंबी अवधि की रणनीतियों को बनाने के लिए है, विभिन्न चाल संयोजनों पर विचार करने के बजाय, दूसरे तरीके के बजाय (एक रणनीति चुनें और फिर इसे प्राप्त करने के लिए चालें)?
डिएगो एंटोनियो रोसारियो पालोमिनो

मोंटे कार्लो दृष्टिकोण के प्रमुख तत्व का कोई उल्लेख नहीं है, जो कि स्टोचैस्टिक तत्व जांच के लिए उपलब्ध चालों के चयन में एकीकृत है। उल्लिखित प्रसंस्करण को प्राप्त करने के लिए न तो व्यापार की सटीकता थी। वे सबसे महत्वपूर्ण दो पहलू हैं और उत्तर से अनुपस्थित हैं। इसके बजाय, "बड़ी संख्या में यादृच्छिक मूल्य या सिमुलेशन," का उल्लेख किया गया था, जब यह छद्म यादृच्छिक कारकों (एक कम संपूर्ण खोज) से सिमुलेशन की एक छोटी संख्या है जो मोंटे कार्लो अभिसरण की विशेषता है।
फौक्रिस्टियन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.