मार्कोव निर्णय प्रक्रियाओं के वास्तविक जीवन के उदाहरण


20

मैं बहुत सारे ट्यूटोरियल वीडियो देख रहा हूं और वे समान दिख रहे हैं। उदाहरण के लिए यह एक: https://www.youtube.com/watch?v=ip4iSMRW5X4

वे राज्यों, कार्यों और संभावनाओं की व्याख्या करते हैं जो ठीक हैं। वह व्यक्ति इसे ठीक बताता है, लेकिन मैं वास्तविक जीवन में इसका उपयोग करने के लिए इसकी पकड़ नहीं बना सकता। मैं अभी तक किसी भी सूची में नहीं आया हूं। सबसे आम मैं देख रहा हूँ शतरंज है।

क्या इसका उपयोग चीजों की भविष्यवाणी करने के लिए किया जा सकता है? यदि हां, तो किस प्रकार की चीजें? क्या यह डेटा की अनंत मात्रा में पैटर्न पा सकता है? यह एल्गोरिथ्म मेरे लिए क्या कर सकता है।

बोनस: ऐसा भी लगता है कि एमडीपी एक राज्य से दूसरे राज्य में जाने के बारे में है, क्या यह सच है?

जवाबों:


28

एक मार्कोवियन निर्णय प्रक्रिया को वास्तव में एक राज्य से दूसरे राज्य में जाना पड़ता है और इसका उपयोग मुख्य रूप से योजना और निर्णय लेने के लिए किया जाता है ।

सिद्धांत

बस सिद्धांत को जल्दी से दोहराते हुए, एक एमडीपी है:

MDP=एस,,टी,आर,γ

जहां एस राज्यों, कर रहे हैं कार्रवाई, टी संक्रमण संभावनाओं (यानी संभावनाओं पीआर(रों'|रों,) एक कार्रवाई को देखते हुए एक से दूसरे राज्य से जाने के लिए), आर पुरस्कार (एक निश्चित राज्य को देखते हुए, और संभवतः कार्रवाई), और γ एक छूट कारक है जिसका उपयोग भविष्य के पुरस्कारों के महत्व को कम करने के लिए किया जाता है।

तो इसका उपयोग करने के लिए, आपको पूर्वनिर्धारित होना चाहिए:

  1. स्टेट्स : ये रोबोटिक्स में उदाहरण ग्रिड मैप्स के लिए, या उदाहरण के लिए खुले और बंद दरवाजे के लिए संदर्भित कर सकते हैं ।
  2. क्रियाएँ : क्रियाओं का एक निश्चित सेट, जैसे कि उत्तर की ओर जाना, दक्षिण, पूर्व, आदि रोबोट के लिए, या दरवाजा खोलना और बंद करना।
  3. संक्रमण की संभावनाएं : एक राज्य से दूसरे राज्य में जाने की संभावना। यदि कार्रवाई है उदाहरण के लिए, क्या एक खुला दरवाजा की संभावना है खुला । एक आदर्श दुनिया में बाद में 1.0 हो सकता है, लेकिन अगर यह एक रोबोट है, तो यह डोरकनॉ को सही ढंग से संभालने में विफल हो सकता है। एक गतिशील रोबोट के मामले में एक और उदाहरण उत्तर की कार्रवाई होगी , जो ज्यादातर मामलों में इसे उत्तर की ग्रिड सेल में लाएगी, लेकिन कुछ मामलों में बहुत अधिक स्थानांतरित हो सकती है और उदाहरण के लिए अगले सेल तक पहुंच सकती है।
  4. पुरस्कार : इनका उपयोग योजना बनाने के लिए किया जाता है। ग्रिड उदाहरण के मामले में, हम एक निश्चित सेल में जाना चाहते हैं, और अगर हम करीब पहुंचते हैं तो इनाम अधिक होगा। दरवाजा उदाहरण के मामले में, एक खुला दरवाजा एक उच्च इनाम दे सकता है।

एक बार एमडीपी परिभाषित हो जाने के बाद, एक नीति को मूल्य निर्धारण या नीति निर्धारण करके सीखा जा सकता है जो प्रत्येक राज्य के लिए अपेक्षित इनाम की गणना करता है। नीति तो राज्य प्रति देता है सबसे अच्छा करने के लिए (MDP मॉडल प्रदान किया जाता) कार्रवाई।

सारांश में, एमडीपी तब उपयोगी होता है जब आप कार्यों के कुशल अनुक्रम की योजना बनाना चाहते हैं जिसमें आपके कार्य हमेशा 100% प्रभावी नहीं हो सकते हैं।

आपके सवाल

क्या इसका उपयोग चीजों की भविष्यवाणी करने के लिए किया जा सकता है?

मैं इसे नियोजन कहूंगा, उदाहरण के लिए प्रतिगमन की तरह भविष्यवाणी करना नहीं ।

यदि हां, तो किस प्रकार की चीजें?

उदाहरण देखें ।

क्या यह डेटा की अनंत मात्रा के बीच पैटर्न पा सकता है?

|एस|

यह एल्गोरिथ्म मेरे लिए क्या कर सकता है।

उदाहरण देखें ।

एमडीपी के अनुप्रयोगों के उदाहरण

और काफी कुछ और मॉडल हैं। एक और भी दिलचस्प मॉडल आंशिक रूप से अवलोकन योग्य मार्कोवियन निर्णय प्रक्रिया है जिसमें राज्य पूरी तरह से दिखाई नहीं देते हैं, और इसके बजाय, वर्तमान स्थिति का अंदाजा लगाने के लिए टिप्पणियों का उपयोग किया जाता है, लेकिन यह इस प्रश्न के दायरे से बाहर है।

अतिरिक्त जानकारी

एक स्टोकेस्टिक प्रक्रिया मार्कोवियन है (या मार्कोव संपत्ति है) यदि भविष्य के राज्यों की सशर्त संभाव्यता वितरण केवल वर्तमान स्थिति पर निर्भर करता है, और पिछले वाले (यानी पिछले राज्यों की सूची पर नहीं)।


2
यह शायद सबसे स्पष्ट जवाब है जो मैंने कभी क्रॉस वैलिडेट पर देखा है।
हिडन मार्कोव मॉडल

कोई भी मौका आप लिंक को ठीक कर सकते हैं? उनमें से कुछ टूटी हुई या पुरानी दिखाई देती हैं।
कंप्यूटर साइंटिस्ट

इसलिए किसी भी प्रक्रिया है कि states, actions, transition probabilitiesऔरrewards परिभाषित Markovian के रूप में कहा जाएगा?
सुहैल गुप्ता
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.