एक मार्कोवियन निर्णय प्रक्रिया को वास्तव में एक राज्य से दूसरे राज्य में जाना पड़ता है और इसका उपयोग मुख्य रूप से योजना और निर्णय लेने के लिए किया जाता है ।
सिद्धांत
बस सिद्धांत को जल्दी से दोहराते हुए, एक एमडीपी है:
MDP = ⟨ एस, ए , टी, आर , γ⟩
जहां एस राज्यों, कर रहे हैं ए कार्रवाई, टी संक्रमण संभावनाओं (यानी संभावनाओं पीr ( s)'|एस , ए ) एक कार्रवाई को देखते हुए एक से दूसरे राज्य से जाने के लिए), आर पुरस्कार (एक निश्चित राज्य को देखते हुए, और संभवतः कार्रवाई), और γ एक छूट कारक है जिसका उपयोग भविष्य के पुरस्कारों के महत्व को कम करने के लिए किया जाता है।
तो इसका उपयोग करने के लिए, आपको पूर्वनिर्धारित होना चाहिए:
- स्टेट्स : ये रोबोटिक्स में उदाहरण ग्रिड मैप्स के लिए, या उदाहरण के लिए खुले और बंद दरवाजे के लिए संदर्भित कर सकते हैं ।
- क्रियाएँ : क्रियाओं का एक निश्चित सेट, जैसे कि उत्तर की ओर जाना, दक्षिण, पूर्व, आदि रोबोट के लिए, या दरवाजा खोलना और बंद करना।
- संक्रमण की संभावनाएं : एक राज्य से दूसरे राज्य में जाने की संभावना। यदि कार्रवाई है उदाहरण के लिए, क्या एक खुला दरवाजा की संभावना है खुला । एक आदर्श दुनिया में बाद में 1.0 हो सकता है, लेकिन अगर यह एक रोबोट है, तो यह डोरकनॉ को सही ढंग से संभालने में विफल हो सकता है। एक गतिशील रोबोट के मामले में एक और उदाहरण उत्तर की कार्रवाई होगी , जो ज्यादातर मामलों में इसे उत्तर की ग्रिड सेल में लाएगी, लेकिन कुछ मामलों में बहुत अधिक स्थानांतरित हो सकती है और उदाहरण के लिए अगले सेल तक पहुंच सकती है।
- पुरस्कार : इनका उपयोग योजना बनाने के लिए किया जाता है। ग्रिड उदाहरण के मामले में, हम एक निश्चित सेल में जाना चाहते हैं, और अगर हम करीब पहुंचते हैं तो इनाम अधिक होगा। दरवाजा उदाहरण के मामले में, एक खुला दरवाजा एक उच्च इनाम दे सकता है।
एक बार एमडीपी परिभाषित हो जाने के बाद, एक नीति को मूल्य निर्धारण या नीति निर्धारण करके सीखा जा सकता है जो प्रत्येक राज्य के लिए अपेक्षित इनाम की गणना करता है। नीति तो राज्य प्रति देता है सबसे अच्छा करने के लिए (MDP मॉडल प्रदान किया जाता) कार्रवाई।
सारांश में, एमडीपी तब उपयोगी होता है जब आप कार्यों के कुशल अनुक्रम की योजना बनाना चाहते हैं जिसमें आपके कार्य हमेशा 100% प्रभावी नहीं हो सकते हैं।
आपके सवाल
क्या इसका उपयोग चीजों की भविष्यवाणी करने के लिए किया जा सकता है?
मैं इसे नियोजन कहूंगा, उदाहरण के लिए प्रतिगमन की तरह भविष्यवाणी करना नहीं ।
यदि हां, तो किस प्रकार की चीजें?
उदाहरण देखें ।
क्या यह डेटा की अनंत मात्रा के बीच पैटर्न पा सकता है?
| एस|
यह एल्गोरिथ्म मेरे लिए क्या कर सकता है।
उदाहरण देखें ।
एमडीपी के अनुप्रयोगों के उदाहरण
- व्हाइट, डीजे (1993) में आवेदनों की एक बड़ी सूची का उल्लेख है:
- कटाई: प्रजनन के लिए आबादी के कितने सदस्यों को छोड़ना पड़ता है।
- कृषि: मौसम और मिट्टी की स्थिति के आधार पर कितना रोपण करना है।
- जल संसाधन: जलाशयों में जल स्तर सही रखें।
- निरीक्षण, रखरखाव और मरम्मत: उम्र, स्थिति आदि के आधार पर कब प्रतिस्थापित / निरीक्षण करना है
- खरीद और उत्पादन: मांग के आधार पर कितना उत्पादन करना है।
- कतार: प्रतीक्षा समय कम करें।
- ...
- वित्त: यह तय करना कि स्टॉक में कितना निवेश करना है।
- रोबोटिक:
और काफी कुछ और मॉडल हैं। एक और भी दिलचस्प मॉडल आंशिक रूप से अवलोकन योग्य मार्कोवियन निर्णय प्रक्रिया है जिसमें राज्य पूरी तरह से दिखाई नहीं देते हैं, और इसके बजाय, वर्तमान स्थिति का अंदाजा लगाने के लिए टिप्पणियों का उपयोग किया जाता है, लेकिन यह इस प्रश्न के दायरे से बाहर है।
अतिरिक्त जानकारी
एक स्टोकेस्टिक प्रक्रिया मार्कोवियन है (या मार्कोव संपत्ति है) यदि भविष्य के राज्यों की सशर्त संभाव्यता वितरण केवल वर्तमान स्थिति पर निर्भर करता है, और पिछले वाले (यानी पिछले राज्यों की सूची पर नहीं)।