टेम्पोरल अंतर वाले मोंटे कार्लो तरीकों को कब पसंद किया जाता है?


12

मैं हाल ही में सुदृढीकरण सीखने के बारे में बहुत शोध कर रहा हूं। मैंने सटन और बार्टो के सुदृढीकरण सीखना का अनुसरण किया : इसमें से अधिकांश के लिए एक परिचय

मुझे पता है कि मार्कोव निर्णय प्रक्रियाएं क्या हैं और उन्हें हल करने के लिए डायनेमिक प्रोग्रामिंग (डीपी), मोंटे कार्लो और टेम्पोरल डिफरेंस (डीपी) लर्निंग का उपयोग कैसे किया जा सकता है। समस्या मैं आ रही हैं कि मैं नहीं दिख रहा है जब मोंटे कार्लो टीडी-लर्निंग के साथ बेहतर विकल्प होगा है।

उनके बीच मुख्य अंतर यह है कि टीडी-लर्निंग बूटस्ट्रैपिंग का उपयोग एक्शन-वैल्यू फ़ंक्शन को अनुमानित करने के लिए करता है और मोंटे कार्लो इसे पूरा करने के लिए एक औसत का उपयोग करता है। मैं वास्तव में एक परिदृश्य के बारे में नहीं सोच सकता जब यह जाने का बेहतर तरीका है।

मेरा अनुमान है कि इसका प्रदर्शन के साथ कुछ लेना-देना हो सकता है, लेकिन मुझे ऐसा कोई स्रोत नहीं मिल सकता है जो इसका प्रमाण दे सके।

क्या मुझे कुछ याद आ रहा है या टीडी-लर्निंग आम तौर पर बेहतर विकल्प है?

जवाबों:


10

टीडी सीखने और डीपी के साथ मुख्य समस्या यह है कि उनके कदम अद्यतन सीखने के मापदंडों की प्रारंभिक स्थितियों पर पक्षपाती हैं । बूटस्ट्रैपिंग प्रक्रिया आम तौर पर एक फ़ंक्शन या लुकअप क्यू (एस), एक उत्तराधिकारी मान क्यू (एस), 'ए' पर अपडेट करती है जो कि वर्तमान अनुमानों के उत्तरार्द्ध में हैं। स्पष्ट रूप से इन अनुमानों को सीखने की शुरुआत में किसी भी वास्तविक पुरस्कार या राज्य संक्रमण से कोई जानकारी नहीं है।

यदि सीखने का इरादा है, तो पूर्वाग्रह कई पुनरावृत्तियों पर विषमता को कम करेगा। हालांकि, पूर्वाग्रह महत्वपूर्ण समस्याओं का कारण बन सकते हैं, विशेष रूप से ऑफ-पॉलिसी तरीकों (जैसे क्यू लर्निंग) और फ़ंक्शन सन्निकटन का उपयोग करते समय। इस संयोजन को सम्‍मिलित करने में विफल होने की संभावना है कि इसे सटन और बार्टो में सबसे घातक जनजाति कहा जाता है

मोंटे कार्लो नियंत्रण विधियां इस पूर्वाग्रह से ग्रस्त नहीं हैं, क्योंकि प्रत्येक अपडेट क्यू (एस) के एक सच्चे नमूने का उपयोग करके किया जाता है, होना चाहिए। हालांकि, मोंटे कार्लो तरीके उच्च विचरण से पीड़ित हो सकते हैं, जिसका अर्थ है कि टीडी की तुलना में समान डिग्री प्राप्त करने के लिए अधिक नमूनों की आवश्यकता होती है।

व्यवहार में, टीडी सीखने को अधिक कुशलता से सीखना प्रतीत होता है यदि घातक त्रय के साथ समस्याओं को दूर किया जा सकता है। हाल ही के परिणामों ने रिप्ले का उपयोग करते हुए और अनुमानों की "जमे हुए" प्रतियों का उपयोग करते हुए कार्य-समस्याओं के बारे में जानकारी प्रदान की है - जैसे कि अटारी खेलों के लिए DQN शिक्षार्थी का निर्माण किया गया था।

टीडी और मोंटे कार्लो के बीच एक मध्य मैदान भी है। एक सामान्यीकृत विधि का निर्माण संभव है जो मोंटे कार्लो में चलने वाले पूर्ण एपिसोड के एकल-चरण टीडी से - और उन्हें जोड़ती है - विभिन्न लंबाई के प्रक्षेपवक्रों को जोड़ती है। इसका सबसे आम संस्करण टीडी (है)λ) सीखने, कहाँ λ से एक पैरामीटर है 0 (प्रभावी रूप से एकल-चरण टीडी शिक्षा) 1(प्रभावी रूप से मोंटे कार्लो सीखना, लेकिन एक अच्छी विशेषता के साथ कि इसे निरंतर समस्याओं में इस्तेमाल किया जा सकता है)। आमतौर पर, के बीच एक मूल्य0 तथा 1 सबसे कुशल शिक्षण एजेंट बनाता है - हालांकि कई हाइपरपैरामीटर की तरह, उपयोग करने के लिए सबसे अच्छा मूल्य समस्या पर निर्भर करता है।

यदि आप एक मूल्य-आधारित पद्धति का उपयोग कर रहे हैं (जैसा कि नीति-आधारित एक के विपरीत), तो टीडी अधिगम का उपयोग आमतौर पर व्यवहार में अधिक किया जाता है, या टीडी / एमसी (जैसे) के रूप में एक टीडी / एमसी संयोजन विधि भी बेहतर हो सकती है।

एमसी के लिए "व्यावहारिक लाभ" के संदर्भ में? मोंटे कार्लो सीखना वैचारिक रूप से सरल, मजबूत और लागू करने में आसान है, यद्यपि अक्सर टीडी की तुलना में धीमी होती है। मैं आम तौर पर इसका उपयोग सीखने वाले नियंत्रक इंजन के लिए नहीं करता हूं (जब तक कि एक साधारण वातावरण के लिए कुछ लागू करने की जल्दी में), लेकिन मैं उदाहरण के लिए कई एजेंटों की तुलना करने के लिए नीतिगत मूल्यांकन के लिए गंभीरता से विचार करूंगा - जो इसके कारण है निष्पक्ष माप, जो परीक्षण के लिए महत्वपूर्ण है।


सबसे पहले, उत्तर के लिए धन्यवाद। मैं देख रहा हूं कि कैसे एक सिद्धांतबद्ध पक्षपातपूर्ण सिद्धांत को एक पक्षपाती के रूप में पसंद किया जा सकता है। लेकिन उच्च विचरण मोंटे कार्लो प्रशिक्षण की शुरुआत में दे सकता है, मुझे नहीं लगता कि यह वास्तव में कैसे मायने रखता है। मोंटे कार्लो और टीडी दोनों गलत अनुमानों के साथ शुरू होंगे और मैंने जो पढ़ा है, उससे टीडी बहुत तेजी से जुटेगा। मैं वास्तव में मोंटे कार्लो का उपयोग करने का व्यावहारिक लाभ नहीं ले सकता। ( घातक तिकड़म से बचा जा सकता है)
ऐनी-डीर्क

1
@ ऐनी-डर्क यदि आप मूल्य-आधारित पद्धति का उपयोग कर रहे हैं (जैसा कि नीति-आधारित एक के विपरीत), तो टीडी सीखने का आमतौर पर अभ्यास में अधिक उपयोग किया जाता है, या एक टीडी / एमसी संयोजन विधि जैसे टीडी (λ) भी हो सकती है बेहतर। मुझे यकीन नहीं है कि आप "व्यावहारिक लाभ" से क्या मतलब है? मोंटे कार्लो सीखना वैचारिक रूप से सरल, मजबूत और लागू करने में आसान है। मैं आम तौर पर इसका उपयोग सीखने वाले नियंत्रक इंजन (जब तक कि एक साधारण वातावरण के लिए कुछ लागू करने की जल्दी में) के लिए नहीं करता, लेकिन मैं उदाहरण के लिए कई एजेंटों की तुलना करने के लिए नीतिगत मूल्यांकन के लिए गंभीरता से विचार करूंगा।
नील स्लेटर

@ नीर स्लेटर आआहह मैं देख रहा हूँ ... इस तरह का जवाब मुझे लग रहा था :) आपकी मदद के लिए धन्यवाद!
ऐनी-डीर्क

-1

अनिवार्य रूप से यह आपके पर्यावरण पर निर्भर करता है।

टीडी मार्कोव संपत्ति का शोषण करता है, अर्थात एक प्रक्रिया के भविष्य की स्थिति केवल वर्तमान स्थिति पर निर्भर करती है, और इसलिए यह आमतौर पर मार्कोव वातावरण में टीडी का उपयोग करने के लिए अधिक कुशल है।

एमसी मार्कोव संपत्ति का शोषण नहीं करता है क्योंकि यह पूरी सीखने की प्रक्रिया पर इनाम देता है, जो खुद को गैर-मार्कोव वातावरण में उधार देता है।


मुझे नहीं लगता कि यह सही है या, कम से कम, स्पष्ट रूप से देखने के लिए। मार्लोव संपत्ति, आरएल के संदर्भ में, राज्यों के साथ जुड़ी हुई है। क्या आप स्पष्ट कर सकते हैं कि जब मार्कोव संपत्ति संतुष्ट नहीं होगी तो एमसी एल्गोरिदम बेहतर काम क्यों करेगा?
16

स्पष्ट होने के लिए, मैं दक्षता की बात कर रहा था। यदि आप मार्कोव संपत्ति का शोषण कर सकते हैं तो टीडी लाभप्रद है क्योंकि आप किसी भी राज्य में शुरू कर सकते हैं, ले सकते हैं और कार्रवाई कर सकते हैं और परिणाम हमेशा एक ही होगा, इसलिए आप निश्चित स्तर के उच्च स्तरों के साथ टीडी त्रुटि की गणना कर सकते हैं। गैर-एमडीपी के साथ यदि आपको एक राज्य मिलता है जो आंशिक रूप से मनाया जाता है तो टीडी बहुत कुशल नहीं हो सकता है। यह कहना है कि आप गैर-एमडीपी में टीडी का उपयोग नहीं कर सकते, आप कर सकते हैं, लेकिन यह अक्षम हो सकता है और टीडी (1) के बजाय टीडी लंबो के साथ बेहतर सफलता मिल सकती है।
BigBadMe

"यदि आप मार्कोव संपत्ति का शोषण कर सकते हैं तो टीडी लाभप्रद है क्योंकि आप किसी भी दिए गए राज्य में शुरू कर सकते हैं, ले सकते हैं और कार्रवाई कर सकते हैं और परिणाम हमेशा एक ही होगा", यह वैसा ही होगा यदि पर्यावरण निर्धारक हो। मार्कोव संपत्ति के साथ इसका क्या करना है? मुझे आपके दावे नहीं मिले। आपने कहाँ पढ़ा कि टीडी एमसी से अधिक अक्षम होगा जैसे POMDPs?
nbro

1
एमडीपी परिभाषा द्वारा निर्धारित नहीं होते हैं । एक नियतात्मक वातावरण को आमतौर पर परिभाषित किया जाता है: यदि एजेंट एक राज्य में हैs और कार्रवाई करता है a, फिर अगला राज्य sहमेशा एक ही है, कोई बात नहीं जो समय कदम है । यह स्टोकेस्टिक है अन्यथा। एमडीपी पर्यावरण और इसकी गतिशीलता का प्रतिनिधित्व करने का एक तरीका है।
नबंर

1
"यदि आप राज्य एस हैं, तो इससे पहले हुई सभी घटनाएं उस राज्य द्वारा परिभाषित की जाती हैं, और यदि आप कार्रवाई करते हैं, तो आपको हमेशा एक ही राज्य एस 'और इनाम आर मिलेगा।", नहीं , यह विशेष रूप से सच नहीं है। जो हिस्सा सत्य नहीं है वह है "यदि आप कार्रवाई करते हैं, तो आपको हमेशा एक ही स्टेट एस 'और रिवार्ड आर मिलेगा।" यह केवल सच है अगर एमडीपी में एक नियतात्मक संक्रमण और इनाम समारोह है (लेकिन यह हमेशा ऐसा नहीं होता है)।
नब्र
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.