वास्तव में सुदृढीकरण सीखने में बूटस्ट्रैपिंग क्या है?


23

स्पष्ट रूप से, सुदृढीकरण सीखने में, अस्थायी-अंतर (टीडी) विधि एक बूटस्ट्रैपिंग विधि है। दूसरी ओर, मोंटे कार्लो तरीके बूटस्ट्रैपिंग तरीके नहीं हैं।

वास्तव में आरएल में बूटस्ट्रैपिंग क्या है? RL में बूटस्ट्रैपिंग विधि क्या है?

जवाबों:


22

आरएल में बूटस्ट्रैपिंग को "एक ही तरह के अनुमानित मूल्य के अपडेट चरण में एक या अधिक अनुमानित मूल्यों का उपयोग करते हुए" के रूप में पढ़ा जा सकता है ।

अधिकांश टीडी अपडेट नियमों में, आपको इस SARSA (0) अपडेट जैसा कुछ दिखाई देगा:

Q(s,a)Q(s,a)+α(Rt+1+γQ(s,a)Q(s,a))

मूल्य Rt+1+γQ(s,a) की सही कीमत के लिए एक अनुमान है Q(s,a) , और भी टीडी लक्ष्य कहा जाता है। यह एक बूटस्ट्रैप विधि है क्योंकि हम एक क्यू मूल्य का उपयोग करके दूसरे क्यू मूल्य को अपडेट करने के लिए भाग में हैं। वहाँ के रूप में वास्तविक मनाया डेटा की एक छोटी राशि है Rt+1 , चरण के लिए तत्काल इनाम, और भी राज्य संक्रमण में ss

मोंटे कार्लो के साथ विरोधाभास जहां समकक्ष अद्यतन नियम हो सकता है:

Q(s,a)Q(s,a)+α(GtQ(s,a))

जहां Gt टाइम t पर कुल रियायती इनाम था , इस अद्यतन में यह मानते हुए कि यह राज्य s में शुरू हुआ , a कार्रवाई , फिर प्रकरण के अंत तक वर्तमान नीति का पालन किया। तकनीकी तौर पर, Gt=k=0Tt1γkRt+k+1जहांTटर्मिनल इनाम और राज्य के लिए समय कदम है। विशेष रूप से, यह लक्ष्य मान किसी भी मौजूदा अनुमान (अन्य क्यू मूल्यों से) का उपयोग नहीं करता है, यह केवल पर्यावरण से टिप्पणियों (यानी, पुरस्कार) का उपयोग करता है। इस प्रकार, यह होने की गारंटी है निष्पक्ष की सही कीमत का अनुमान Q(s,a) , के रूप में यह तकनीकी रूप से एक है नमूना के Q(s,a)

बूटस्ट्रैपिंग का मुख्य नुकसान यह है कि यह Q(s,a) (या V(s) ) के आपके शुरुआती मूल्यों के पक्षपाती हैं। वे सबसे अधिक संभावना गलत हैं, और अद्यतन प्रणाली बहुत अधिक आत्म-संदर्भ और पर्याप्त वास्तविक डेटा नहीं होने के कारण समग्र रूप से अस्थिर हो सकती है - यह तंत्रिका नेटवर्क का उपयोग करते हुए ऑफ-पॉलिसी लर्निंग (जैसे क्यू-लर्निंग) के साथ एक समस्या है।

बूटस्ट्रैपिंग के बिना, लंबे समय तक प्रक्षेपवक्र का उपयोग करते हुए, इसके बजाय अक्सर उच्च विचरण होता है , जो व्यवहार में, अनुमान लगाने से पहले आपको अधिक नमूनों की आवश्यकता होती है। इसलिए, बूटस्ट्रैपिंग के साथ समस्याओं के बावजूद, अगर इसे काम करने के लिए बनाया जा सकता है, तो यह काफी तेजी से सीख सकता है, और अक्सर मोंटे कार्लो दृष्टिकोण पर पसंद किया जाता है।

आप मोंटे कार्लो नमूना आधारित विधियों और एकल-चरण टीडी विधियों के बीच समझौता कर सकते हैं जो विभिन्न लंबाई के अनुमानों के परिणामों के मिश्रण का उपयोग करके बूटस्ट्रैप करते हैं। इसे टीडी ( λ ) लर्निंग कहा जाता है , और कई विशिष्ट तरीके जैसे SARSA ( λ ) या Q ( λ ) हैं।


1
यह शायद एक और सवाल होना चाहिए। हालांकि, अगर आप इस सवाल का जवाब देना चाहते हैं, यही कारण है कि वास्तव में और अनुमान के लिए क्यू ( रों , एक ) ? Rt+1+γQ(s,a)Q(s,a)
nob

1
@nbro: क्योंकि अभिसरण में, (इन समीकरणों और सबसे आर एल एमडी पी एस के लिए बेल्लमान समीकरणों के द्वारा संचालित है)। एक वास्तविक घटना है कि राज्य के साथ शुरू हुआ को देख कर रों और कार्रवाई एकQ(s,a)=E[Rt+1+γQ(St+1,At+1)|St=s,At=a]sa, तो आप अनिवार्य रूप से उस उम्मीद से नमूना ले रहे हैं। समस्या यह है कि लिए आपके पास जो मूल्य है वह शायद अभी तक नहीं मिला है, इसलिए नमूना पक्षपाती है। Q(St+1,At+1)
नील स्लेटर

1
बूटस्ट्रैपिंग पर स्विच करने से पहले चरण में बर्न के रूप में MC विधियों का उपयोग करने से किसी को क्या रोकता है ? या इसे λ - T D का उप-मामला माना जा सकता हैλTD ?
n1k31t4

1
@ n1k31t4: कुछ भी ऐसा करने से रोकता है, और यह एक मान्य आरएल दृष्टिकोण होना चाहिए। यह टीडी ( ) के लिए अलग होगा , लेकिन दोनों एल्गोरिदम से अच्छी सुविधाओं को प्राप्त करने की कोशिश के एक ही विचार से प्रेरित है। आपको इसे आज़माने और टीडी ( λ ) के साथ सीखने की दक्षता की तुलना करने की आवश्यकता होगी - आपके पास अभी भी ट्यून करने के लिए एक हाइपर पैरामीटर है, जो एमसी को चलाने के लिए एपिसोड की संख्या है। एक और सामान्य संस्करण होगा कि λ को बदलने की अनुमति दी जाए - λ = 1 से शुरू करें और इसे नीचे घटाकर उदा। 0.4 या जो भी मान अधिक इष्टतम लगता है। हालांकि, इसमें 2 हाइपर पैरामीटर हैं, जो λλλλλ=10.4λ
नील स्लेटर के

@NeilSlater, बूटस्ट्रैपिंग का उपयोग करते समय, क्या यह अभिसरण कर सकता है? मुझे समझ नहीं आ रहा है कि क्यू (एस) के बाद से यह क्यों होना चाहिए, 'ए' सिर्फ एक मनमाना अनुमान है जो तब क्यू (एस, ए) के लिए अनुमान को विकृत करता है। इसके अलावा, टीडी की तुलना में MC का उच्च-संस्करण क्यों है?
d56

4

सामान्य तौर पर, आरएल में बूटस्ट्रैपिंग का मतलब है कि आप कुछ अनुमानों के आधार पर मूल्य को अपडेट करते हैं न कि कुछ सटीक मूल्यों पर। उदाहरण के लिए

वृद्धिशील मोंटे कार्लो नीति मूल्यांकन अपडेट:

V(St)=V(St)+α(GtV(St))

टीडी (0) नीति मूल्यांकन अपडेट:

V(St)=V(St)+α(Rt+1+γV(St+1)V(St))

sRt+1+γV(St+1) Gt

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.