जवाबों:
आरएल में बूटस्ट्रैपिंग को "एक ही तरह के अनुमानित मूल्य के अपडेट चरण में एक या अधिक अनुमानित मूल्यों का उपयोग करते हुए" के रूप में पढ़ा जा सकता है ।
अधिकांश टीडी अपडेट नियमों में, आपको इस SARSA (0) अपडेट जैसा कुछ दिखाई देगा:
मूल्य की सही कीमत के लिए एक अनुमान है , और भी टीडी लक्ष्य कहा जाता है। यह एक बूटस्ट्रैप विधि है क्योंकि हम एक क्यू मूल्य का उपयोग करके दूसरे क्यू मूल्य को अपडेट करने के लिए भाग में हैं। वहाँ के रूप में वास्तविक मनाया डेटा की एक छोटी राशि है , चरण के लिए तत्काल इनाम, और भी राज्य संक्रमण में ।
मोंटे कार्लो के साथ विरोधाभास जहां समकक्ष अद्यतन नियम हो सकता है:
जहां टाइम पर कुल रियायती इनाम था , इस अद्यतन में यह मानते हुए कि यह राज्य में शुरू हुआ , कार्रवाई , फिर प्रकरण के अंत तक वर्तमान नीति का पालन किया। तकनीकी तौर पर, जहांटर्मिनल इनाम और राज्य के लिए समय कदम है। विशेष रूप से, यह लक्ष्य मान किसी भी मौजूदा अनुमान (अन्य क्यू मूल्यों से) का उपयोग नहीं करता है, यह केवल पर्यावरण से टिप्पणियों (यानी, पुरस्कार) का उपयोग करता है। इस प्रकार, यह होने की गारंटी है निष्पक्ष की सही कीमत का अनुमान , के रूप में यह तकनीकी रूप से एक है नमूना के ।
बूटस्ट्रैपिंग का मुख्य नुकसान यह है कि यह (या ) के आपके शुरुआती मूल्यों के पक्षपाती हैं। वे सबसे अधिक संभावना गलत हैं, और अद्यतन प्रणाली बहुत अधिक आत्म-संदर्भ और पर्याप्त वास्तविक डेटा नहीं होने के कारण समग्र रूप से अस्थिर हो सकती है - यह तंत्रिका नेटवर्क का उपयोग करते हुए ऑफ-पॉलिसी लर्निंग (जैसे क्यू-लर्निंग) के साथ एक समस्या है।
बूटस्ट्रैपिंग के बिना, लंबे समय तक प्रक्षेपवक्र का उपयोग करते हुए, इसके बजाय अक्सर उच्च विचरण होता है , जो व्यवहार में, अनुमान लगाने से पहले आपको अधिक नमूनों की आवश्यकता होती है। इसलिए, बूटस्ट्रैपिंग के साथ समस्याओं के बावजूद, अगर इसे काम करने के लिए बनाया जा सकता है, तो यह काफी तेजी से सीख सकता है, और अक्सर मोंटे कार्लो दृष्टिकोण पर पसंद किया जाता है।
आप मोंटे कार्लो नमूना आधारित विधियों और एकल-चरण टीडी विधियों के बीच समझौता कर सकते हैं जो विभिन्न लंबाई के अनुमानों के परिणामों के मिश्रण का उपयोग करके बूटस्ट्रैप करते हैं। इसे टीडी ( ) लर्निंग कहा जाता है , और कई विशिष्ट तरीके जैसे SARSA ( ) या Q ( ) हैं।