टीडी सीखने और डीपी के साथ मुख्य समस्या यह है कि उनके कदम अद्यतन सीखने के मापदंडों की प्रारंभिक स्थितियों पर पक्षपाती हैं । बूटस्ट्रैपिंग प्रक्रिया आम तौर पर एक फ़ंक्शन या लुकअप क्यू (एस), एक उत्तराधिकारी मान क्यू (एस), 'ए' पर अपडेट करती है जो कि वर्तमान अनुमानों के उत्तरार्द्ध में हैं। स्पष्ट रूप से इन अनुमानों को सीखने की शुरुआत में किसी भी वास्तविक पुरस्कार या राज्य संक्रमण से कोई जानकारी नहीं है।
यदि सीखने का इरादा है, तो पूर्वाग्रह कई पुनरावृत्तियों पर विषमता को कम करेगा। हालांकि, पूर्वाग्रह महत्वपूर्ण समस्याओं का कारण बन सकते हैं, विशेष रूप से ऑफ-पॉलिसी तरीकों (जैसे क्यू लर्निंग) और फ़ंक्शन सन्निकटन का उपयोग करते समय। इस संयोजन को सम्मिलित करने में विफल होने की संभावना है कि इसे सटन और बार्टो में सबसे घातक जनजाति कहा जाता है ।
मोंटे कार्लो नियंत्रण विधियां इस पूर्वाग्रह से ग्रस्त नहीं हैं, क्योंकि प्रत्येक अपडेट क्यू (एस) के एक सच्चे नमूने का उपयोग करके किया जाता है, होना चाहिए। हालांकि, मोंटे कार्लो तरीके उच्च विचरण से पीड़ित हो सकते हैं, जिसका अर्थ है कि टीडी की तुलना में समान डिग्री प्राप्त करने के लिए अधिक नमूनों की आवश्यकता होती है।
व्यवहार में, टीडी सीखने को अधिक कुशलता से सीखना प्रतीत होता है यदि घातक त्रय के साथ समस्याओं को दूर किया जा सकता है। हाल ही के परिणामों ने रिप्ले का उपयोग करते हुए और अनुमानों की "जमे हुए" प्रतियों का उपयोग करते हुए कार्य-समस्याओं के बारे में जानकारी प्रदान की है - जैसे कि अटारी खेलों के लिए DQN शिक्षार्थी का निर्माण किया गया था।
टीडी और मोंटे कार्लो के बीच एक मध्य मैदान भी है। एक सामान्यीकृत विधि का निर्माण संभव है जो मोंटे कार्लो में चलने वाले पूर्ण एपिसोड के एकल-चरण टीडी से - और उन्हें जोड़ती है - विभिन्न लंबाई के प्रक्षेपवक्रों को जोड़ती है। इसका सबसे आम संस्करण टीडी (है)λ) सीखने, कहाँ λ से एक पैरामीटर है 0 (प्रभावी रूप से एकल-चरण टीडी शिक्षा) 1(प्रभावी रूप से मोंटे कार्लो सीखना, लेकिन एक अच्छी विशेषता के साथ कि इसे निरंतर समस्याओं में इस्तेमाल किया जा सकता है)। आमतौर पर, के बीच एक मूल्य0 तथा 1 सबसे कुशल शिक्षण एजेंट बनाता है - हालांकि कई हाइपरपैरामीटर की तरह, उपयोग करने के लिए सबसे अच्छा मूल्य समस्या पर निर्भर करता है।
यदि आप एक मूल्य-आधारित पद्धति का उपयोग कर रहे हैं (जैसा कि नीति-आधारित एक के विपरीत), तो टीडी अधिगम का उपयोग आमतौर पर व्यवहार में अधिक किया जाता है, या टीडी / एमसी (जैसे) के रूप में एक टीडी / एमसी संयोजन विधि भी बेहतर हो सकती है।
एमसी के लिए "व्यावहारिक लाभ" के संदर्भ में? मोंटे कार्लो सीखना वैचारिक रूप से सरल, मजबूत और लागू करने में आसान है, यद्यपि अक्सर टीडी की तुलना में धीमी होती है। मैं आम तौर पर इसका उपयोग सीखने वाले नियंत्रक इंजन के लिए नहीं करता हूं (जब तक कि एक साधारण वातावरण के लिए कुछ लागू करने की जल्दी में), लेकिन मैं उदाहरण के लिए कई एजेंटों की तुलना करने के लिए नीतिगत मूल्यांकन के लिए गंभीरता से विचार करूंगा - जो इसके कारण है निष्पक्ष माप, जो परीक्षण के लिए महत्वपूर्ण है।