उदाहरण के लिए, इस पत्र का शीर्षक पढ़ता है: "अनुभव के साथ नमूना कुशल अभिनेता-आलोचक फिर से खेलना"।
नमूना दक्षता क्या है , और इसे प्राप्त करने के लिए महत्वपूर्ण नमूने का उपयोग कैसे किया जा सकता है?
उदाहरण के लिए, इस पत्र का शीर्षक पढ़ता है: "अनुभव के साथ नमूना कुशल अभिनेता-आलोचक फिर से खेलना"।
नमूना दक्षता क्या है , और इसे प्राप्त करने के लिए महत्वपूर्ण नमूने का उपयोग कैसे किया जा सकता है?
जवाबों:
एक एल्गोरिथ्म नमूना कुशल है अगर यह हर नमूने में से सबसे अधिक प्राप्त कर सकता है। पहली बार पोंग कैसे खेलें, यह जानने की कोशिश करना सीखने की कल्पना करें। एक इंसान के रूप में, यह आपको कुछ सेकंडों के आधार पर गेम खेलने का तरीका सीखने के लिए सेकंड के भीतर ले जाएगा। यह आपको बहुत "नमूना कुशल" बनाता है। आधुनिक आरएल एल्गोरिदम को आप की तुलना में हजार गुना अधिक डेटा देखना होगा ताकि वे अपेक्षाकृत, नमूना अयोग्य हों।
ऑफ नीति सीखने के मामले में, नहीं सभी नमूनों में है कि वे वितरण है कि हम में रुचि रखने वाले कर रहे हैं का हिस्सा नहीं हैं उपयोगी होते हैं। महत्व नमूनाइन नमूनों को फ़िल्टर करने की एक तकनीक है। इसका मूल उपयोग एक वितरण को समझना था, जबकि केवल एक अलग लेकिन संबंधित वितरण से नमूने लेने में सक्षम था। आरएल में, यह अक्सर ऑफ-पॉलिसी सीखने की कोशिश करते समय सामने आता है। अर्थात्, आपके नमूने कुछ व्यवहार नीति द्वारा निर्मित हैं, लेकिन आप लक्ष्य नीति सीखना चाहते हैं। इस प्रकार किसी को यह मापने की जरूरत है कि उत्पन्न नमूने के लिए कितने महत्वपूर्ण / समान हैं जो लक्ष्य नीति ने बनाए हैं। इस प्रकार, एक भारित वितरण से नमूना है जो इन "महत्वपूर्ण" नमूनों का पक्षधर है। हालांकि, कई विधियाँ हैं, जो कि महत्वपूर्ण है, और उनकी प्रभावशीलता आवेदन के आधार पर भिन्न हो सकती है।
महत्व के नमूने की इस ऑफ-पॉलिसी शैली के लिए सबसे आम दृष्टिकोण एक अनुपात है कि लक्ष्य नीति द्वारा नमूना तैयार किए जाने की कितनी संभावना है। महत्व और नमूनाकरण के बीच संबंध पर पेपर टंग और एबील द्वारा इस संभावना अनुपात नीति स्नातक (2010) को कवर किया गया है।
नमूना दक्षता अनुभव की मात्रा को दर्शाती है कि एक एजेंट / एल्गोरिदम को एक निश्चित स्तर तक पहुंचने के लिए प्रशिक्षण के दौरान पर्यावरण में उत्पन्न करने की आवश्यकता होती है (उदाहरण के लिए कार्यों की संख्या और इसके परिणामस्वरूप राज्यों की संख्या + इसे देखती है)। सहज रूप से, आप कह सकते हैं कि एक एल्गोरिथ्म नमूना कुशल है अगर यह अनुभव के हर एक टुकड़े का अच्छा उपयोग कर सकता है जो उत्पन्न होता है और तेजी से अपनी नीति में सुधार करता है। एक एल्गोरिथ्म में खराब नमूना दक्षता होती है यदि यह अनुभव के कई नमूनों से उपयोगी कुछ भी सीखने में विफल रहता है और तेजी से सुधार नहीं करता है।
जादेन के जवाब में महत्व के नमूने की व्याख्या ज्यादातर सही लगती है।
आपके प्रश्न में कागज में, महत्व नमूना एक घटक है जो 1 के सही संयोजन को सक्षम करता है) बहु-चरण प्रक्षेपवक्रों से सीखता है, और 2) अनुभव रिप्ले बफ़र्स। उन दो चीजों को पहले संयोजित करना आसान नहीं था (क्योंकि महत्व के नमूने के बिना बहु-चरण रिटर्न केवल ऑन-पॉलिसी सीखने में सही हैं, और एक रिप्ले बफर में पुराने नमूने एक पुरानी नीति द्वारा उत्पन्न किए गए थे जिसका अर्थ है कि उनसे सीखना ऑफ-पॉलिसी है )। उन दोनों चीजों को व्यक्तिगत रूप से नमूना दक्षता में सुधार होता है, लेकिन इसका मतलब है कि यह नमूना दक्षता के लिए भी फायदेमंद है अगर उन्हें अभी भी किसी तरह जोड़ा जा सकता है।
..finding a ratio of how likely a sample is to be generated by the target policy
हम यह कैसे तय करते हैं, यह देखते हुए कि हम केवल व्यवहार नीति जानते हैं? क्या लक्ष्य नीति ऐसी नहीं है जिसे हमें खोजना है?