नमूना दक्षता क्या है, और इसे प्राप्त करने के लिए महत्वपूर्ण नमूने का उपयोग कैसे किया जा सकता है?


14

उदाहरण के लिए, इस पत्र का शीर्षक पढ़ता है: "अनुभव के साथ नमूना कुशल अभिनेता-आलोचक फिर से खेलना"।

नमूना दक्षता क्या है , और इसे प्राप्त करने के लिए महत्वपूर्ण नमूने का उपयोग कैसे किया जा सकता है?

जवाबों:


14

एक एल्गोरिथ्म नमूना कुशल है अगर यह हर नमूने में से सबसे अधिक प्राप्त कर सकता है। पहली बार पोंग कैसे खेलें, यह जानने की कोशिश करना सीखने की कल्पना करें। एक इंसान के रूप में, यह आपको कुछ सेकंडों के आधार पर गेम खेलने का तरीका सीखने के लिए सेकंड के भीतर ले जाएगा। यह आपको बहुत "नमूना कुशल" बनाता है। आधुनिक आरएल एल्गोरिदम को आप की तुलना में 100 हजार गुना अधिक डेटा देखना होगा ताकि वे अपेक्षाकृत, नमूना अयोग्य हों।

ऑफ नीति सीखने के मामले में, नहीं सभी नमूनों में है कि वे वितरण है कि हम में रुचि रखने वाले कर रहे हैं का हिस्सा नहीं हैं उपयोगी होते हैं। महत्व नमूनाइन नमूनों को फ़िल्टर करने की एक तकनीक है। इसका मूल उपयोग एक वितरण को समझना था, जबकि केवल एक अलग लेकिन संबंधित वितरण से नमूने लेने में सक्षम था। आरएल में, यह अक्सर ऑफ-पॉलिसी सीखने की कोशिश करते समय सामने आता है। अर्थात्, आपके नमूने कुछ व्यवहार नीति द्वारा निर्मित हैं, लेकिन आप लक्ष्य नीति सीखना चाहते हैं। इस प्रकार किसी को यह मापने की जरूरत है कि उत्पन्न नमूने के लिए कितने महत्वपूर्ण / समान हैं जो लक्ष्य नीति ने बनाए हैं। इस प्रकार, एक भारित वितरण से नमूना है जो इन "महत्वपूर्ण" नमूनों का पक्षधर है। हालांकि, कई विधियाँ हैं, जो कि महत्वपूर्ण है, और उनकी प्रभावशीलता आवेदन के आधार पर भिन्न हो सकती है।

महत्व के नमूने की इस ऑफ-पॉलिसी शैली के लिए सबसे आम दृष्टिकोण एक अनुपात है कि लक्ष्य नीति द्वारा नमूना तैयार किए जाने की कितनी संभावना है। महत्व और नमूनाकरण के बीच संबंध पर पेपर टंग और एबील द्वारा इस संभावना अनुपात नीति स्नातक (2010) को कवर किया गया है।


2
एक बार फिर धन्यवाद। मूल प्रश्न: ..finding a ratio of how likely a sample is to be generated by the target policyहम यह कैसे तय करते हैं, यह देखते हुए कि हम केवल व्यवहार नीति जानते हैं? क्या लक्ष्य नीति ऐसी नहीं है जिसे हमें खोजना है?
गोकुल एनसी

1
लक्ष्य नीति, पीआई के अनुपात का पता लगाकर हम इस पर आसानी से अनुमान लगा सकते हैं। इस प्रकार अनुपात P = pi (s), a / mu (s) है, जहां a और s क्रमशः mu और राज्य द्वारा चुनी गई क्रिया है।
जेडन Travnik

1
मेरा सवाल था, हम कहाँ से पीआई (एस) प्राप्त करते हैं, जबकि हमारे पास केवल म्यू (एस) है? यही है, हम लक्ष्य नीति कहाँ से प्राप्त करते हैं, जबकि इसे खोजना हमारा लक्ष्य है?
गोकुल एनसी

1
आपकी लक्ष्य नीति को यादृच्छिक रूप से आरंभ किया गया है, इसे अपडेट करने की बात है।
जेडन Travnik

5

नमूना दक्षता अनुभव की मात्रा को दर्शाती है कि एक एजेंट / एल्गोरिदम को एक निश्चित स्तर तक पहुंचने के लिए प्रशिक्षण के दौरान पर्यावरण में उत्पन्न करने की आवश्यकता होती है (उदाहरण के लिए कार्यों की संख्या और इसके परिणामस्वरूप राज्यों की संख्या + इसे देखती है)। सहज रूप से, आप कह सकते हैं कि एक एल्गोरिथ्म नमूना कुशल है अगर यह अनुभव के हर एक टुकड़े का अच्छा उपयोग कर सकता है जो उत्पन्न होता है और तेजी से अपनी नीति में सुधार करता है। एक एल्गोरिथ्म में खराब नमूना दक्षता होती है यदि यह अनुभव के कई नमूनों से उपयोगी कुछ भी सीखने में विफल रहता है और तेजी से सुधार नहीं करता है।

जादेन के जवाब में महत्व के नमूने की व्याख्या ज्यादातर सही लगती है।

आपके प्रश्न में कागज में, महत्व नमूना एक घटक है जो 1 के सही संयोजन को सक्षम करता है) बहु-चरण प्रक्षेपवक्रों से सीखता है, और 2) अनुभव रिप्ले बफ़र्स। उन दो चीजों को पहले संयोजित करना आसान नहीं था (क्योंकि महत्व के नमूने के बिना बहु-चरण रिटर्न केवल ऑन-पॉलिसी सीखने में सही हैं, और एक रिप्ले बफर में पुराने नमूने एक पुरानी नीति द्वारा उत्पन्न किए गए थे जिसका अर्थ है कि उनसे सीखना ऑफ-पॉलिसी है )। उन दोनों चीजों को व्यक्तिगत रूप से नमूना दक्षता में सुधार होता है, लेकिन इसका मतलब है कि यह नमूना दक्षता के लिए भी फायदेमंद है अगर उन्हें अभी भी किसी तरह जोड़ा जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.