क्यू-लर्निंग परीक्षण के दौरान एप्सिलॉन-लालची का उपयोग क्यों करता है?


18

अटारी वीडियो गेम ( यहां ) के लिए डीप क्यू-लर्निंग पर डीपमाइंड के पेपर में , वे प्रशिक्षण के दौरान अन्वेषण के लिए एप्सिलॉन-लालची विधि का उपयोग करते हैं। इसका मतलब यह है कि जब प्रशिक्षण में एक कार्रवाई का चयन किया जाता है, तो इसे या तो उच्चतम q- मूल्य के साथ कार्रवाई के रूप में चुना जाता है, या एक यादृच्छिक कार्रवाई। इन दोनों के बीच चयन यादृच्छिक है और एप्सिलॉन के मूल्य के आधार पर किया जाता है, और एप्सिलॉन को प्रशिक्षण के दौरान इस तरह से शुरू किया जाता है कि शुरू में बहुत सारे यादृच्छिक क्रियाएं (अन्वेषण) की जाती हैं, लेकिन जैसे-जैसे प्रशिक्षण आगे बढ़ता है, अधिकतम q-मानों के साथ बहुत सारी क्रियाएं होती हैं। (शोषण)।

फिर, परीक्षण के दौरान, वे भी इस एप्सिलॉन-लालची विधि का उपयोग करते हैं, लेकिन बहुत कम मूल्य पर एप्सिलॉन के साथ, जैसे कि अन्वेषण पर शोषण के प्रति एक मजबूत पूर्वाग्रह है, एक यादृच्छिक कार्रवाई पर उच्चतम क्यू-मूल्य के साथ कार्रवाई का चयन करने का पक्ष लेते हैं। हालांकि, यादृच्छिक क्रियाएं अभी भी कभी-कभी चुनी जाती हैं (समय का 5%)।

मेरा प्रश्न है: इस बिंदु पर किसी भी अन्वेषण की आवश्यकता क्यों है, यह देखते हुए कि प्रशिक्षण पहले ही किया जा चुका है? यदि सिस्टम ने इष्टतम नीति सीख ली है, तो सर्वोच्च क्यू मूल्य के साथ कार्रवाई को हमेशा क्यों नहीं चुना जा सकता है? क्या केवल प्रशिक्षण में ही खोजबीन नहीं की जानी चाहिए, और फिर एक बार इष्टतम नीति सीख लेने के बाद, एजेंट सिर्फ बार-बार इष्टतम कार्रवाई का चयन कर सकता है?

धन्यवाद!


यह किसी तरह ALE पर्यावरण के निर्धारक प्रकृति से जुड़ा हो सकता है। यदि आप मूल्यांकन के दौरान यादृच्छिक क्रियाएं नहीं करते हैं, तो आप हमेशा क्रियाओं का एक ही क्रम करेंगे (क्योंकि राज्यों का क्रम समान है)। वे यादृच्छिक शुरुआत भी करते हैं - इस कारण से कुछ भी नहीं करने के लिए 30 फ़्रेम तक प्रतीक्षा करें।
yobibyte

जवाबों:


10

प्रकृति पत्र में वे उल्लेख करते हैं:

प्रशिक्षित एजेंटों का मूल्यांकन प्रत्येक खेल को अलग-अलग प्रारंभिक यादृच्छिक स्थितियों ('नोप'; विस्तारित डेटा तालिका 1 देखें) और एप्सिलॉन 0.05 के साथ ई-लालची नीति के साथ प्रत्येक बार 5 मिनट तक 30 बार खेलने के लिए किया गया था। मूल्यांकन के दौरान ओवरफिटिंग की संभावना को कम करने के लिए यह प्रक्रिया अपनाई जाती है।

मुझे लगता है कि उनका क्या मतलब है 'फिटिंग के तहत / नकारात्मक प्रभाव को कम करने के लिए'। 0 के एप्सिलॉन का उपयोग करना पूरी तरह से शोषक है (जैसा कि आप बताते हैं) विकल्प और एक मजबूत बयान देता है।

उदाहरण के लिए, एक भूलभुलैया खेल पर विचार करें जहां एजेंट के वर्तमान क्यू-अनुमानों को एक ग्रिड को छोड़कर इष्टतम नीति में परिवर्तित किया जाता है, जहां यह लालच में एक सीमा की ओर बढ़ने का विकल्प चुनता है जिसके परिणामस्वरूप यह उसी ग्रिड में शेष रहता है। यदि एजेंट ऐसी किसी भी स्थिति में पहुंचता है, और वह मैक्स क्यू कार्रवाई का चयन कर रहा है, तो यह अनंत काल के लिए वहां अटक जाएगा। हालांकि, इसकी नीति में एक अस्पष्ट खोजपूर्ण / स्टोकेस्टिक तत्व रखने (जैसे एप्सिलॉन की एक छोटी राशि) इसे ऐसे राज्यों से बाहर निकलने की अनुमति देता है।

यह कहते हुए कि, कोड के क्रियान्वयन से मैंने अपने प्रदर्शन में आपके द्वारा सूचीबद्ध सटीक कारणों के लिए अक्सर लालची नीति के साथ व्यवहार प्रदर्शन में (और खुद को कोडित) देखा है।



2

मुझे लगता है कि परीक्षण का उद्देश्य यह समझना है कि सिस्टम वास्तविक दुनिया की स्थितियों में कैसे प्रतिक्रिया करता है।


ε

विकल्प 2:
यदि वे भंगुर होने के बारे में चिंतित हैं, तो कम "प्रमुख तर्कसंगत" खिलाड़ी के खिलाफ खेल रहे हैं, तो वे उन्हें ओवर-अनुमान नहीं करने के लिए अपने प्रशिक्षण स्कोर को "एनीलिंग" कर सकते हैं।

विकल्प 3:
यह उनका जादुई धुआँ है। इसके वे टुकड़े होने जा रहे हैं जिन्हें वे साझा नहीं कर सकते और नहीं करना चाहते। वे इसे कुछ स्वामित्व या अपने व्यवसाय के लिए असाधारण प्रासंगिक बनाने के लिए प्रकाशित कर सकते हैं जिसे वे साझा नहीं करना चाहते हैं।

विकल्प 4:
वे दोहराया परीक्षणों का उपयोग कर सकते हैं, और एप्सिलॉन के विभिन्न मूल्यों का परीक्षण करने के लिए कि सिस्टम में कितना "वसा" बचा है। यदि उनके पास कमजोर यादृच्छिकरण था, या इतने सारे नमूने कि एक निष्पक्ष यादृच्छिककरण भी खुद को दोहराना शुरू कर देता है, तो विधि छद्म यादृच्छिक पूर्वाग्रह के लिए एक असत्य व्यवहार "सीख" सकती है। यह परीक्षण के चरण में इसकी जाँच की अनुमति दे सकता है।

मुझे यकीन है कि आधा दर्जन अन्य सार्थक कारण हैं, लेकिन ये वही थे जो मैं सोच सकता था।

संपादित करें: स्वयं पर ध्यान दें, मुझे वास्तव में "भंगुर" विचार पसंद है। मुझे लगता है कि यह पहली-जीन मध्यवर्ती एअर इंडिया की एक अस्तित्वगत कमजोरी हो सकती है।


1

उपयोग करने का कारण ε-परीक्षण के दौरान लालची है कि, पर्यवेक्षित मशीन लर्निंग (उदाहरण छवि वर्गीकरण के लिए) के विपरीत, सुदृढीकरण सीखने में परीक्षण चरण के लिए कोई अनदेखी, आयोजित डेटा सेट उपलब्ध नहीं है। इसका अर्थ है कि एल्गोरिथ्म को उसी सेटअप पर परीक्षण किया गया है जिस पर उसे प्रशिक्षित किया गया है। अब कागज का उल्लेख है (अनुभाग तरीके, मूल्यांकन प्रक्रिया):

प्रशिक्षित एजेंटों का मूल्यांकन प्रत्येक खेल को 30 बार 5 मिनट तक के लिए अलग-अलग प्रारंभिक यादृच्छिक स्थितियों ('नहीं-ऑप' के साथ किया गया था; विस्तारित डेटा तालिका 1 देखें) और एक ε-भोगी नीति के साथ ε=0.05। मूल्यांकन के दौरान ओवरफिटिंग की संभावना को कम करने के लिए यह प्रक्रिया अपनाई जाती है।

विशेष रूप से चूंकि प्रीप्रोसेस किए गए इनपुट में पहले से सामना किए गए राज्यों का इतिहास होता है, इसलिए चिंता यह है कि अंतर्निहित गेमप्ले को सामान्य करने के बजाय, एजेंट सिर्फ उस विशिष्ट गेम के लिए इष्टतम ट्रैजेटरी को याद करता है और परीक्षण चरण के दौरान उन्हें फिर से खोल देता है; इसका मतलब "मूल्यांकन के दौरान ओवरफिटिंग की संभावना" से है । नियतात्मक वातावरण के लिए यह स्पष्ट है, लेकिन स्टोकेस्टिक राज्य संक्रमण के लिए भी संस्मरण (यानी ओवरफिटिंग) हो सकता है। परीक्षण के चरण के दौरान यादृच्छिककरण का उपयोग करते हुए, नो-ऑप के रूप में यादृच्छिक लंबाई के साथ-साथ खेल के दौरान यादृच्छिक क्रियाओं के एक हिस्से के रूप में, एल्गोरिदम को अप्रत्याशित राज्यों से निपटने के लिए मजबूर करता है और इसलिए कुछ हद तक सामान्यीकरण की आवश्यकता होती है।

दूसरी ओर ε-गॉर्डी का उपयोग एल्गोरिथ्म के खराब प्रदर्शन वाले क्षेत्रों में अनस्टक पाने में मदद करके एल्गोरिथम के प्रदर्शन में सुधार के लिए नहीं किया जाता है। यद्यपि एक दी गई नीति को हमेशा इष्टतम नीति का एक अनुमानित माना जा सकता है (कम से कम इस तरह के कार्यों के लिए), उन्होंने उस बिंदु से परे अच्छी तरह से प्रशिक्षित किया है जहां एल्गोरिथ्म निरर्थक क्रियाएं करेगा। का उपयोग करते हुएε=0परीक्षण के दौरान संभावित रूप से प्रदर्शन में सुधार होगा, लेकिन यहां बिंदु सामान्यीकरण की क्षमता दिखाने के लिए है। इसके अलावा अधिकांश अटारी खेलों में राज्य भी बिना किसी विकल्प के विकसित होता है और इसलिए एजेंट स्वाभाविक रूप से "अस्थिर" हो जाएगा यदि ऐसा कभी हुआ हो। अन्य जगहों पर वर्णित भूलभुलैया उदाहरण को ध्यान में रखते हुए, जहां पर्यावरण नो-ऑप्स पर विकसित नहीं होता है, एजेंट जल्दी से सीखेंगे कि दीवार में दौड़ना एक अच्छा विचार नहीं है यदि इनाम ठीक से आकार का है (उदाहरण के लिए प्रत्येक चरण के लिए -1); आशावादी प्रारंभिक मूल्यों का उपयोग करते समय विशेष रूप से आवश्यक अन्वेषण स्वाभाविक रूप से होता है। यदि आपको अभी भी लगता है कि आपका एल्गोरिथ्म कुछ स्थितियों में कभी अटक रहा है तो इसका मतलब है कि आपको क्रियाओं के संबंध में कुछ सहायक यादृच्छिककरण शुरू करने के बजाय प्रशिक्षण समय (यानी अधिक एपिसोड चलाने) की आवश्यकता है।

यदि आप सिस्टम डिवेलपिंग के साथ एक वातावरण में चल रहे हैं (जो कि समय के साथ अंतर्निहित राज्य परिवर्तन या पुरस्कार परिवर्तन है) तो आपको कुछ हद तक अन्वेषण को बनाए रखना होगा और परिवर्तनों को बनाए रखने के लिए अपनी नीति को तदनुसार अपडेट करना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.