सुदृढीकरण सीखने पर छूट कारक का अर्थ


10

अटारी के खेलों पर Google की गहरी उपलब्धियों को पढ़ने के बाद , मैं q- Learning और q-नेटवर्क को समझने की कोशिश कर रहा हूं, लेकिन मैं थोड़ा भ्रमित हूं। छूट कारक की अवधारणा में भ्रम पैदा होता है। जो मैं समझता हूं उसका संक्षिप्त सारांश। किसी क्रिया के अनुकूलतम अपेक्षित मान का अनुमान लगाने के लिए एक गहरी संवेदी तंत्रिका नेटवर्क का उपयोग किया जाता है। नेटवर्क को नुकसान फ़ंक्शन जहाँ is जहां Q एक संचयी स्कोर मान और r है

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
आरQrकार्रवाई के चयन के लिए स्कोर मूल्य है। s,a और s,a क्रमशः राज्य हैं और क्रिया समय t और राज्य और समय t पर कार्रवाई का चयन करती है । ' \ थीटा ^ -_ मैं पिछले यात्रा पर नेटवर्क का भार है। \ गामा एक डिस्काउंट पहलू यह है कि खाते में स्कोर मूल्यों के अस्थायी अंतर से लेते हैं। मैं सबस्क्रिप्ट अस्थायी कदम है। यहाँ समस्या यह है कि क्यों \ गामा पर निर्भर नहीं करता है समझने के लिए \ थीटाtθiγiγθ

देखने का गणितीय दृष्टि से γ छूट कारक है और संभावना का प्रतिनिधित्व करता है राज्य तक पहुंचने के लिए s राज्य से s

मुझे लगता है कि नेटवर्क वास्तव में \ गामा के वास्तविक मूल्य के अनुसार क्यू को पुनर्विक्रय करना सीखता है , तो क्यों नहीं गामा = 1 दे रहा है ?Qγγ=1

जवाबों:


6

छूट कारक नहीं है संभावना का प्रतिनिधित्व राज्य तक पहुंचने के लिए राज्य से । यह , जिसका उपयोग Q-Learning में नहीं किया जाता है, क्योंकि यह मॉडल-रहित है (केवल मॉडल-आधारित सुदृढीकरण सीखने के तरीके उन संक्रमण संभावनाओं का उपयोग करते हैं)। डिस्काउंट फैक्टर उपयोगकर्ता द्वारा ट्यून किया गया एक हाइपरपैरामीटर है जो यह दर्शाता है कि भविष्य की घटनाएं समय के साथ कितनी दूर हैं, उसके अनुसार अपना मूल्य खो देती हैं। संदर्भित किया जाता सूत्र में, आप कह रहे हैं कि मूल्य के लिए अपने वर्तमान स्थिति इस राज्य के लिए तात्कालिक इनाम है प्लस क्या आप से शुरू भविष्य में प्राप्त करने की अपेक्षाssp(s|s,a)γyssγ < 1। लेकिन उस भविष्य के कार्यकाल को छूट दी जानी चाहिए, क्योंकि भविष्य में पुरस्कार (यदि ) ) के पास अभी एक पुरस्कार प्राप्त करने के समान मूल्य नहीं हो सकता है ( जैसे हम कल $ 100 के बजाय $ 100 प्राप्त करना पसंद करते हैं )। यह आप पर निर्भर है कि आप अपने भविष्य के पुरस्कारों को कम करना चाहते हैं (यह समस्या पर निर्भर है)। 0 के छूट कारक का अर्थ होगा कि आप केवल तत्काल पुरस्कारों की परवाह करते हैं। आपका छूट कारक जितना अधिक होगा, आपके पुरस्कारों का समय के साथ प्रचार होगा।γ<1

मेरा सुझाव है कि आप न्यूरल नेटवर्क के संदर्भ के बाहर शुद्ध सुदृढीकरण सीखने के लिए डीप-क्यू की कोशिश करने से पहले सटन और बार्टो पुस्तक पढ़ें , जो आपको भ्रमित कर सकता है।


आपके उत्तर के लिए थैंक्स, लेकिन मुझे अभी भी कुछ संदेह है। मैं जोर से सोच रहा हूं। हर कदम आप के स्कोर प्राप्त पर कल्पना कीजिए और आप भुगतान करने के लिए है खेलने शुरू करने के लिए। मैं अपेक्षित मूल्य की गणना कैसे करूं? अच्छी तरह से क्योंकि आप भविष्य में विभिन्न क्षणों में मान जोड़ रहे हैं, है ना? वी = + Σ मैं = 1 γ मैं- dc
Ev=i=1+γidc
d
इमानुएल

ठीक है, मैं तब भी टूट जब लिए सही मूल्य क्या है ? लिए सही मूल्य वह मूल्य है जो मुझे वर्तमान और वायदा पुरस्कारों के बीच व्यापार-बंद की अनुमति देता है और । चरण पर जीवित रहने की संभावना है और यही कारण है कि । चेक जहां हर कदम पर जीवित रहने की संभावना है और यह अपेक्षित जीवन काल है।
dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ
इमानुएल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.