राज्य में बेसलाइन सशर्त कुछ समय पर निष्पक्ष क्यों है?


9

रोबोटिक्स में, रोबोट के लिए नियंत्रण पैटर्न खोजने के लिए सुदृढीकरण सीखने की तकनीक का उपयोग किया जाता है। दुर्भाग्य से, अधिकांश नीतिगत ढाल विधि सांख्यिकीय रूप से पक्षपाती है जो रोबोट को असुरक्षित स्थिति में ला सकती है, पेज 2 को जन पीटर्स और स्टीफन शाल में देखें: नीति ग्रेडिएटर्स के साथ मोटर कौशल का सुदृढीकरण सीखना

मोटर आदिम शिक्षा के साथ, समस्या को दूर करना संभव है क्योंकि नीति ढाल पैरामीटर अनुकूलन लक्ष्य में सीखने के चरणों को निर्देशित करता है।

उद्धरण: "यदि ढाल का अनुमान निष्पक्ष है और सीखने की दरें पूरी हो जाती हैं (a) = 0 सीखने की प्रक्रिया को कम से कम एक स्थानीय न्यूनतम में परिवर्तित करने की गारंटी है [...] इसलिए, हमें केवल डेटा से उत्पन्न नीति ढाल का अनुमान लगाने की आवश्यकता है किसी कार्य के निष्पादन के दौरान। "(उसी पेपर का पृष्ठ 4)

में बर्कले आर एल वर्ग के लिए होमवर्क समस्या 1, यह दिखाने के लिए कि नीति ढाल अभी भी निष्पक्ष है अगर आधारभूत घटाया timestep टी में राज्य की एक समारोह है कहता है।

θt=1TE(st,at)p(st,at)[b(st)]=0

मैं इस बात से जूझ रहा हूं कि इस तरह के सबूत का पहला कदम क्या हो सकता है। क्या कोई मुझे सही दिशा दिखा सकता है? मेरा प्रारंभिक विचार था कि किसी भी तरह से टी पर बी (सेंट) सशर्त की उम्मीद बनाने के लिए कुल अपेक्षा के कानून का उपयोग किया जाए , लेकिन मुझे यकीन नहीं है। अग्रिम में धन्यवाद :)

समीकरण के मूल png से लिंक


एसई में आपका स्वागत है: ऐ! (मैं MathJax के समीकरण परिवर्तित करने की स्वतंत्रता ले लिया मूल .png तल पर जुड़ा हुआ है।।)
DukeZhou

2
वास्तव में सटीक समीकरणों को लिखने और इसे प्रारूपित करने के लिए बहुत समय नहीं है (हो सकता है कि बाद में अगर यह अभी भी उत्तर नहीं दिया गया है) लाटेक्स के साथ लेकिन यहां एक संकेत है। आप चाहते हैं कि योग नीति पर निर्भर न हो ताकि व्युत्पन्न 0. हो जाए। इसलिए आप किसी तरह पॉलिसी पी (एस) का उपयोग करके चीजों को व्यक्त करने का प्रयास करें। उत्तर btw नीति Sutient अध्याय में Sutton की RL पहचान पुस्तक में भी पाया जा सकता है।
हाई गुयेन

1
आपका बहुत बहुत धन्यवाद! मैं उस संकेत का उपयोग आरंभ करने के लिए करूंगा, साथ ही साथ मुझे इसके बारे में बताने के लिए धन्यवाद, जो कि सटन आरएल में है। मैं वह पुस्तक पढ़ रहा हूं और यह काफी उत्कृष्ट है!
लॉरा सी

@LauraC अगर आप किसी और से पहले उत्तर नहीं मिलता, वापस आ जाओ तो कृपया और निश्चित रूप से इस सवाल की तरह :) यहाँ एक औपचारिक जवाब के रूप में पद (लोग
DukeZhou

मैंने प्रश्न के लिए संदर्भ जानकारी जोड़ दी है।
मैनुअल रॉड्रिग्ज

जवाबों:


7

पुनरावृत्त अपेक्षाओं के कानून का उपयोग करना:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

इंटीग्रल्स के साथ लिखा गया है और ग्रेडिएंट को अंदर ले जाना (रैखिकता) जो आपको मिलता है

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

अब आप आगे बढ़ सकते हैं θ (रैखिकता के कारण) और b(st) (पर निर्भर नहीं करता है at) बाहरी एक के लिए आंतरिक अभिन्न रूप:

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st) (सशर्त) संभाव्यता घनत्व फ़ंक्शन है, इसलिए सभी पर एकीकरण at एक निश्चित राज्य के लिए st बराबरी 1:

=Σटी=1टीरोंटीपी(रोंटी)(रोंटी)θ1रोंटी=

अभी θ1=0, जो प्रमाण को समाप्त करता है।


1

ऐसा प्रतीत होता है कि इस उत्तर के लिखे जाने से दो दिन पहले होमवर्क हो रहा था, लेकिन यदि यह अभी भी किसी तरह से प्रासंगिक है, तो संबंधित क्लास नोट्स (जो होमवर्क के साथ प्रश्न में उपलब्ध कराए गए होते हैं) उपयोगी होते हैं

छात्र पर लगाए गए अपेक्षा का पहला उदाहरण है, "कृपया पुनरावृत्त उम्मीदों के कानून का उपयोग करके समीकरण 12 को दिखाते हैं, तोड़ते हैं τ~पीθ(τ) प्रक्षेप पथ के बाकी हिस्सों से राज्य-कार्रवाई को कम करके। "समीकरण 12 यह है।

Σटी=1टीτ~पीθ(τ)[θलॉगπθ(टी|रोंटी)((रोंटी))]=0

वर्ग नोट पहचानता है πθ(टी|रोंटी)राज्य-कार्रवाई सीमांत के रूप में। यह मांग की गई सबूत नहीं है, लेकिन बीजगणितीय चरणों का एक क्रम डिक्यूप्लिंग करने के लिए है और यह दर्शाता है कि राज्य-कार्रवाई सीमांत की स्वतंत्रता को किस हद तक प्राप्त किया जा सकता है।

यह अभ्यास होमवर्क में अगले चरण के लिए एक तैयारी है और केवल CS189, बुर्क्लीज़ इंट्रोडक्शन टू मशीन लर्निंग कोर्स की समीक्षा करता है, जिसमें इसके पाठ्यक्रम या कक्षा के नोट्स में कुल अपेक्षा का कानून शामिल नहीं है।

सभी प्रासंगिक जानकारी कक्षा के नोट्स के लिए उपरोक्त लिंक में है और केवल मध्यवर्ती बीजगणित की आवश्यकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.