रोबोटिक्स में, रोबोट के लिए नियंत्रण पैटर्न खोजने के लिए सुदृढीकरण सीखने की तकनीक का उपयोग किया जाता है। दुर्भाग्य से, अधिकांश नीतिगत ढाल विधि सांख्यिकीय रूप से पक्षपाती है जो रोबोट को असुरक्षित स्थिति में ला सकती है, पेज 2 को जन पीटर्स और स्टीफन शाल में देखें: नीति ग्रेडिएटर्स के साथ मोटर कौशल का सुदृढीकरण सीखना
मोटर आदिम शिक्षा के साथ, समस्या को दूर करना संभव है क्योंकि नीति ढाल पैरामीटर अनुकूलन लक्ष्य में सीखने के चरणों को निर्देशित करता है।
उद्धरण: "यदि ढाल का अनुमान निष्पक्ष है और सीखने की दरें पूरी हो जाती हैं (a) = 0 सीखने की प्रक्रिया को कम से कम एक स्थानीय न्यूनतम में परिवर्तित करने की गारंटी है [...] इसलिए, हमें केवल डेटा से उत्पन्न नीति ढाल का अनुमान लगाने की आवश्यकता है किसी कार्य के निष्पादन के दौरान। "(उसी पेपर का पृष्ठ 4)
में बर्कले आर एल वर्ग के लिए होमवर्क समस्या 1, यह दिखाने के लिए कि नीति ढाल अभी भी निष्पक्ष है अगर आधारभूत घटाया timestep टी में राज्य की एक समारोह है कहता है।
मैं इस बात से जूझ रहा हूं कि इस तरह के सबूत का पहला कदम क्या हो सकता है। क्या कोई मुझे सही दिशा दिखा सकता है? मेरा प्रारंभिक विचार था कि किसी भी तरह से टी पर बी (सेंट) सशर्त की उम्मीद बनाने के लिए कुल अपेक्षा के कानून का उपयोग किया जाए , लेकिन मुझे यकीन नहीं है। अग्रिम में धन्यवाद :)