आवर्तक सुदृढीकरण सीखना क्या है


20

मैं हाल ही में "आवर्तक सुदृढीकरण सीखने" के शब्द पर आया हूं। मैं समझता हूं कि "पुनरावर्ती तंत्रिका नेटवर्क" क्या है और "सुदृढीकरण सीखना" क्या है, लेकिन "पुनरावृत्ति सुदृढीकरण सीखना" के बारे में अधिक जानकारी नहीं मिल सकी है।

क्या कोई मुझे समझा सकता है कि एक "रिकरंट रिइनफोर्समेंट लर्निंग" क्या है और क्यू-लर्निंग एल्गोरिदम की तरह "रिक्रंट रिइनफोर्समेंट लर्निंग" और सामान्य "रिनफोर्समेंट लर्निंग" में क्या अंतर है।

जवाबों:


15

एक "आवर्तक सुदृढीकरण सीखने" क्या है?

आवर्तक सुदृढीकरण अधिगम ( RRL ) को पहली बार 1996 में तंत्रिका नेटवर्क ट्रेडिंग सिस्टम के प्रशिक्षण के लिए पेश किया गया था। "आवर्तक" का अर्थ है कि पिछले आउटपुट को इनपुट के एक भाग के रूप में मॉडल में खिलाया गया है। इसे जल्द ही एफएक्स मार्केट में ट्रेडिंग के लिए बढ़ाया गया।

आरआरएल तकनीक वित्तीय व्यापार प्रणाली के निर्माण के लिए एक सफल मशीन सीखने तकनीक होना पाया गया है।

"आवर्तक सुदृढीकरण सीखने" और सामान्य "सुदृढीकरण सीखने" (जैसे क्यू-लर्निंग एल्गोरिदम) के बीच अंतर क्या है?

आरआरएल दृष्टिकोण से स्पष्ट रूप से अलग है गतिशील प्रोग्रामिंग और सुदृढीकरण एल्गोरिदम जैसे टीडी-लर्निंग और क्यू सीखने , जो एक अनुमान लगाने के लिए प्रयास करने के मूल्य समारोह नियंत्रण समस्या के लिए।

आरआरएल ढांचा सरल और सुरुचिपूर्ण समस्या प्रतिनिधित्व बनाने के लिए अनुमति देता है, से बचा जाता है आयामी स्वरूप की Bellman का शाप और दक्षता में सम्मोहक लाभ प्रदान करता है:

RRL , क्यू-लर्निंग में विवेकाधीन पद्धति का सहारा लिए बिना स्वाभाविक रूप से वास्तविक मूल्यवान कार्यों (पोर्टफोलियो भार) का उत्पादन करता है ।

शोर डेटासेट के संपर्क में आने पर क्यू-लर्निंग की तुलना में आरआरएल में अधिक स्थिर प्रदर्शन होता है। क्यू-लर्निंग एल्गोरिथ्म गतिशील अनुकूलन की पुनरावर्ती संपत्ति के कारण मूल्य समारोह चयन (शायद) के लिए अधिक संवेदनशील है, जबकि आरआरएल एल्गोरिथ्म उद्देश्य फ़ंक्शन को चुनने और कम्प्यूटेशनल समय को बचाने में अधिक लचीला है।

यू()

यहां आपको आरआरएल एल्गोरिथ्म का मैटलैब कार्यान्वयन मिलेगा।


संदर्भ

व्यापार के लिए सुदृढीकरण सीखना

ट्रेडिंग सिस्टम और पोर्टफोलियो के लिए सुदृढीकरण सीखना

आवर्तक सुदृढीकरण सीखने के माध्यम से एफएक्स ट्रेडिंग

आवर्तक सुदृढीकरण लर्निंग (RRL) के साथ स्टॉक ट्रेडिंग

क्यू-लर्निंग और आवर्तक सुदृढीकरण लर्निंग का उपयोग करके एल्गोरिथम ट्रेडिंग

स्वचालित एफएक्स ट्रेडिंग के लिए एग्लॉर्म्स का निर्माण - एक हाइब्रिड मॉडल का निर्माण


@AntonDanilov मुझे यकीन नहीं है अगर आप इस बारे में जानते हैं। जो व्यक्ति इस विचार के साथ आया था (आपका पहला रेफरी, जे मूडी) इस अहंकार का उपयोग करके एक फंड चला रहा है - और उसका प्रदर्शन शानदार रहा है।
1948 को 19

तो, यह जानने के लिए अच्छा है लेकिन यह कैसे चैंज का जवाब देता है
एंटोन

2

(डीप) आवर्तक आरएल का गौरव यह है कि एजेंट्स को उसके आउटपुट एक्शन के लिए मैप करने वाला फंक्शन मैप आवर्तक तंत्रिका नेटवर्क है।

एक आवर्तक तंत्रिका नेटवर्क एक प्रकार का तंत्रिका नेटवर्क है जो प्रत्येक अवलोकन को क्रमिक रूप से संसाधित करता है, उसी तरह से प्रत्येक समय कदम के लिए।

मूल पेपर: आंशिक रूप से अवलोकन योग्य एमडीपी के लिए डीप रिकरंट क्यू-लर्निंग

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.