एक "आवर्तक सुदृढीकरण सीखने" क्या है?
आवर्तक सुदृढीकरण अधिगम ( RRL ) को पहली बार 1996 में तंत्रिका नेटवर्क ट्रेडिंग सिस्टम के प्रशिक्षण के लिए पेश किया गया था। "आवर्तक" का अर्थ है कि पिछले आउटपुट को इनपुट के एक भाग के रूप में मॉडल में खिलाया गया है। इसे जल्द ही एफएक्स मार्केट में ट्रेडिंग के लिए बढ़ाया गया।
आरआरएल तकनीक वित्तीय व्यापार प्रणाली के निर्माण के लिए एक सफल मशीन सीखने तकनीक होना पाया गया है।
"आवर्तक सुदृढीकरण सीखने" और सामान्य "सुदृढीकरण सीखने" (जैसे क्यू-लर्निंग एल्गोरिदम) के बीच अंतर क्या है?
आरआरएल दृष्टिकोण से स्पष्ट रूप से अलग है गतिशील प्रोग्रामिंग और सुदृढीकरण एल्गोरिदम जैसे टीडी-लर्निंग और क्यू सीखने , जो एक अनुमान लगाने के लिए प्रयास करने के मूल्य समारोह नियंत्रण समस्या के लिए।
आरआरएल ढांचा सरल और सुरुचिपूर्ण समस्या प्रतिनिधित्व बनाने के लिए अनुमति देता है, से बचा जाता है आयामी स्वरूप की Bellman का शाप और दक्षता में सम्मोहक लाभ प्रदान करता है:
RRL , क्यू-लर्निंग में विवेकाधीन पद्धति का सहारा लिए बिना स्वाभाविक रूप से वास्तविक मूल्यवान कार्यों (पोर्टफोलियो भार) का उत्पादन करता है ।
शोर डेटासेट के संपर्क में आने पर क्यू-लर्निंग की तुलना में आरआरएल में अधिक स्थिर प्रदर्शन होता है। क्यू-लर्निंग एल्गोरिथ्म गतिशील अनुकूलन की पुनरावर्ती संपत्ति के कारण मूल्य समारोह चयन (शायद) के लिए अधिक संवेदनशील है, जबकि आरआरएल एल्गोरिथ्म उद्देश्य फ़ंक्शन को चुनने और कम्प्यूटेशनल समय को बचाने में अधिक लचीला है।
यू( )
यहां आपको आरआरएल एल्गोरिथ्म का मैटलैब कार्यान्वयन मिलेगा।
संदर्भ
व्यापार के लिए सुदृढीकरण सीखना
ट्रेडिंग सिस्टम और पोर्टफोलियो के लिए सुदृढीकरण सीखना
आवर्तक सुदृढीकरण सीखने के माध्यम से एफएक्स ट्रेडिंग
आवर्तक सुदृढीकरण लर्निंग (RRL) के साथ स्टॉक ट्रेडिंग
क्यू-लर्निंग और आवर्तक सुदृढीकरण लर्निंग का उपयोग करके एल्गोरिथम ट्रेडिंग
स्वचालित एफएक्स ट्रेडिंग के लिए एग्लॉर्म्स का निर्माण - एक हाइब्रिड मॉडल का निर्माण