क्या पुनर्संरचना सीखने को समय श्रृंखला पूर्वानुमान के लिए लागू किया जा सकता है?

time-series reinforcement-learning forecasting

arxiv.org/ftp/arxiv/papers/1803/1803.03916.pdf

— एनरिक पेरीज़ हरेरो

हां, लेकिन सामान्य तौर पर यह कार्य के लिए एक अच्छा उपकरण नहीं है, जब तक कि सिस्टम के पूर्वानुमान और चल रहे व्यवहार के बीच महत्वपूर्ण प्रतिक्रिया न हो।

एक सुदृढीकरण सीखने (आरएल) समस्या का निर्माण करने के लिए जहां यह आरएल भविष्यवाणी या नियंत्रण एल्गोरिथ्म का उपयोग करने के लायक है, तो आपको कुछ घटकों की पहचान करने की आवश्यकता है:

एक वातावरण जो कई राज्यों में से एक में हो सकता है जिसे एक अनुक्रम में मापा / देखा जा सकता है।
एक एजेंट जो वर्तमान स्थिति का निरीक्षण कर सकता है और उसी क्रम में कार्रवाई कर सकता है ।
अनुक्रम में राज्य का विकास वर्तमान स्थिति और की गई कार्रवाई के कुछ संयोजन पर निर्भर होना चाहिए , और स्टोचस्टिक भी हो सकता है।
एक इनाम संकेत होना चाहिए कि आरएल एजेंट निरीक्षण कर सकता है या माप सकता है। इनाम का मूल्य राज्य के विकास के समान कारकों पर निर्भर होना चाहिए, लेकिन एक अलग तरीके से उन पर निर्भर हो सकता है।

समय श्रृंखला पूर्वानुमान के सामान्य मामले को भविष्यवाणी के साथ कार्रवाई के रूप में मानकर इसे फिट किया जा सकता है, राज्य का विकास केवल वर्तमान स्थिति (प्लस यादृच्छिकता) और राज्य और कार्रवाई के आधार पर इनाम पर निर्भर करता है। यह आरएल को लागू करने की अनुमति देगा, लेकिन कार्य-कारणता केवल एक ही तरह से बहती है - पर्यावरण से आपके पूर्वानुमान मॉडल में। इस तरह, उदाहरण के लिए पुरस्कार के लिए आप सबसे अच्छा कर सकते हैं पूर्वानुमानों की शुद्धता के बारे में कुछ मीट्रिक का उपयोग करें। अच्छी या बुरी भविष्यवाणियों के लिए परिणाम मूल वातावरण को प्रभावित नहीं करते हैं। अनिवार्य रूप से आप अनुक्रम के लिए कुछ पूर्वानुमान मॉडल (जैसे एक तंत्रिका नेटवर्क) को आरएल परत में लपेटेंगे जो आसानी से एक पर्यवेक्षित शिक्षण समस्या के लिए बुनियादी डेटा सेट हैंडलिंग द्वारा प्रतिस्थापित किया जा सकता है।

एक तरह से आप आरएल समस्याओं में श्रृंखला पूर्वानुमान समस्याओं को सार्थक रूप से बढ़ा सकते हैं, भविष्यवाणियों के आधार पर किए गए निर्णयों और उन निर्णयों से प्रभावित होने वाली प्रणालियों की स्थिति को शामिल करने के लिए पर्यावरण के दायरे को बढ़ाना है। उदाहरण के लिए, यदि आप स्टॉक की कीमतों की भविष्यवाणी कर रहे हैं, तो राज्य में अपने पोर्टफोलियो और फंड को शामिल करें। इसी तरह, कार्यवाहियां भविष्यवाणियां बनना बंद कर देती हैं, कमांड खरीदते और बेचते हैं। यह मूल्य भविष्यवाणी घटक में सुधार नहीं करेगा (और आप बेहतर इलाज की संभावना है कि एक अलग समस्या के रूप में, अधिक उपयुक्त उपकरण - जैसे LSTM का उपयोग करके), लेकिन यह समस्या को समग्र रूप से RL समस्या के रूप में फ्रेम करेगा।

— नील स्लेटर
स्रोत