reinforcement-learning पर टैग किए गए जवाब

गतिशील रणनीतियों का एक सेट, जिसके द्वारा एक एल्गोरिथ्म अलग-अलग पुरस्कारों से जुड़े कार्यों को अनुकूल तरीके से ऑनलाइन करके पर्यावरण की संरचना को सीख सकता है ताकि अर्जित किए गए पुरस्कारों को अधिकतम किया जा सके।

3
हमेशा कम से कम एक नीति क्यों होती है जो अन्य सभी नीतियों से बेहतर या समान होती है?
सुदृढीकरण सीखना: एक परिचय। दूसरा संस्करण, प्रगति में , रिचर्ड एस। सटन और एंड्रयू जी। बार्टो (सी) 2012, पीपी 67-68। एक सुदृढीकरण सीखने के कार्य को हल करने का मतलब है, मोटे तौर पर, एक ऐसी नीति खोजना जो लंबे समय से अधिक इनाम प्राप्त करता है। परिमित एमडीपी के …

2
तंत्रिका नेटवर्क का उपयोग करते हुए क्यू-लर्निंग के बारे में प्रश्न
मैंने क्यू-लर्निंग को इस रूप में वर्णित किया है, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf लगभग करने के लिए। क्यू (एस, ए) मैं निम्नलिखित की तरह एक तंत्रिका नेटवर्क संरचना का उपयोग करता हूं, एक्टिवेशन सिग्मॉइड एक्शन न्यूरॉन्स के लिए इनपुट्स, इनपुट्स + 1 की संख्या (सभी इनपुट्स स्केल २. number) आउटपुट, एकल आउटपुट। क्यू …

1
GAM बनाम लोड बनाम विभाजन
प्रसंग : मैं इसलिए मैं उपयोग कर रहा हूँ एक scatterplot कि पैरामीट्रिक प्रकट नहीं होता है में एक रेखा खींच करना चाहते हैं, geom_smooth()में ggplotमें R। यह स्वचालित रूप से रिटर्न करता है geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ …

1
गहन क्यू लर्निंग में एपिसोड और एपोक के बीच अंतर क्या है?
मैं प्रसिद्ध पेपर "प्ले अटारी विथ डीप रिनफोर्स लर्निंग" ( पीडीएफ ) को समझने की कोशिश कर रहा हूं । मैं एक युग और प्रकरण के बीच के अंतर के बारे में स्पष्ट नहीं हूं । एल्गोरिथ्म , बाहरी लूप एपिसोड से अधिक है , जबकि आकृति में एक्स-एक्सिस को …

1
गहन सुदृढीकरण अस्थिर क्यों है?
गहन सुदृढीकरण सीखने पर दीपमिन्द के 2015 के पेपर में, यह कहा गया है कि "तंत्रिका नेटवर्क के साथ आरएल को संयोजित करने का पिछला प्रयास अस्थिर सीखने के कारण काफी हद तक विफल रहा था"। इस पत्र में इसके कुछ कारणों को सूचीबद्ध किया गया है, जो अवलोकनों में …

1
एन-सशस्त्र डाकू समस्याओं को हल करने के लिए इष्टतम एल्गोरिदम?
मैंने एन-सशस्त्र दस्यु समस्याओं जैसे -greedy, softmax, और UCB1 को हल करने के लिए कई एल्गोरिदम के बारे में पढ़ा है , लेकिन मुझे खेद कम करने के लिए सबसे अच्छा तरीका क्या है के माध्यम से छंटनी करने में थोड़ी परेशानी हो रही है।ϵϵ\epsilon क्या एन-सशस्त्र डाकू समस्या को …

2
क्यों अनुभव रिप्ले को ऑफ-पॉलिसी एल्गोरिथ्म की आवश्यकता होती है?
कागज में DQN " डीप रेनफोर्समेंट लर्निंग के साथ अटारी खेलना " का उल्लेख किया गया है: ध्यान दें कि जब अनुभव रिप्ले से सीखते हैं, तो ऑफ-पॉलिसी सीखना आवश्यक है (क्योंकि हमारे वर्तमान पैरामीटर नमूना उत्पन्न करने के लिए उपयोग किए जाने वाले अलग हैं), जो क्यू-लर्निंग की पसंद …

2
रिग्रेशन फ्रेमवर्क में मशीन लर्निंग की समस्या का अनुवाद करना
मान लीजिए कि मेरे पास i = 1 के लिए व्याख्यात्मक चर का एक पैनल है । । । एन , टी = १ । । । टी , साथ ही द्विआधारी परिणाम पर निर्भर चर Y i T का एक वेक्टर । तो Y को केवल अंतिम समय T …

3
खेल सिद्धांत और सुदृढीकरण सीखने के बीच क्या संबंध है?
मैं (डीप) सुदृढीकरण लर्निंग (आरएल) में रुचि रखता हूं । इस क्षेत्र में गोता लगाने से पहले मुझे गेम थ्योरी (जीटी) में एक कोर्स करना चाहिए ? जीटी और आरएल कैसे संबंधित हैं?

1
रैखिक समारोह सन्निकटन के साथ क्यू-मूल्यों में भार कैसे फिट करें
सुदृढीकरण सीखने में, रैखिक फ़ंक्शन सन्निकटन का उपयोग अक्सर तब किया जाता है जब बड़े राज्य स्थान मौजूद होते हैं। (जब देखो टेबल बेवफा हो जाते हैं।) रैखिक फ़ंक्शन सन्निकटन के साथ मान का रूप द्वारा दिया गया हैQ−Q−Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, जहां wiwiw_i …

2
टेम्पोरल अंतर वाले मोंटे कार्लो तरीकों को कब पसंद किया जाता है?
मैं हाल ही में सुदृढीकरण सीखने के बारे में बहुत शोध कर रहा हूं। मैंने सटन और बार्टो के सुदृढीकरण सीखना का अनुसरण किया : इसमें से अधिकांश के लिए एक परिचय । मुझे पता है कि मार्कोव निर्णय प्रक्रियाएं क्या हैं और उन्हें हल करने के लिए डायनेमिक प्रोग्रामिंग …

1
फ़ंक्शन सन्निकटन के रूप में न्यूरल नेटवर्क के साथ क्यू-लर्निंग
मैं क्यू-लर्निंग में क्यू-मूल्य को अनुमानित करने के लिए एक न्यूरल नेटवर्क का उपयोग करने की कोशिश कर रहा हूं जैसे कि क्यू-लर्निंग में न्यूरल नेटवर्क्स का उपयोग करते हुए प्रश्न । जैसा कि पहले उत्तर में सुझाव दिया गया है, मैं आउटपुट लेयर के लिए एक रैखिक सक्रियण फ़ंक्शन …

1
क्या है AlphaGo के पेपर में रोलआउट नीति?
कागज यहाँ है । रोलआउट नीति ... एक रैखिक सॉफ्टमैक्स नीति है जो तेज, वृद्धिशील रूप से गणना, स्थानीय पैटर्न-आधारित सुविधाओं पर आधारित है ... मुझे समझ में नहीं आ रहा है कि रोलआउट नीति क्या है, और यह कैसे एक चाल का चयन करने के नीति नेटवर्क से संबंधित …

1
क्या P (X) और P (Y | X) के IID नमूनों के स्टोकेस्टिक क्रमिक वंश से P (Y | X) का मॉडल प्रशिक्षित किया जा सकता है?
जब कुछ डेटा सेट पर स्टोचैस्टिक ग्रेडिएंट वंश के माध्यम से एक मानकीकृत मॉडल (जैसे संभावना को अधिकतम करने के लिए) का प्रशिक्षण दिया जाता है, तो आमतौर पर यह माना जाता है कि प्रशिक्षण के नमूने प्रशिक्षण डेटा वितरण से तैयार किए गए हैं। इसलिए यदि लक्ष्य संयुक्त वितरण …

2
नीति पुनरावृत्ति एल्गोरिथ्म इष्टतम नीति और मूल्य फ़ंक्शन में क्यों परिवर्तित होता है?
मैं सुदृढीकरण सीखने पर एंड्रयू एनजी के व्याख्यान नोट्स पढ़ रहा था , और मैं यह समझने की कोशिश कर रहा था कि नीति पुनरावृत्ति इष्टतम मान फ़ंक्शन और इष्टतम नीति क्यों परिवर्तित हुई ।V∗V∗V^*π∗π∗\pi^* याद रखें नीति पुनरावृत्ति है: प्रारंभिक π बेतरतीब ढंग सेरिपीट {एल ई टी वी : …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.