सांख्यिकी और बिग डेटा reinforcement-learning

3

हमेशा कम से कम एक नीति क्यों होती है जो अन्य सभी नीतियों से बेहतर या समान होती है?

सुदृढीकरण सीखना: एक परिचय। दूसरा संस्करण, प्रगति में , रिचर्ड एस। सटन और एंड्रयू जी। बार्टो (सी) 2012, पीपी 67-68। एक सुदृढीकरण सीखने के कार्य को हल करने का मतलब है, मोटे तौर पर, एक ऐसी नीति खोजना जो लंबे समय से अधिक इनाम प्राप्त करता है। परिमित एमडीपी के …

15 markov-process reinforcement-learning

2

तंत्रिका नेटवर्क का उपयोग करते हुए क्यू-लर्निंग के बारे में प्रश्न

मैंने क्यू-लर्निंग को इस रूप में वर्णित किया है, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf लगभग करने के लिए। क्यू (एस, ए) मैं निम्नलिखित की तरह एक तंत्रिका नेटवर्क संरचना का उपयोग करता हूं, एक्टिवेशन सिग्मॉइड एक्शन न्यूरॉन्स के लिए इनपुट्स, इनपुट्स + 1 की संख्या (सभी इनपुट्स स्केल २. number) आउटपुट, एकल आउटपुट। क्यू …

14 machine-learning neural-networks reinforcement-learning

1

GAM बनाम लोड बनाम विभाजन

प्रसंग : मैं इसलिए मैं उपयोग कर रहा हूँ एक scatterplot कि पैरामीट्रिक प्रकट नहीं होता है में एक रेखा खींच करना चाहते हैं, geom_smooth()में ggplotमें R। यह स्वचालित रूप से रिटर्न करता है geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

गहन क्यू लर्निंग में एपिसोड और एपोक के बीच अंतर क्या है?

मैं प्रसिद्ध पेपर "प्ले अटारी विथ डीप रिनफोर्स लर्निंग" ( पीडीएफ ) को समझने की कोशिश कर रहा हूं । मैं एक युग और प्रकरण के बीच के अंतर के बारे में स्पष्ट नहीं हूं । एल्गोरिथ्म , बाहरी लूप एपिसोड से अधिक है , जबकि आकृति में एक्स-एक्सिस को …

14 neural-networks terminology reinforcement-learning q-learning

1

गहन सुदृढीकरण अस्थिर क्यों है?

गहन सुदृढीकरण सीखने पर दीपमिन्द के 2015 के पेपर में, यह कहा गया है कि "तंत्रिका नेटवर्क के साथ आरएल को संयोजित करने का पिछला प्रयास अस्थिर सीखने के कारण काफी हद तक विफल रहा था"। इस पत्र में इसके कुछ कारणों को सूचीबद्ध किया गया है, जो अवलोकनों में …

13 machine-learning neural-networks deep-learning reinforcement-learning

1

एन-सशस्त्र डाकू समस्याओं को हल करने के लिए इष्टतम एल्गोरिदम?

मैंने एन-सशस्त्र दस्यु समस्याओं जैसे -greedy, softmax, और UCB1 को हल करने के लिए कई एल्गोरिदम के बारे में पढ़ा है , लेकिन मुझे खेद कम करने के लिए सबसे अच्छा तरीका क्या है के माध्यम से छंटनी करने में थोड़ी परेशानी हो रही है।ϵϵ\epsilon क्या एन-सशस्त्र डाकू समस्या को …

13 machine-learning reinforcement-learning multiarmed-bandit

2

क्यों अनुभव रिप्ले को ऑफ-पॉलिसी एल्गोरिथ्म की आवश्यकता होती है?

कागज में DQN " डीप रेनफोर्समेंट लर्निंग के साथ अटारी खेलना " का उल्लेख किया गया है: ध्यान दें कि जब अनुभव रिप्ले से सीखते हैं, तो ऑफ-पॉलिसी सीखना आवश्यक है (क्योंकि हमारे वर्तमान पैरामीटर नमूना उत्पन्न करने के लिए उपयोग किए जाने वाले अलग हैं), जो क्यू-लर्निंग की पसंद …

12 reinforcement-learning

2

रिग्रेशन फ्रेमवर्क में मशीन लर्निंग की समस्या का अनुवाद करना

मान लीजिए कि मेरे पास i = 1 के लिए व्याख्यात्मक चर का एक पैनल है । । । एन , टी = १ । । । टी , साथ ही द्विआधारी परिणाम पर निर्भर चर Y i T का एक वेक्टर । तो Y को केवल अंतिम समय T …

12 regression machine-learning reinforcement-learning

3

खेल सिद्धांत और सुदृढीकरण सीखने के बीच क्या संबंध है?

मैं (डीप) सुदृढीकरण लर्निंग (आरएल) में रुचि रखता हूं । इस क्षेत्र में गोता लगाने से पहले मुझे गेम थ्योरी (जीटी) में एक कोर्स करना चाहिए ? जीटी और आरएल कैसे संबंधित हैं?

12 deep-learning reinforcement-learning game-theory

1

रैखिक समारोह सन्निकटन के साथ क्यू-मूल्यों में भार कैसे फिट करें

सुदृढीकरण सीखने में, रैखिक फ़ंक्शन सन्निकटन का उपयोग अक्सर तब किया जाता है जब बड़े राज्य स्थान मौजूद होते हैं। (जब देखो टेबल बेवफा हो जाते हैं।) रैखिक फ़ंक्शन सन्निकटन के साथ मान का रूप द्वारा दिया गया हैQ−Q−Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, जहां wiwiw_i …

12 machine-learning feature-selection reinforcement-learning

2

टेम्पोरल अंतर वाले मोंटे कार्लो तरीकों को कब पसंद किया जाता है?

मैं हाल ही में सुदृढीकरण सीखने के बारे में बहुत शोध कर रहा हूं। मैंने सटन और बार्टो के सुदृढीकरण सीखना का अनुसरण किया : इसमें से अधिकांश के लिए एक परिचय । मुझे पता है कि मार्कोव निर्णय प्रक्रियाएं क्या हैं और उन्हें हल करने के लिए डायनेमिक प्रोग्रामिंग …

12 monte-carlo reinforcement-learning temporal-difference

1

फ़ंक्शन सन्निकटन के रूप में न्यूरल नेटवर्क के साथ क्यू-लर्निंग

मैं क्यू-लर्निंग में क्यू-मूल्य को अनुमानित करने के लिए एक न्यूरल नेटवर्क का उपयोग करने की कोशिश कर रहा हूं जैसे कि क्यू-लर्निंग में न्यूरल नेटवर्क्स का उपयोग करते हुए प्रश्न । जैसा कि पहले उत्तर में सुझाव दिया गया है, मैं आउटपुट लेयर के लिए एक रैखिक सक्रियण फ़ंक्शन …

11 neural-networks reinforcement-learning

1

क्या है AlphaGo के पेपर में रोलआउट नीति?

कागज यहाँ है । रोलआउट नीति ... एक रैखिक सॉफ्टमैक्स नीति है जो तेज, वृद्धिशील रूप से गणना, स्थानीय पैटर्न-आधारित सुविधाओं पर आधारित है ... मुझे समझ में नहीं आ रहा है कि रोलआउट नीति क्या है, और यह कैसे एक चाल का चयन करने के नीति नेटवर्क से संबंधित …

11 machine-learning monte-carlo reinforcement-learning games

1

क्या P (X) और P (Y | X) के IID नमूनों के स्टोकेस्टिक क्रमिक वंश से P (Y | X) का मॉडल प्रशिक्षित किया जा सकता है?

जब कुछ डेटा सेट पर स्टोचैस्टिक ग्रेडिएंट वंश के माध्यम से एक मानकीकृत मॉडल (जैसे संभावना को अधिकतम करने के लिए) का प्रशिक्षण दिया जाता है, तो आमतौर पर यह माना जाता है कि प्रशिक्षण के नमूने प्रशिक्षण डेटा वितरण से तैयार किए गए हैं। इसलिए यदि लक्ष्य संयुक्त वितरण …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

नीति पुनरावृत्ति एल्गोरिथ्म इष्टतम नीति और मूल्य फ़ंक्शन में क्यों परिवर्तित होता है?

मैं सुदृढीकरण सीखने पर एंड्रयू एनजी के व्याख्यान नोट्स पढ़ रहा था , और मैं यह समझने की कोशिश कर रहा था कि नीति पुनरावृत्ति इष्टतम मान फ़ंक्शन और इष्टतम नीति क्यों परिवर्तित हुई ।V∗V∗V^*π∗π∗\pi^* याद रखें नीति पुनरावृत्ति है: प्रारंभिक π बेतरतीब ढंग सेरिपीट {एल ई टी वी : …

10 reinforcement-learning policy-iteration

reinforcement-learning पर टैग किए गए जवाब