reinforcement-learning पर टैग किए गए जवाब

बाहरी सकारात्मक सुदृढीकरण या नकारात्मक प्रतिक्रिया संकेत या दोनों के द्वारा नियंत्रित सीखने से संबंधित प्रश्नों के लिए, जहां सीखना और इस प्रकार उपयोग किया गया है कि अब तक सीखा गया है।

6
मॉडल-मुक्त और मॉडल-आधारित सुदृढीकरण सीखने के बीच अंतर क्या है?
मॉडल-मुक्त और मॉडल-आधारित सुदृढीकरण सीखने के बीच अंतर क्या है? यह मुझे लगता है कि किसी भी मॉडल-मुक्त शिक्षार्थी, परीक्षण और त्रुटि के माध्यम से सीखना, मॉडल-आधारित के रूप में फिर से शुरू किया जा सकता है। उस स्थिति में, मॉडल-मुक्त शिक्षार्थी कब उपयुक्त होंगे?

1
क्यू-लर्निंग और पॉलिसी ग्रेडिएंट विधियों के बीच क्या संबंध है?
जहां तक ​​मैं समझता हूं, Q- लर्निंग और पॉलिसी ग्रेडिएंट (PG) RL समस्याओं को हल करने के लिए उपयोग किए जाने वाले दो प्रमुख दृष्टिकोण हैं। जबकि क्यू-लर्निंग का लक्ष्य एक निश्चित राज्य में किए गए एक निश्चित कार्रवाई के इनाम की भविष्यवाणी करना है, नीतिगत ढाल सीधे कार्रवाई की …

4
सुदृढीकरण सीखने में अमान्य चाल को कैसे संभालें?
मैं एक एआई बनाना चाहता हूं जो पांच-इन-द-रो / गोमोकू खेल सकता है। जैसा कि मैंने शीर्षक में उल्लेख किया है, मैं इसके लिए सुदृढीकरण सीखने का उपयोग करना चाहता हूं। बेसलाइन के साथ, मैं पॉलिसी ग्रेडिएंट विधि का उपयोग करता हूं , जिसका नाम REINFORCE है। मान और नीति …

2
सुदृढीकरण सीखने में राज्यों को कैसे परिभाषित किया जाए?
मैं सुदृढीकरण सीखने और इसके प्रकारों का अध्ययन कर रहा हूं। मैं यह समझने की शुरुआत कर रहा हूं कि एल्गोरिदम कैसे काम करते हैं और वे एमडीपी पर कैसे लागू होते हैं। मुझे समझ में नहीं आता कि एमडीपी के राज्यों को परिभाषित करने की प्रक्रिया क्या है। अधिकांश …

2
नमूना दक्षता क्या है, और इसे प्राप्त करने के लिए महत्वपूर्ण नमूने का उपयोग कैसे किया जा सकता है?
उदाहरण के लिए, इस पत्र का शीर्षक पढ़ता है: "अनुभव के साथ नमूना कुशल अभिनेता-आलोचक फिर से खेलना"। नमूना दक्षता क्या है , और इसे प्राप्त करने के लिए महत्वपूर्ण नमूने का उपयोग कैसे किया जा सकता है?

3
क्या खेलों के अलावा सुदृढीकरण सीखने के कोई भी अनुप्रयोग हैं?
क्या खेलों के अलावा अन्य अनुप्रयोगों में सुदृढीकरण सीखने को सिखाने का एक तरीका है? एकमात्र उदाहरण जो मैं इंटरनेट पर पा सकता हूं वह गेम एजेंटों का है। मैं समझता हूं कि वीएनसी ने सुदृढीकरण नेटवर्क के माध्यम से खेल के लिए इनपुट को नियंत्रित किया है। क्या सीएडी …

3
सुदृढीकरण सीखने में एक विवश एक्शन स्पेस को कैसे लागू किया जाए?
मैं PPO एजेंट के साथ एक सुदृढीकरण सीखने के मॉडल को कोडिंग कर रहा हूं , जो कि Tensorflow के शीर्ष पर निर्मित, बहुत अच्छे Tensorforce पुस्तकालय के लिए धन्यवाद है । पहला संस्करण बहुत सरल था और अब मैं एक अधिक जटिल वातावरण में गोता लगा रहा हूं, जहां …

1
आप सुदृढीकरण सीखने के उदाहरणों पर ड्रॉपआउट परतें क्यों नहीं देखते हैं?
मैं सुदृढीकरण सीखने को देख रहा हूं, और विशेष रूप से OpenAI जिम AI के साथ उपयोग करने के लिए अपने स्वयं के वातावरण बनाने के साथ खेल रहा हूं। मैं इसके साथ परीक्षण करने के लिए static_baselines परियोजना के एजेंटों का उपयोग कर रहा हूं। एक बात मैंने लगभग …

1
जब मैं सुदृढीकरण सीखना बनाम पीआईडी ​​नियंत्रण का उपयोग करना चाहिए?
OpenAIGym पर लूनर लैंडर जैसी समस्याओं के समाधान को डिजाइन करते समय , सुदृढीकरण सीखना एजेंट को सफलतापूर्वक भूमि पर पर्याप्त कार्रवाई नियंत्रण देने का एक लुभावना साधन है। लेकिन ऐसे कौन से उदाहरण हैं जिनमें नियंत्रण प्रणाली एल्गोरिदम, जैसे कि पीआईडी ​​नियंत्रक , सिर्फ एक पर्याप्त काम करेंगे, जैसे …

1
DQN को दो अलग-अलग नेटवर्क की आवश्यकता क्यों है?
मैं DQN के इस कार्यान्वयन के माध्यम से जा रहा था और मैं देखता हूं कि 124 और 125 दो अलग-अलग क्यू नेटवर्क को आरंभीकृत किया गया है। मेरी समझ से, मुझे लगता है कि एक नेटवर्क उपयुक्त कार्रवाई की भविष्यवाणी करता है और दूसरा नेटवर्क बेलमैन त्रुटि खोजने के …

2
फ़ंक्शन सन्निकटन का उपयोग करते समय क्यू-लर्निंग अभिसरण क्यों नहीं करता है?
सारणीबद्ध क्यू-लर्निंग एल्गोरिदम को इष्टतम खोजने की गारंटी है क्यूक्यूQ समारोह, Q*Q*Q^*, बशर्ते कि सीखने की दर के बारे में निम्नलिखित स्थितियां ( रॉबिंस-मोनरो स्थितियां ) संतुष्ट हों Σटीαटी( एस , एक ) = ∞∑टीαटी(रों,ए)=∞\sum_{t} \alpha_t(s, a) = \infty Σटीα2टी(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty कहाँ पे αt(s,a)αt(s,a)\alpha_t(s, a) इसका मतलब …

3
REINFORCE एल्गोरिथ्म में छूट की दर दो बार क्यों दिखाई देती है?
मैं रेनफोर्स लर्निंग: एन इंट्रोडक्शन बाय रिचर्ड एस सटन और एंड्रयू जी बार्टो (पूरा मसौदा, 5 नवंबर, 2017) किताब पढ़ रहा था । पृष्ठ 271 पर, एपिसोडिक मोंटे-कार्लो पॉलिसी-ग्रैडिएंट विधि के लिए छद्म कोड प्रस्तुत किया गया है। इस छद्म कोड को देखकर मैं समझ नहीं पा रहा हूं कि …

1
एमएल / आरएल समुदाय में एक अप-टू-डेट शोधकर्ता कैसे रहें?
एक छात्र के रूप में जो मशीन लर्निंग पर काम करना चाहता है, मैं यह जानना चाहूंगा कि मेरी पढ़ाई शुरू करना कैसे संभव है और अप-टू-डेट रहने के लिए इसका पालन कैसे करें। उदाहरण के लिए, मैं आरएल और एमएबी समस्याओं पर काम करने के लिए तैयार हूं, लेकिन …

1
कई निरंतर क्रियाओं के मामले में पॉलिसी ग्रेडिएंट कैसे लागू किया जा सकता है?
विश्वसनीय क्षेत्र नीति अनुकूलन (TRPO) और समीपस्थ नीति अनुकूलन (PPO) दो अत्याधुनिक नीति-विन्यास एल्गोरिदम हैं। एक एकल निरंतर कार्रवाई का उपयोग करते समय, सामान्य रूप से, आप हानि फ़ंक्शन के लिए कुछ प्रायिकता वितरण (उदाहरण के लिए, गाऊसी) का उपयोग करेंगे। मोटा संस्करण है: एल ( θ ) = लॉग( …

3
यदि पर्यावरण भी स्टोकेस्टिक है तो क्या इष्टतम नीति हमेशा स्टोकेस्टिक है?
क्या इष्टतम नीति हमेशा स्टोचस्टिक है (अर्थात, राज्यों से एक नक्शा जो क्रियाओं पर संभाव्यता वितरण के लिए है) यदि पर्यावरण भी स्टोचस्टिक है? अंतःक्रियात्मक रूप से, यदि पर्यावरण नियतात्मक है (अर्थात, यदि एजेंट राज्य में हैsss और कार्रवाई करता है aaa, फिर अगला राज्य s′s′s' हमेशा समान होता है, …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.