reinforcement-learning पर टैग किए गए जवाब

गतिशील रणनीतियों का एक सेट, जिसके द्वारा एक एल्गोरिथ्म अलग-अलग पुरस्कारों से जुड़े कार्यों को अनुकूल तरीके से ऑनलाइन करके पर्यावरण की संरचना को सीख सकता है ताकि अर्जित किए गए पुरस्कारों को अधिकतम किया जा सके।

1
सुदृढीकरण लर्निंग एल्गोरिदम पर अवलोकन
मैं वर्तमान में सुदृढीकरण सीखना एल्गोरिदम पर एक अवलोकन की तलाश कर रहा हूं और शायद उनका वर्गीकरण। लेकिन सरसा और क्यू-लर्निंग + डीप क्यू-लर्निंग के आगे मुझे वास्तव में कोई लोकप्रिय एल्गोरिदम नहीं मिल सकता है। विकिपीडिया मुझे अलग-अलग सामान्य सुदृढीकरण सीखने के तरीकों पर एक अवलोकन देता है …

2
गैर स्थिर वातावरण में सुदृढीकरण सीखना [बंद]
बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 24 दिन पहले …

4
मैं एक कॉक्स खतरा मॉडल उत्तरजीविता वक्र की व्याख्या कैसे करूं?
आप कॉक्स आनुपातिक खतरे वाले मॉडल से उत्तरजीविता वक्र की व्याख्या कैसे करते हैं? इस खिलौना उदाहरण में, मान लें कि हमारे पास डेटा ageमें परिवर्तनशील पर एक कॉक्स आनुपातिक खतरा मॉडल है kidney, और उत्तरजीविता वक्र उत्पन्न करता है। library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() उदाहरण …

1
जब एक आउटपुट यूनिट प्रति एक्शन होती है तो न्यूरल नेटवर्क्स के साथ क्यू-लर्निंग कितना कुशल होता है?
पृष्ठभूमि: मैं अपने सुदृढीकरण सीखने के कार्य में तंत्रिका नेटवर्क क्यू-मूल्य सन्निकटन का उपयोग कर रहा हूं। दृष्टिकोण बिल्कुल वैसा ही है जैसा कि इस प्रश्न में वर्णित है , हालांकि यह प्रश्न ही अलग है। इस दृष्टिकोण में आउटपुट की संख्या उन कार्यों की संख्या है जो हम ले …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.