q-learning पर टैग किए गए जवाब

4
क्यू-लर्निंग परीक्षण के दौरान एप्सिलॉन-लालची का उपयोग क्यों करता है?
अटारी वीडियो गेम ( यहां ) के लिए डीप क्यू-लर्निंग पर डीपमाइंड के पेपर में , वे प्रशिक्षण के दौरान अन्वेषण के लिए एप्सिलॉन-लालची विधि का उपयोग करते हैं। इसका मतलब यह है कि जब प्रशिक्षण में एक कार्रवाई का चयन किया जाता है, तो इसे या तो उच्चतम q- …

2
क्यू-क्यू सीखने में अक्षर क्यू चुना गया था?
क्यू-क्यू के नाम पर अक्षर Q को क्यों चुना गया? अधिकांश पत्रों को एक संक्षिप्त नाम के रूप में चुना जाता है, जैसे कि नीति के लिए खड़ा होता है और मूल्य के लिए खड़ा होता है। लेकिन मुझे नहीं लगता कि Q किसी शब्द का संक्षिप्त नाम है।वीππ\pivvv

1
गहन क्यू लर्निंग में एपिसोड और एपोक के बीच अंतर क्या है?
मैं प्रसिद्ध पेपर "प्ले अटारी विथ डीप रिनफोर्स लर्निंग" ( पीडीएफ ) को समझने की कोशिश कर रहा हूं । मैं एक युग और प्रकरण के बीच के अंतर के बारे में स्पष्ट नहीं हूं । एल्गोरिथ्म , बाहरी लूप एपिसोड से अधिक है , जबकि आकृति में एक्स-एक्सिस को …

1
सुदृढीकरण लर्निंग एल्गोरिदम पर अवलोकन
मैं वर्तमान में सुदृढीकरण सीखना एल्गोरिदम पर एक अवलोकन की तलाश कर रहा हूं और शायद उनका वर्गीकरण। लेकिन सरसा और क्यू-लर्निंग + डीप क्यू-लर्निंग के आगे मुझे वास्तव में कोई लोकप्रिय एल्गोरिदम नहीं मिल सकता है। विकिपीडिया मुझे अलग-अलग सामान्य सुदृढीकरण सीखने के तरीकों पर एक अवलोकन देता है …

2
गैर स्थिर वातावरण में सुदृढीकरण सीखना [बंद]
बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 24 दिन पहले …

4
मैं एक कॉक्स खतरा मॉडल उत्तरजीविता वक्र की व्याख्या कैसे करूं?
आप कॉक्स आनुपातिक खतरे वाले मॉडल से उत्तरजीविता वक्र की व्याख्या कैसे करते हैं? इस खिलौना उदाहरण में, मान लें कि हमारे पास डेटा ageमें परिवर्तनशील पर एक कॉक्स आनुपातिक खतरा मॉडल है kidney, और उत्तरजीविता वक्र उत्पन्न करता है। library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() उदाहरण …

1
जब एक आउटपुट यूनिट प्रति एक्शन होती है तो न्यूरल नेटवर्क्स के साथ क्यू-लर्निंग कितना कुशल होता है?
पृष्ठभूमि: मैं अपने सुदृढीकरण सीखने के कार्य में तंत्रिका नेटवर्क क्यू-मूल्य सन्निकटन का उपयोग कर रहा हूं। दृष्टिकोण बिल्कुल वैसा ही है जैसा कि इस प्रश्न में वर्णित है , हालांकि यह प्रश्न ही अलग है। इस दृष्टिकोण में आउटपुट की संख्या उन कार्यों की संख्या है जो हम ले …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.