सांख्यिकी और बिग डेटा q-learning

4

क्यू-लर्निंग परीक्षण के दौरान एप्सिलॉन-लालची का उपयोग क्यों करता है?

अटारी वीडियो गेम ( यहां ) के लिए डीप क्यू-लर्निंग पर डीपमाइंड के पेपर में , वे प्रशिक्षण के दौरान अन्वेषण के लिए एप्सिलॉन-लालची विधि का उपयोग करते हैं। इसका मतलब यह है कि जब प्रशिक्षण में एक कार्रवाई का चयन किया जाता है, तो इसे या तो उच्चतम q- …

18 machine-learning reinforcement-learning q-learning deep-rl

2

क्यू-क्यू सीखने में अक्षर क्यू चुना गया था?

क्यू-क्यू के नाम पर अक्षर Q को क्यों चुना गया? अधिकांश पत्रों को एक संक्षिप्त नाम के रूप में चुना जाता है, जैसे कि नीति के लिए खड़ा होता है और मूल्य के लिए खड़ा होता है। लेकिन मुझे नहीं लगता कि Q किसी शब्द का संक्षिप्त नाम है।वीππ\pivvv

17 terminology reinforcement-learning history q-learning

1

गहन क्यू लर्निंग में एपिसोड और एपोक के बीच अंतर क्या है?

मैं प्रसिद्ध पेपर "प्ले अटारी विथ डीप रिनफोर्स लर्निंग" ( पीडीएफ ) को समझने की कोशिश कर रहा हूं । मैं एक युग और प्रकरण के बीच के अंतर के बारे में स्पष्ट नहीं हूं । एल्गोरिथ्म , बाहरी लूप एपिसोड से अधिक है , जबकि आकृति में एक्स-एक्सिस को …

14 neural-networks terminology reinforcement-learning q-learning

1

सुदृढीकरण लर्निंग एल्गोरिदम पर अवलोकन

मैं वर्तमान में सुदृढीकरण सीखना एल्गोरिदम पर एक अवलोकन की तलाश कर रहा हूं और शायद उनका वर्गीकरण। लेकिन सरसा और क्यू-लर्निंग + डीप क्यू-लर्निंग के आगे मुझे वास्तव में कोई लोकप्रिय एल्गोरिदम नहीं मिल सकता है। विकिपीडिया मुझे अलग-अलग सामान्य सुदृढीकरण सीखने के तरीकों पर एक अवलोकन देता है …

9 reinforcement-learning q-learning

2

गैर स्थिर वातावरण में सुदृढीकरण सीखना [बंद]

बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 24 दिन पहले …

9 markov-process reinforcement-learning stationarity q-learning

4

मैं एक कॉक्स खतरा मॉडल उत्तरजीविता वक्र की व्याख्या कैसे करूं?

आप कॉक्स आनुपातिक खतरे वाले मॉडल से उत्तरजीविता वक्र की व्याख्या कैसे करते हैं? इस खिलौना उदाहरण में, मान लें कि हमारे पास डेटा ageमें परिवर्तनशील पर एक कॉक्स आनुपातिक खतरा मॉडल है kidney, और उत्तरजीविता वक्र उत्पन्न करता है। library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() उदाहरण …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

जब एक आउटपुट यूनिट प्रति एक्शन होती है तो न्यूरल नेटवर्क्स के साथ क्यू-लर्निंग कितना कुशल होता है?

पृष्ठभूमि: मैं अपने सुदृढीकरण सीखने के कार्य में तंत्रिका नेटवर्क क्यू-मूल्य सन्निकटन का उपयोग कर रहा हूं। दृष्टिकोण बिल्कुल वैसा ही है जैसा कि इस प्रश्न में वर्णित है , हालांकि यह प्रश्न ही अलग है। इस दृष्टिकोण में आउटपुट की संख्या उन कार्यों की संख्या है जो हम ले …

9 machine-learning neural-networks reinforcement-learning q-learning

q-learning पर टैग किए गए जवाब