reinforcement-learning पर टैग किए गए जवाब

7
विज़ुअल इनपुट का उपयोग करके डियाब्लो 2 खेलने के लिए एक कृत्रिम तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए?
मैं वर्तमान में एक वीडियो गेम खेलने के लिए एक एएनएन प्राप्त करने की कोशिश कर रहा हूं और मैं यहां के अद्भुत समुदाय से कुछ मदद पाने की उम्मीद कर रहा था। मैं डियाब्लो 2 पर बस गया हूं। गेम प्ले इस प्रकार वास्तविक समय में और एक आइसोमेट्रिक …

4
मूल्य पुनरावृत्ति और नीति पुनरावृत्ति के बीच अंतर क्या है?
सुदृढीकरण सीखने में, नीति पुनरावृत्ति और मूल्य पुनरावृत्ति में क्या अंतर है ? जितना मैं समझता हूं, मूल्य पुनरावृत्ति में, आप इष्टतम नीति के समाधान के लिए बेलमैन समीकरण का उपयोग करते हैं, जबकि, नीति पुनरावृत्ति में, आप बेतरतीब ढंग से एक नीति π का ​​चयन करते हैं, और उस …

6
Q- लर्निंग और SARSA में क्या अंतर है?
हालांकि मुझे पता है कि एसएआरएसए ऑन-पॉलिसी है जबकि क्यू-लर्निंग ऑफ-पॉलिसी है, जब इन दोनों एल्गोरिदम के बीच किसी भी अंतर को देखने के लिए उनके सूत्रों को देखना कठिन है (मेरे लिए)। पुस्तक के अनुसार सुदृढीकरण सीखना: एक परिचय (सटन और बार्टो द्वारा)। SARSA एल्गोरिथ्म में, एक नीति दी …

1
ग्रेडिंग पॉलिसी को समझना
मैं मूल रूप से पॉलिसी ग्रैडिएंट करपैथी ब्लॉग से पॉलिसी ग्रैडिएंट के बहुत सरल उदाहरण को फिर से बनाने की कोशिश कर रहा हूं । उस कलात्मक में, आपको कार्टपोल और पॉलिसी ग्रेडिएंट के साथ वजन और सॉफ्टमैक्स सक्रियण की सूची के साथ उदाहरण मिलेगा। यहाँ कार्टपॉल नीति ढाल का …

1
TypeError: प्रतीकात्मक सेंसर के लिए लेन अच्छी तरह से परिभाषित नहीं है। (सक्रियण_3 / पहचान: 0) कृपया आकार की जानकारी के लिए `len (x)` के बजाय `x.shape` को कॉल करें।
मैं ओपनएआई जिम के एक गेम पर डीक्यूएल मॉडल लागू करने की कोशिश कर रहा हूं। लेकिन यह मुझे निम्नलिखित त्रुटि दे रहा है। TypeError: len को प्रतीकात्मक Tensors के लिए अच्छी तरह से परिभाषित नहीं किया गया है। (सक्रियण_3 / पहचान: 0) कृपया आकार की जानकारी के x.shapeबजाय कॉल …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.