temporal-difference पर टैग किए गए जवाब

2
टेम्पोरल अंतर वाले मोंटे कार्लो तरीकों को कब पसंद किया जाता है?
मैं हाल ही में सुदृढीकरण सीखने के बारे में बहुत शोध कर रहा हूं। मैंने सटन और बार्टो के सुदृढीकरण सीखना का अनुसरण किया : इसमें से अधिकांश के लिए एक परिचय । मुझे पता है कि मार्कोव निर्णय प्रक्रियाएं क्या हैं और उन्हें हल करने के लिए डायनेमिक प्रोग्रामिंग …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.