सांख्यिकी और बिग डेटा temporal-difference

टेम्पोरल अंतर वाले मोंटे कार्लो तरीकों को कब पसंद किया जाता है?

मैं हाल ही में सुदृढीकरण सीखने के बारे में बहुत शोध कर रहा हूं। मैंने सटन और बार्टो के सुदृढीकरण सीखना का अनुसरण किया : इसमें से अधिकांश के लिए एक परिचय । मुझे पता है कि मार्कोव निर्णय प्रक्रियाएं क्या हैं और उन्हें हल करने के लिए डायनेमिक प्रोग्रामिंग …

12 monte-carlo reinforcement-learning temporal-difference

temporal-difference पर टैग किए गए जवाब