2
टेम्पोरल अंतर वाले मोंटे कार्लो तरीकों को कब पसंद किया जाता है?
मैं हाल ही में सुदृढीकरण सीखने के बारे में बहुत शोध कर रहा हूं। मैंने सटन और बार्टो के सुदृढीकरण सीखना का अनुसरण किया : इसमें से अधिकांश के लिए एक परिचय । मुझे पता है कि मार्कोव निर्णय प्रक्रियाएं क्या हैं और उन्हें हल करने के लिए डायनेमिक प्रोग्रामिंग …