3
हमेशा कम से कम एक नीति क्यों होती है जो अन्य सभी नीतियों से बेहतर या समान होती है?
सुदृढीकरण सीखना: एक परिचय। दूसरा संस्करण, प्रगति में , रिचर्ड एस। सटन और एंड्रयू जी। बार्टो (सी) 2012, पीपी 67-68। एक सुदृढीकरण सीखने के कार्य को हल करने का मतलब है, मोटे तौर पर, एक ऐसी नीति खोजना जो लंबे समय से अधिक इनाम प्राप्त करता है। परिमित एमडीपी के …