OpenAIGym पर लूनर लैंडर जैसी समस्याओं के समाधान को डिजाइन करते समय , सुदृढीकरण सीखना एजेंट को सफलतापूर्वक भूमि पर पर्याप्त कार्रवाई नियंत्रण देने का एक लुभावना साधन है।
लेकिन ऐसे कौन से उदाहरण हैं जिनमें नियंत्रण प्रणाली एल्गोरिदम, जैसे कि पीआईडी नियंत्रक , सिर्फ एक पर्याप्त काम करेंगे, जैसे कि सुदृढीकरण सीखना से बेहतर नहीं है?
इस तरह के प्रश्न इस प्रश्न के सिद्धांत को संबोधित करने में बहुत अच्छा काम करते हैं, लेकिन व्यावहारिक घटक को संबोधित करने के लिए बहुत कम करते हैं।
आर्टिफिशियल इंटेलिजेंस इंजीनियर के रूप में, एक समस्या डोमेन के किन तत्वों को मुझे सुझाव देना चाहिए कि एक पीआईडी नियंत्रक एक समस्या को हल करने के लिए अपर्याप्त है, और एक सुदृढीकरण लर्निंग एल्गोरिदम का उपयोग किया जाना चाहिए (या इसके विपरीत)?