जब मैं सुदृढीकरण सीखना बनाम पीआईडी नियंत्रण का उपयोग करना चाहिए?

OpenAIGym पर लूनर लैंडर जैसी समस्याओं के समाधान को डिजाइन करते समय , सुदृढीकरण सीखना एजेंट को सफलतापूर्वक भूमि पर पर्याप्त कार्रवाई नियंत्रण देने का एक लुभावना साधन है।

लेकिन ऐसे कौन से उदाहरण हैं जिनमें नियंत्रण प्रणाली एल्गोरिदम, जैसे कि पीआईडी नियंत्रक , सिर्फ एक पर्याप्त काम करेंगे, जैसे कि सुदृढीकरण सीखना से बेहतर नहीं है?

इस तरह के प्रश्न इस प्रश्न के सिद्धांत को संबोधित करने में बहुत अच्छा काम करते हैं, लेकिन व्यावहारिक घटक को संबोधित करने के लिए बहुत कम करते हैं।

आर्टिफिशियल इंटेलिजेंस इंजीनियर के रूप में, एक समस्या डोमेन के किन तत्वों को मुझे सुझाव देना चाहिए कि एक पीआईडी नियंत्रक एक समस्या को हल करने के लिए अपर्याप्त है, और एक सुदृढीकरण लर्निंग एल्गोरिदम का उपयोग किया जाना चाहिए (या इसके विपरीत)?

reinforcement-learning ai-design control-theory

— SeeDerekEngineer
स्रोत

पीआईडी के बारे में मेरे पास जो मूल विचार है, वह कहता है कि इसका डिज़ाइन आसान नहीं है। इसमें बहुत सारे अभिन्न और अंतर शामिल हैं। तो यह मूल रूप से एक ही विचार है जब आप आंकड़े को एमएल दृष्टिकोण के साथ बदलते हैं। नियंत्रण प्रणाली निश्चित रूप से निर्दोष है, लेकिन यह बहुत अधिक काम है।

— दत्ता

वास्तव में यह बहुत ज्यादा काम नहीं है, उद्योग में इसका सुंदर मानक, MATLAB जैसे आधुनिक सिस्टम डिजाइन टूल का उपयोग करके आप अपनी आवश्यकताओं को पूरा करने के लिए पीआईडी या किसी अन्य नियंत्रक को अपेक्षाकृत आसान बना सकते हैं। सुदृढीकरण सीखने को व्यवहार में लागू नहीं किया जाता है क्योंकि इसमें डेटा की प्रचुरता की आवश्यकता होती है और कोई सैद्धांतिक गारंटी नहीं होती है जैसे कि क्लासिक नियंत्रण सिद्धांत के लिए है। वैसे, कंटोलर डिज़ाइन में इंटीग्रल /

— डिफरेंशियल के

@Brale_ लेकिन इसमें अभी भी बहुत सारे सैद्धांतिक ज्ञान शामिल हैं। लैपल डोमेन केवल अंतर को सरल करता है, लेकिन आपको यह जानना होगा कि चीजों (डंडे और शून्य) को कैसे डिज़ाइन किया जाए, ताकि सिस्टम अस्थिर न हो। मेरे लिए यह कल्पना करना बहुत कठिन है कि वे चीजें वास्तव में कैसे काम करती हैं।

— दत्ता

अंगूठे के एक अच्छे नियम के रूप में जिसने मुझे पिछली परियोजनाओं में मदद की, यदि आप कुछ वाक्यों में इष्टतम नीति (पीआईडी, आरएल, या अन्यथा) की व्याख्या नहीं कर सकते हैं, तो पीआईडी वास्तव में बहुत कठिन होगा। Pacman के लिए इष्टतम नीति क्या है?

— जेडन Travnik

मुझे लगता है कि टिप्पणियां मूल रूप से सही रास्ते पर हैं।

पीआईडी नियंत्रक निरंतर गतिशील प्रणालियों में इष्टतम नीतियों को खोजने के लिए उपयोगी होते हैं, और अक्सर इन डोमेन का उपयोग आरएल के लिए बेंचमार्क के रूप में भी किया जाता है, ठीक है क्योंकि एक आसानी से व्युत्पन्न इष्टतम नीति है। हालाँकि, व्यवहार में, आप स्पष्ट रूप से किसी भी डोमेन के लिए एक पीआईडी नियंत्रक पसंद करेंगे जिसमें आप आसानी से एक डिजाइन कर सकते हैं: नियंत्रक के व्यवहार को अच्छी तरह से समझा जाता है, जबकि आरएल समाधान अक्सर व्याख्या करना मुश्किल होता है।

जहाँ RL चमकता है उन कार्यों में जहाँ हम जानते हैं कि अच्छा व्यवहार कैसा दिखता है (यानी, हम इनाम समारोह को जानते हैं), और हम जानते हैं कि सेंसर इनपुट क्या दिखते हैं (यानी हम किसी दिए गए राज्य को पूरी तरह से और सही तरीके से बता सकते हैं), लेकिन हमारे पास बहुत कम है या कोई विचार नहीं है कि हम वास्तव में क्या चाहते हैं कि एजेंट उन पुरस्कारों को प्राप्त कर सकें।

यहाँ एक अच्छा उदाहरण है:

अगर मैं एक दुश्मन के विमान के सामने से जाने वाले आंदोलन के पैटर्न के साथ एक विमान को चालित करने के लिए एक एजेंट बनाना चाहता था , तो कम से कम ईंधन का उपयोग करके, मैं एक पीआईडी नियंत्रक का उपयोग करना पसंद करूंगा ।
अगर मैं एक विमान को नियंत्रित करने के लिए एक एजेंट बनाना चाहता था और दुश्मन के विमान को नीचे उतारने के लिए पर्याप्त ईंधन के साथ भूमि पर छोड़ दिया था, लेकिन दुश्मन विमान पर हमला कैसे हो सकता है, इसका औपचारिक विवरण के बिना (शायद एक मानव विशेषज्ञ हमारे एजेंट के खिलाफ सिमुलेशन में पायलट करेगा) , मैं आरएल को बहुत पसंद करूंगा ।

— जॉन डकेट
स्रोत

जब मैं सुदृढीकरण सीखना बनाम पीआईडी ​​नियंत्रण का उपयोग करना चाहिए?

जब मैं सुदृढीकरण सीखना बनाम पीआईडी नियंत्रण का उपयोग करना चाहिए?