जब मैं सुदृढीकरण सीखना बनाम पीआईडी ​​नियंत्रण का उपयोग करना चाहिए?


12

OpenAIGym पर लूनर लैंडर जैसी समस्याओं के समाधान को डिजाइन करते समय , सुदृढीकरण सीखना एजेंट को सफलतापूर्वक भूमि पर पर्याप्त कार्रवाई नियंत्रण देने का एक लुभावना साधन है।

लेकिन ऐसे कौन से उदाहरण हैं जिनमें नियंत्रण प्रणाली एल्गोरिदम, जैसे कि पीआईडी ​​नियंत्रक , सिर्फ एक पर्याप्त काम करेंगे, जैसे कि सुदृढीकरण सीखना से बेहतर नहीं है?

इस तरह के प्रश्न इस प्रश्न के सिद्धांत को संबोधित करने में बहुत अच्छा काम करते हैं, लेकिन व्यावहारिक घटक को संबोधित करने के लिए बहुत कम करते हैं।

आर्टिफिशियल इंटेलिजेंस इंजीनियर के रूप में, एक समस्या डोमेन के किन तत्वों को मुझे सुझाव देना चाहिए कि एक पीआईडी ​​नियंत्रक एक समस्या को हल करने के लिए अपर्याप्त है, और एक सुदृढीकरण लर्निंग एल्गोरिदम का उपयोग किया जाना चाहिए (या इसके विपरीत)?


पीआईडी ​​के बारे में मेरे पास जो मूल विचार है, वह कहता है कि इसका डिज़ाइन आसान नहीं है। इसमें बहुत सारे अभिन्न और अंतर शामिल हैं। तो यह मूल रूप से एक ही विचार है जब आप आंकड़े को एमएल दृष्टिकोण के साथ बदलते हैं। नियंत्रण प्रणाली निश्चित रूप से निर्दोष है, लेकिन यह बहुत अधिक काम है।
दत्ता

2
वास्तव में यह बहुत ज्यादा काम नहीं है, उद्योग में इसका सुंदर मानक, MATLAB जैसे आधुनिक सिस्टम डिजाइन टूल का उपयोग करके आप अपनी आवश्यकताओं को पूरा करने के लिए पीआईडी ​​या किसी अन्य नियंत्रक को अपेक्षाकृत आसान बना सकते हैं। सुदृढीकरण सीखने को व्यवहार में लागू नहीं किया जाता है क्योंकि इसमें डेटा की प्रचुरता की आवश्यकता होती है और कोई सैद्धांतिक गारंटी नहीं होती है जैसे कि क्लासिक नियंत्रण सिद्धांत के लिए है। वैसे, कंटोलर डिज़ाइन में इंटीग्रल /
डिफरेंशियल के

@Brale_ लेकिन इसमें अभी भी बहुत सारे सैद्धांतिक ज्ञान शामिल हैं। लैपल डोमेन केवल अंतर को सरल करता है, लेकिन आपको यह जानना होगा कि चीजों (डंडे और शून्य) को कैसे डिज़ाइन किया जाए, ताकि सिस्टम अस्थिर न हो। मेरे लिए यह कल्पना करना बहुत कठिन है कि वे चीजें वास्तव में कैसे काम करती हैं।
दत्ता

2
अंगूठे के एक अच्छे नियम के रूप में जिसने मुझे पिछली परियोजनाओं में मदद की, यदि आप कुछ वाक्यों में इष्टतम नीति (पीआईडी, आरएल, या अन्यथा) की व्याख्या नहीं कर सकते हैं, तो पीआईडी ​​वास्तव में बहुत कठिन होगा। Pacman के लिए इष्टतम नीति क्या है?
जेडन Travnik

जवाबों:


5

मुझे लगता है कि टिप्पणियां मूल रूप से सही रास्ते पर हैं।

पीआईडी ​​नियंत्रक निरंतर गतिशील प्रणालियों में इष्टतम नीतियों को खोजने के लिए उपयोगी होते हैं, और अक्सर इन डोमेन का उपयोग आरएल के लिए बेंचमार्क के रूप में भी किया जाता है, ठीक है क्योंकि एक आसानी से व्युत्पन्न इष्टतम नीति है। हालाँकि, व्यवहार में, आप स्पष्ट रूप से किसी भी डोमेन के लिए एक पीआईडी ​​नियंत्रक पसंद करेंगे जिसमें आप आसानी से एक डिजाइन कर सकते हैं: नियंत्रक के व्यवहार को अच्छी तरह से समझा जाता है, जबकि आरएल समाधान अक्सर व्याख्या करना मुश्किल होता है।

जहाँ RL चमकता है उन कार्यों में जहाँ हम जानते हैं कि अच्छा व्यवहार कैसा दिखता है (यानी, हम इनाम समारोह को जानते हैं), और हम जानते हैं कि सेंसर इनपुट क्या दिखते हैं (यानी हम किसी दिए गए राज्य को पूरी तरह से और सही तरीके से बता सकते हैं), लेकिन हमारे पास बहुत कम है या कोई विचार नहीं है कि हम वास्तव में क्या चाहते हैं कि एजेंट उन पुरस्कारों को प्राप्त कर सकें।

यहाँ एक अच्छा उदाहरण है:

  • अगर मैं एक दुश्मन के विमान के सामने से जाने वाले आंदोलन के पैटर्न के साथ एक विमान को चालित करने के लिए एक एजेंट बनाना चाहता था , तो कम से कम ईंधन का उपयोग करके, मैं एक पीआईडी ​​नियंत्रक का उपयोग करना पसंद करूंगा ।

  • अगर मैं एक विमान को नियंत्रित करने के लिए एक एजेंट बनाना चाहता था और दुश्मन के विमान को नीचे उतारने के लिए पर्याप्त ईंधन के साथ भूमि पर छोड़ दिया था, लेकिन दुश्मन विमान पर हमला कैसे हो सकता है, इसका औपचारिक विवरण के बिना (शायद एक मानव विशेषज्ञ हमारे एजेंट के खिलाफ सिमुलेशन में पायलट करेगा) , मैं आरएल को बहुत पसंद करूंगा

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.