प्रसंग: SysID और उस व्यक्ति को नियंत्रित करता है जो ML में मिला है।
मुझे लगता है कि user110686 का जवाब कुछ अंतरों को समझाने का एक अच्छा काम करता है। SysID जरूरी इनपुट / आउटपुट डेटा से गतिशील मॉडल के बारे में है, जबकि एमएल समस्याओं की एक व्यापक श्रेणी को कवर करता है। लेकिन सबसे बड़ा अंतर जो मुझे दिखाई देता है वह है (ए) मेमोरी (मापदंडों की संख्या); (बी) "सीखा" मॉडल का अंत उपयोग। सिस्टम आइडेंटिफिकेशन फ्रीक्वेंसी डोमेन रिप्रेजेंटेशन, टाइम-फ्रीक्वेंसी एनालिसिस आदि को देखते हुए सिग्नल प्रोसेसिंग का तरीका है। कुछ एमएल लोग इसे "फीचर इंजीनियरिंग" कहते हैं।
(एक याद:एक अनुसंधान क्षेत्र के आकार के रूप में SysID एमएल से पहले प्रमुख बन गया। इसलिए आंकड़े और सिग्नल प्रोसेसिंग सैद्धांतिक नींव के लिए प्राथमिक आधार थे, और गणना डर गई थी। इसलिए, लोगों ने बहुत ही साधारण श्रेणी के मॉडल (बायस-वेरिएंस ट्रेडऑफ) के साथ बहुत कम मापदंडों के साथ काम किया। हम ज्यादातर 30-40 मापदंडों और ज्यादातर रैखिक मॉडल पर बात कर रहे हैं, यहां तक कि उन मामलों के लिए जहां लोग स्पष्ट रूप से जानते हैं कि समस्या गैर-रैखिक है। हालाँकि, अब गणना बहुत सस्ती है, लेकिन SysID अभी तक अपने खोल से बाहर नहीं आया है। लोगों को यह महसूस करना शुरू करना चाहिए कि हमारे पास अभी बहुत बेहतर सेंसर हैं, आसानी से बहुत अमीर मॉडल सेट के साथ अधिकतम मापदंडों का अनुमान लगा सकते हैं। कुछ शोधकर्ताओं ने SysID के लिए तंत्रिका नेटवर्क का उपयोग करने का प्रयास किया है, लेकिन कई इसे "मुख्यधारा" के रूप में स्वीकार करने के लिए अनिच्छुक लगते हैं क्योंकि कई सैद्धांतिक गारंटी नहीं हैं।
(b) सीखे हुए मॉडल का अंतिम उपयोग: अब यह एक बात है SysID बहुत सही हो गया है, लेकिन कई एमएल एल्गोरिदम कैप्चर करने में विफल रहते हैं। यह पहचानना महत्वपूर्ण है कि लक्ष्य अनुप्रयोगों के लिए, आप आवश्यक रूप से ऐसे मॉडल का निर्माण कर रहे हैं जिनका उपयोग ऑनलाइन अनुकूलन के लिए प्रभावी रूप से किया जा सकता है ।इन मॉडलों का उपयोग किए गए किसी भी नियंत्रण निर्णय को प्रचारित करने के लिए किया जाएगा, और इसे एक इष्टतम नियंत्रण समस्या के रूप में स्थापित करते समय, मॉडल बाधा बन जाते हैं। इसलिए जब एक अत्यंत जटिल मॉडल संरचना का उपयोग किया जाता है, तो यह ऑनलाइन अनुकूलन को और अधिक कठिन बना देता है। यह भी ध्यान दें कि ये ऑनलाइन निर्णय सेकंड या उससे कम के पैमाने में किए गए हैं। एक वैकल्पिक प्रस्ताव इष्टतम नियंत्रण के लिए ऑफ-पॉलिसी तरीके से सीधे मूल्य समारोह सीखना है। यह मूल रूप से सुदृढीकरण सीखने है, और मुझे लगता है कि SIDID और RL के बीच अच्छा तालमेल है।