मशीन लर्निंग मॉडल की "क्षमता" क्या है?

मैं कार्ल Doersch द्वारा वैरिएंट ऑटोएन्कोडर्स पर इस ट्यूटोरियल का अध्ययन कर रहा हूं । दूसरे पृष्ठ में यह कहा गया है:

इस तरह के सबसे लोकप्रिय फ्रेमवर्क में से एक है वैरिएंट ऑटोकेनोडर [1, 3], इस ट्यूटोरियल का विषय है। इस मॉडल की धारणाएं कमजोर हैं, और बैकप्रोपैजेशन के माध्यम से प्रशिक्षण तेज है। वीएई एक सन्निकटन बनाते हैं, लेकिन इस सन्निकटन द्वारा पेश की गई त्रुटि यकीनन उच्च क्षमता वाले मॉडल से छोटी है । इन विशेषताओं ने उनकी लोकप्रियता में तेजी से वृद्धि करने में योगदान दिया है।

मैंने अतीत में उच्च क्षमता वाले मॉडल के बारे में इन प्रकार के दावों को पढ़ा है , लेकिन मुझे इसके लिए कोई स्पष्ट परिभाषा नहीं मिली है। मुझे यह संबंधित स्टैक्वोवरफ्लो प्रश्न भी मिला लेकिन मेरे लिए यह उत्तर बहुत असंतोषजनक है।

क्या एक मॉडल की क्षमता के लिए एक परिभाषा है? क्या आप इसे माप सकते हैं?

— ऐंड्रेस मारफियोटी
स्रोत

क्षमता एक अनौपचारिक शब्द है। यह मॉडल जटिलता के लिए बहुत करीब है (यदि एक पर्यायवाची नहीं है)। यह एक तरीके के बारे में बात करने का तरीका है जो एक पैटर्न या रिश्ते को कितना जटिल बना सकता है। आप उच्च क्षमता वाले मॉडल से कम क्षमता वाले मॉडल की तुलना में अधिक चर के बीच अधिक संबंधों को मॉडल करने में सक्षम होने की उम्मीद कर सकते हैं।

क्षमता की बोलचाल की परिभाषा से एक सादृश्य आरेखण, आप इसे अधिक से अधिक डेटा से सीखने के लिए एक मॉडल की क्षमता के रूप में सोच सकते हैं, जब तक कि यह पूरी तरह से जानकारी से "भरा" न हो।

क्षमता को औपचारिक रूप देने और इसके लिए एक संख्यात्मक मान की गणना करने के विभिन्न तरीके हैं, लेकिन महत्वपूर्ण रूप से ये क्षमता के सिर्फ कुछ संभव "संचालन" हैं (उसी तरह से, अगर कोई सौंदर्य की गणना करने के लिए एक सूत्र के साथ आया है, तो आप महसूस करेंगे कि सूत्र सौंदर्य की केवल एक व्याख्या योग्य व्याख्या है)।

वीसी आयाम क्षमता का एक गणितीय रूप से कठोर सूत्रीकरण है। हालांकि, एक मॉडल के वीसी आयाम और डेटा को फिट करने की मॉडल की वास्तविक क्षमता के बीच एक बड़ा अंतर हो सकता है। भले ही वीसी मंद जानना मॉडल के सामान्यीकरण त्रुटि पर एक बाध्यता देता है, यह आमतौर पर तंत्रिका नेटवर्क के साथ उपयोगी होने के लिए बहुत ढीला है।

अनुसंधान की एक अन्य पंक्ति यह देखने के लिए है कि क्षमता के माप के रूप में एक तंत्रिका नेटवर्क में भार मैट्रिक्स के वर्णक्रमीय मानदंड का उपयोग किया जाए। इसे समझने का एक तरीका यह है कि वर्णक्रमीय मान नेटवर्क के Lipschitz स्थिरांक को बांधता है।

किसी मॉडल की क्षमता का अनुमान लगाने का सबसे आम तरीका मापदंडों की संख्या की गणना करना है। अधिक पैरामीटर, सामान्य रूप से क्षमता जितनी अधिक होगी। बेशक, अक्सर एक छोटा नेटवर्क एक बड़े नेटवर्क की तुलना में अधिक जटिल डेटा को मॉडल करना सीखता है, इसलिए यह उपाय भी एकदम सही है।

क्षमता को मापने का एक और तरीका हो सकता है कि आप अपने मॉडल को यादृच्छिक लेबल ( Neyshabur et। Al ) के साथ प्रशिक्षित कर सकें - यदि आपका नेटवर्क यादृच्छिक लेबल के साथ-साथ इनपुट का एक गुच्छा ठीक से याद रख सकता है, तो यह अनिवार्य रूप से दर्शाता है कि मॉडल में उन सभी को याद रखने की क्षमता है। डेटा व्यक्तिगत रूप से इंगित करता है। अधिक इनपुट / आउटपुट जोड़े जो "सीखा" जा सकता है, उच्च क्षमता।

ऑटो-एनकोडर में इसे अपनाने से, आप यादृच्छिक इनपुट उत्पन्न कर सकते हैं, नेटवर्क को फिर से संगठित करने के लिए प्रशिक्षित कर सकते हैं, और फिर गणना कर सकते हैं कि कितने यादृच्छिक इनपुट आप सफलतापूर्वक कम से कम त्रुटि के साथ पुन: निर्मित कर सकते हैं । $\epsilon$

— Shimao
स्रोत

यह स्टैकओवरफ्लो से एक से बेहतर उत्तर है, धन्यवाद। मैं अभी भी कुछ और के लिए एक औचित्य के रूप में इस्तेमाल किया परिभाषित शर्तों को देखने के साथ कुछ परेशानी है, लेकिन मुझे लगता है कि कैसे क्षेत्र आगे बढ़ रहा है।

— एंड्रेस मारफियोटी

"मॉडल के वीसी आयाम और मॉडल की वास्तविक क्षमता के बीच एक बड़ा अंतर हो सकता है।" यह एक अत्यधिक भ्रामक कथन है क्योंकि "वास्तविक क्षमता" को ठीक से परिभाषित नहीं किया गया है। वास्तव में, वीसी आयाम एक मॉडल की क्षमता का एक अच्छा उपाय है। केवल क्योंकि तंत्रिका नेटवर्क कुछ समस्याओं को हल करने के लिए लगता है, यह उन्हें "अत्यधिक सक्षम" नहीं बनाता है। वास्तव में, ज्यादातर बार, लोगों को लगता है कि तंत्रिका नेटवर्क एक समस्या को हल कर रहे हैं, जबकि वे एक बहुत सरल समस्या को हल कर रहे हैं और, वास्तव में, वे अक्सर भयावह रूप से विफल होते हैं (क्योंकि वे एक सरल समस्या को हल करने के लिए "अप्रत्याशित रूप से प्रशिक्षित" थे)।

— नबंर