जैसा कि मैंने टिप्पणियों में लिखा है, यह प्रश्न मुझे बहुत व्यापक लगता है, लेकिन मैं एक उत्तर देने का प्रयास करूंगा। कुछ सीमाओं को निर्धारित करने के लिए, मैं थोड़ा गणित के साथ शुरू करूंगा जो अधिकांश एमएल को रेखांकित करता है, और फिर डीएल के लिए हाल के परिणामों पर ध्यान केंद्रित करता है।
पूर्वाग्रह-विचरण तालमेल , अनगिनत किताबें, पाठ्यक्रम, एमओओसी, ब्लॉग्स, ट्वीट, आदि एमएल पर में में जाना जाता है, ताकि हम उसे उल्लेख किए बिना शुरू नहीं कर सकते हैं:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
यहाँ सबूत: https://web.stanford.edu/~hastie/ElemStatLearn/
गॉस-मार्कोव प्रमेय (हाँ, रेखीय प्रतीपगमन मशीन लर्निंग का एक महत्वपूर्ण हिस्सा बना रहेगा, कोई क्या फर्क: इसके साथ सौदा) स्पष्ट जब रेखीय मॉडल सच है और त्रुटि अवधि पर कुछ मान्यताओं, मान्य हैं OLS कि, कम से कम है मतलब चुकता त्रुटि (जो उपरोक्त अभिव्यक्ति में सिर्फ Bias2 + Variance ) केवल रैखिक मॉडल के निष्पक्ष रेखीय अनुमानकों के बीच । इस प्रकार पूर्वाग्रह (या ग़ैर-अनुमानक अनुमानक) के साथ अच्छी तरह से रैखिक अनुमानक हो सकते हैं जिनके पास एक बेहतर माध्य वर्ग त्रुटि होती है, और इस तरह ओएलएस की तुलना में एक बेहतर अनुमानित भविष्यवाणी त्रुटि होती है। और यह सभी नियमितीकरण शस्त्रागार (रिज रिग्रेशन, LASSO, वजन क्षय, आदि) का मार्ग प्रशस्त करता है जो एमएल का एक कार्यक्षेत्र है। एक प्रमाण यहाँ दिया गया है (और अनगिनत अन्य पुस्तकों में):
https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
नियमित रूप से दृष्टिकोण के विस्फोट के लिए संभवतः अधिक प्रासंगिक है, जैसा कि कार्लोस सिनेली ने टिप्पणियों में उल्लेख किया है, और निश्चित रूप से इसके बारे में जानने के लिए अधिक मजेदार है, जेम्स-स्टीन प्रमेय है । n स्वतंत्र, एक ही विचरण पर विचार करें , लेकिन गौसियन यादृच्छिक चर के समान नहीं है :
Xi|μi∼N(θi,σ2),i=1,…,n
दूसरे शब्दों में, हमारे पास एक n− घटक गाऊसी यादृच्छिक वेक्टर । हम एक नमूना है से और हम यह अनुमान करना चाहते हैं । MLE (और भी UMVUE) अनुमानक स्पष्ट रूप से । जेम्स-स्टीन अनुमानक पर विचार करेंX∼N(θ,σ2I)xXθθ एम एल ई = एक्सθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
जाहिर है, अगर , सिकुड़ता है शून्य की ओर MLE अनुमान। जेम्स-स्टीन प्रमेय कहा गया है कि के लिए , सख्ती से हावी कम एमएसई, यानी, यह है । Pheraps आश्चर्यजनक रूप से, हम किसी अन्य निरंतर की ओर हटना भले ही , अभी भी हावी है । बाद से(n−2)σ2≤||x||2θ जम्मू एस एन ≥ 4 θ जम्मू एस θ एम एल ई ∀ θ ग ≠ 0 θ जम्मू एस θ एम एल ई एक्स मैंθ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXiस्वतंत्र हैं, यह अजीब लग सकता है कि, जब स्पेन में उत्पादित सेब की संख्या से एक नमूना सहित तीन असंबंधित व्यक्तियों की ऊंचाई का अनुमान लगाने की कोशिश हो रही है, तो औसत पर हमारे अनुमान में सुधार हो सकता है । यहां मुख्य बिंदु "औसत" है: पैरामीटर वेक्टर के सभी घटकों के एक साथ अनुमान के लिए माध्य वर्ग त्रुटि छोटी है, लेकिन एक या अधिक घटकों के लिए वर्ग त्रुटि अच्छी तरह से बड़ी हो सकती है, और वास्तव में यह अक्सर होता है, जब आपके पास "चरम" अवलोकन है।
यह पता लगाना कि MLE, जो कि वास्तव में "यूनीवेट अनुमान मामले के लिए" इष्टतम "अनुमानक था, बहुभिन्नरूपी आकलन के लिए निरूपित किया गया था, उस समय काफी झटका था, और सिकुड़न में एक बड़ी रुचि पैदा हुई, जिसे एमएल parlance में नियमितीकरण के रूप में जाना जाता है। मिश्रित मॉडल और "उधार लेने की ताकत" की अवधारणा के साथ कुछ समानताएं नोट कर सकते हैं: वास्तव में कुछ कनेक्शन है, जैसा कि यहां चर्चा की गई है
संकोचन पर एकीकृत दृष्टिकोण: स्टीन के विरोधाभास, रिज प्रतिगमन और मिश्रित मॉडल में यादृच्छिक प्रभावों के बीच क्या संबंध है (यदि कोई है)?
संदर्भ: जेम्स, डब्ल्यू।, स्टीन, सी।, द्विघात हानि के साथ अनुमान । गणितीय सांख्यिकी और संभाव्यता पर चौथा बर्कले संगोष्ठी की कार्यवाही, खंड 1: सांख्यिकी का योगदान, 361--379, कैलिफोर्निया विश्वविद्यालय प्रेस, बर्कले, कैलिफोर्निया। 1961।
प्रमुख घटक विश्लेषण आयाम में कमी के महत्वपूर्ण विषय के लिए महत्वपूर्ण है, और यह विलक्षण मूल्य अपघटन पर आधारित है : प्रत्येक वास्तविक मैट्रिक्स (हालांकि प्रमेय आसानी से जटिल मेट्रिसेस के लिए सामान्यीकृत होता है)N×pX
X=UDVT
जहां का आकार ऑर्थोगोनल है, एक विकर्ण मैट्रिक्स है, जिसके पास nonnegative विकर्ण तत्व हैं और का आकार फिर से orthogonal है। यह गणना करने के तरीके पर सबूत और एल्गोरिदम के लिए: गोलूब, जी और वैन लोन, सी। (1983), मैट्रिक्स कम्प्यूटेशंस , जॉन हॉपकिंस यूनिवर्सिटी प्रेस, बाल्टीमोर।UN×pDp×pUp×p
मर्सर का प्रमेय बहुत से अलग-अलग एमएल तरीकों के लिए पाया जाने वाला पत्थर है: पतली प्लेट के छींटे, वेक्टर मशीनों का समर्थन, गाऊसी यादृच्छिक प्रक्रिया के क्रिंगिंग अनुमान, आदि। मूल रूप से, तथाकथित कर्नेल चाल के पीछे दो प्रमेयों में से एक है । चलो एक symmmetric निरंतर समारोह या कर्नेल हो। यदि धनात्मक अर्धवृत्ताकार है, तो यह nonnegative eigenvalues के अनुरूप eigenfunctions का एक अलौकिक आधार मानता है:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
एमएल सिद्धांत के लिए इस प्रमेय के महत्व को प्रसिद्ध ग्रंथों में प्राप्त संदर्भों की संख्या द्वारा गवाही दी गई है, जैसे कि गौसियन प्रक्रियाओं पर रासमुसेन और विलियम्स पाठ ।
संदर्भ: जे। मर्सर, सकारात्मक और नकारात्मक प्रकार के कार्य, और अभिन्न समीकरण के सिद्धांत के साथ उनका संबंध। लंदन की रॉयल सोसायटी के दार्शनिक विवरण। श्रृंखला ए, एक गणितीय या भौतिक चरित्र के युक्त पत्र, 209: 415-446, 1909
कोनराड जार्गेन्स, रैखिक अभिन्न ऑपरेटरों , पिटमैन, बोस्टन, 1982 में एक सरल प्रस्तुति भी है ।
अन्य प्रमेय, जो मर्सर की प्रमेय के साथ मिलकर कर्नेल ट्रिक की सैद्धांतिक नींव देता है, रिप्रेसेंट प्रमेय है । मान लीजिए कि आपके पास एक नमूना स्थान और एक सममित सकारात्मक अर्धवृत्ताकार कर्नेल । इसके अलावा जुड़ा हो । अंत में, एक प्रशिक्षण नमूना हो। प्रमेय का कहना है कि सभी कार्यों के बीच , जो कि के eigenfunctions के संदर्भ में एक अनंत प्रतिनिधित्व मानता हैXK:X×X→RHKKS={xi,yi}ni=1f∈HKKमर्सर के प्रमेय के कारण, जो नियमित जोखिम को कम करता है, उसे हमेशा प्रशिक्षण बिंदुओं पर मूल्यांकन किए गए कर्नेल द्वारा गठित आधार में एक परिमित प्रतिनिधित्व होता है , अर्थातn
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(प्रमेय अंतिम समानता है)। सन्दर्भ: वेहबा, जी। 1990, वेधशाला डेटा के लिए तख्ते मॉडल , सियाम, फिलाडेल्फिया।
सार्वभौमिक सन्निकटन प्रमेय पहले से ही उपयोगकर्ता टोबियास Windisch द्वारा उद्धृत किया गया है और की तुलना में यह कार्यात्मक विश्लेषण करने के लिए है बहुत कम मशीन लर्निंग के लिए प्रासंगिक है, भले ही वह एक पहली नजर में तो ऐसा नहीं लगता हो सकता है। समस्या यह है कि प्रमेय केवल यह कहता है कि ऐसा नेटवर्क मौजूद है, लेकिन:
- यह छिपी हुई परत के आकार और लक्ष्य फ़ंक्शन की जटिलता के कुछ माप के बीच कोई संबंध नहीं देता है , जैसे कि उदाहरण कुल भिन्नता। यदि और को एक निश्चित त्रुटि के लिए आवश्यक तेजी से साथ बढ़ता है , तो एकल छिपी परत तंत्रिका। नेटवर्क बेकार हो जाएगा।Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- अगर नेटवर्क सीखने योग्य है तो यह नहीं कहता । दूसरे शब्दों में मान लेते हैं कि दिए गए और , हम जानते हैं कि एक आकार एनएन के लगभग बराबर होगी hypercube में आवश्यक सहिष्णुता के साथ। फिर आकार प्रशिक्षण सेट और एक सीखने की प्रक्रिया जैसे उदाहरण के लिए बैक-प्रॉप का उपयोग करके, क्या हमारे पास कोई गारंटी है कि को बढ़ाकर हम को पुनर्प्राप्त कर सकते हैं ?F(x)एफ ϵ एन एफ एम एम एफfϵNfMMF
- अंत में, और उन सभी से भी बदतर, यह तंत्रिका नेटवर्क की भविष्यवाणी त्रुटि के बारे में कुछ नहीं कहता है। हम वास्तव में जो रुचि रखते हैं, वह भविष्यवाणी त्रुटि का एक अनुमान है, कम से कम आकार सभी प्रशिक्षण सेटों पर औसत है । प्रमेय इस संबंध में मदद नहीं करता है।M
इस प्रमेय के हॉर्निक संस्करण के साथ एक छोटा दर्द बिंदु यह है कि यह ReLU सक्रियण कार्यों के लिए नहीं है। हालांकि, बार्टलेट ने एक विस्तारित संस्करण साबित किया है जो इस अंतर को कवर करता है।
अब तक, मुझे लगता है कि मुझे लगता है कि सभी प्रमेयों को अच्छी तरह से जाना जाता था। तो अब यह मजेदार सामान के लिए समय है :-) आइए देखते हैं कुछ डीप लर्निंग प्रमेय:
मान्यताओं:
- गहरी तंत्रिका नेटवर्क (फिक्स्ड , फ़ंक्शन है जो तंत्रिका नेटवर्क के इनपुट को अपने आउटपुट के साथ जोड़ती है) और नियमितीकरण हानि दोनों ही सकारात्मक रूप से हैं एक ही डिग्री के सजातीय कार्यΦ(X,W)WΦW(X)Θ(W)
- हानि समारोह उत्तल है और एक बार में एक अलग सेट में एक अलग सेट हैL(Y,Φ(X,W)XS
फिर:
- लिए कोई भी स्थानीय न्यूनतम जैसे कि सबनेटवर्क में शून्य वज़न है, एक वैश्विक न्यूनतम ( प्रमेय 1 ) हैL(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- एक महत्वपूर्ण नेटवर्क आकार के ऊपर, स्थानीय वंश हमेशा किसी भी आरंभीकरण ( प्रमेय 2 ) से वैश्विक न्यूनतम में परिवर्तित होगा ।
यह बहुत दिलचस्प है: CNNs ने केवल दृढ़ परतों, ReLU, अधिकतम-पूलिंग, पूरी तरह से जुड़े हुए ReLU और रैखिक परतों को सकारात्मक रूप से समरूप कार्य किया है, जबकि यदि हम सिग्मॉइड सक्रियण कार्यों को शामिल करते हैं, तो यह अब सच नहीं है, जो आंशिक रूप से बेहतर समझा सकता है सिग्मोइड के संबंध में ReLU + अधिकतम पूलिंग के कुछ अनुप्रयोगों में प्रदर्शन। क्या अधिक है, प्रमेय केवल पकड़ अगर भी सकारात्मक रूप से एक ही डिग्री के में रूप में सजातीय है । अब, मज़ा तथ्य यह है कि है या नियमितीकरण, हालांकि सकारात्मक सजातीय, का एक ही डिग्री की जरूरत नहीं है (की डिग्रीΘWΦl1l2ΦΦ, सरल सीएनएन मामले में पहले उल्लेख किया गया है, परतों की संख्या के साथ बढ़ता है)। इसके बजाय, इस तरह के बैच सामान्य और पथ-SGD के रूप में और अधिक आधुनिक नियमितीकरण तरीके के रूप में एक ही डिग्री के एक सकारात्मक सजातीय नियमितीकरण के संगत होती करना , और छोड़ने वालों की है, जबकि वास्तव में इस ढांचे फिटिंग नहीं है, यह करने के लिए मजबूत समानता रखती है। यह समझा सकता है कि, CNNs के साथ उच्च सटीकता प्राप्त करने के लिए, और नियमितीकरण पर्याप्त नहीं हैं, लेकिन हमें सभी प्रकार के शैतानी चालों को नियोजित करने की आवश्यकता है, जैसे ड्रॉपआउट और बैच सामान्यीकरण! मेरे ज्ञान का सबसे अच्छा करने के लिए, यह बैच सामान्यीकरण की प्रभावकारिता की व्याख्या करने के लिए निकटतम बात है, जो अन्यथा बहुत अस्पष्ट है, जैसा कि अल रहीमी ने अपनी बात में सही ढंग से उल्लेख किया है।Φl1l2
एक और अवलोकन, जो कुछ लोग प्रमेय 1 के आधार पर करते हैं , वह यह है कि यह बता सकता है कि मृत न्यूरॉन्स की समस्या के साथ भी क्यों ReLU अच्छा काम करता है । इस अंतर्ज्ञान के अनुसार, तथ्य यह है कि, प्रशिक्षण के दौरान, कुछ ReLU न्यूरॉन्स "मर जाते हैं" (शून्य सक्रियण पर जाएं और फिर कभी इससे उबरें नहीं, क्योंकि लिए ReLU का ढाल शून्य है) "एक विशेषता है, बग नहीं ", क्योंकि अगर हम एक न्यूनतम तक पहुँच गए हैं और एक पूर्ण उप-नेटवर्क की मृत्यु हो गई है, तो हम काफी हद तक एक वैश्विक न्यूनतम ( प्रमेय के सिद्धांत के तहत) तक पहुँच चुके हैं 1x<0)। मुझे कुछ याद आ रहा है, लेकिन मुझे लगता है कि यह व्याख्या दूर की कौड़ी है। सबसे पहले, प्रशिक्षण के दौरान ReLUs एक स्थानीय न्यूनतम तक पहुँचने से पहले अच्छी तरह से "मर" सकते हैं। दूसरे, यह साबित करना होगा कि जब ReLU इकाइयां "मर" जाती हैं, तो वे हमेशा इसे पूरी तरह से उप-नेटवर्क्स पर करते हैं: एकमात्र मामला जहां यह तुच्छ रूप से सच है, जब आपके पास सिर्फ एक छिपी हुई परत होती है, तो निश्चित रूप से प्रत्येक एकल के मामले में एक सबनेटवर्क। लेकिन सामान्य तौर पर मैं "मृत न्यूरॉन्स" को एक अच्छी चीज के रूप में देखने में बहुत सतर्क रहूंगा।
संदर्भ:
बी। हाइफ़ेल और आर। विडाल, तंत्रिका नेटवर्क प्रशिक्षण में वैश्विक इष्टतमता, कंप्यूटर विजन और पैटर्न मान्यता पर 2017 में IEEE सम्मेलन में।
बी। हैफेल और आर। विडाल। टेंसर फैक्टराइजेशन, डीप लर्निंग और उससे परे , अर्क्सिव, एबीएस / 1506.07540, 2015 में वैश्विक अनुकूलता ।
छवि वर्गीकरण के लिए सीखने के अभ्यावेदन की आवश्यकता होती है जो विभिन्न परिवर्तनों जैसे स्थान, मुद्रा, दृष्टिकोण, प्रकाश, अभिव्यक्ति आदि के लिए अपरिवर्तनीय (या कम से कम मजबूत, अर्थात बहुत कमजोर संवेदनशील) हैं, जो आमतौर पर प्राकृतिक छवियों में मौजूद होते हैं, लेकिन इनमें जानकारी नहीं होती है वर्गीकरण कार्य के लिए। भाषण पहचान के लिए एक ही बात: पिच, मात्रा, गति, उच्चारण में परिवर्तन। आदि शब्द के वर्गीकरण में परिवर्तन नहीं होना चाहिए। CNNs में प्रयुक्त कनवल्शन, मैक्स पूलिंग, एवरेज पूलिंग आदि जैसे ऑपरेशंस का बिल्कुल यही लक्ष्य होता है, इसलिए सहजता से हम उम्मीद करते हैं कि वे इन अनुप्रयोगों के लिए काम करेंगे। लेकिन क्या हमारे पास इस अंतर्ज्ञान का समर्थन करने के लिए प्रमेय है? एक लंबवत अनुवाद अदर्शनशील प्रमेय है, जो नाम के बावजूद, ऊर्ध्वाधर दिशा में अनुवाद से कोई लेना-देना नहीं है, लेकिन यह मूल रूप से एक परिणाम है जो कहता है कि निम्न परतों में सीखी गई विशेषताएं अधिक से अधिक अपरिवर्तनीय होती हैं, क्योंकि परतों की संख्या बढ़ती है। यह एक पुराने क्षैतिज अनुवाद इनवेरियन प्रमेय के विरोध में है जो कि बिखरने वाले नेटवर्क के लिए है, लेकिन सीएनएन के लिए नहीं । प्रमेय बहुत ही तकनीकी है, हालांकि:
- मान (आपकी इनपुट छवि) वर्ग-पूर्णांक हैf
- मान लें कि आपका फ़िल्टर ट्रांसलेशन ऑपरेटर , जो इनपुट इमेज को खुद की अनुवादित कॉपी में । एक सीखा हुआ सजा कर्नेल (फ़िल्टर) इस परिकल्पना को संतुष्ट करता है।TtfTtf
- अपने नेटवर्क में सभी फ़िल्टर्स, नॉनलाइनियरिटीज़ और पूलिंग को मान लें , जो एक तथाकथित कमजोर स्वीकार्यता की स्थिति को संतुष्ट करते हैं , जो मूल रूप से कमजोर नियमितता और बाध्यता की स्थिति है। ये स्थितियां सीखे हुए कन्वर्सेशन कर्नेल (जब तक कि प्रत्येक परत पर कुछ सामान्यीकरण ऑपरेशन किया जाता है), ReLU, सिग्मॉइड, टैन, आदि, नॉनलाइनरिटीज़ और औसत पूलिंग द्वारा संतुष्ट हो जाते हैं, लेकिन अधिकतम-पूलिंग द्वारा नहीं । तो यह कुछ (सभी नहीं) वास्तविक दुनिया CNN आर्किटेक्चर को कवर करता है।
- अंत में मान लें कि प्रत्येक लेयर में एक पूलिंग फैक्टर , अर्थात, प्रत्येक लेयर में पूलिंग लागू की जाती है और प्रभावी रूप से सूचनाओं को करती है। शर्त भी प्रमेय के कमजोर संस्करण के लिए पर्याप्त होगी।nSn>1Sn≥1
इनपुट के होने पर CNN के लेयर के आउटपुट के साथ संकेत मिलता है । फिर अंत में:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(ट्रिपल बार एक त्रुटि नहीं हैं) जिसका मूल अर्थ है कि प्रत्येक परत उन विशेषताओं को सीखती है जो अधिक से अधिक अपरिवर्तनीय बन जाती हैं, और एक असीम रूप से गहरे नेटवर्क की सीमा में हमारे पास एक पूरी तरह से अपरिवर्तनीय वास्तुकला है। चूंकि सीएनएन में परतों की एक सीमित संख्या होती है, वे पूरी तरह से अनुवाद-अपरिवर्तनीय नहीं होते हैं, जो चिकित्सकों के लिए अच्छी तरह से जाना जाता है।
संदर्भ: टी। विवातोस्की और एच। बोलस्केकी, फ़ीचर एक्सट्रैक्शन के लिए दीप कन्वोकेशनल न्यूरल नेटवर्क्स का एक गणितीय सिद्धांत , arXiv: 1512.06293v3 ।
निष्कर्ष निकालने के लिए, अपने Vapnik-Chervonkensis आयाम के आधार पर एक डीप न्यूरल नेटवर्क की सामान्यीकरण त्रुटि के लिए कई सीमाएँ या रेडीमैकर जटिलता मापदंडों की संख्या (कुछ भी तेज़ी से) के साथ बढ़ती हैं, जो यह नहीं समझा सकते हैं कि DNN इतनी अच्छी तरह से क्यों काम करते हैं व्यवहार में भी जब मापदंडों की संख्या प्रशिक्षण नमूनों की संख्या से काफी बड़ी है। वास्तव में, डीप लर्निंग में वीसी सिद्धांत बहुत उपयोगी नहीं है।
इसके विपरीत, पिछले वर्ष के कुछ परिणाम एक DNN क्लासिफायर के सामान्यीकरण त्रुटि को एक मात्रा के साथ बाध्य करते हैं जो तंत्रिका नेटवर्क की गहराई और आकार से स्वतंत्र है, लेकिन केवल प्रशिक्षण सेट और इनपुट स्थान की संरचना पर निर्भर करता है। सीखने की प्रक्रिया पर कुछ सुंदर तकनीकी मान्यताओं के तहत, और प्रशिक्षण सेट और इनपुट स्थान पर, लेकिन DNN पर बहुत कम मान्यताओं के साथ (विशेष रूप से, CNN पूरी तरह से कवर होते हैं), तो कम से कम , हमारे पास है1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
कहाँ पे:
- GE सामान्यीकरण त्रुटि है, जो अपेक्षित नुकसान (सभी संभावित परीक्षण बिंदुओं पर सीखा क्लासिफायर का औसत नुकसान) और अनुभवजन्य हानि (बस अच्छे ol 'प्रशिक्षण सेट त्रुटि) के बीच अंतर के रूप में परिभाषित किया गया है
- Ny वर्गों की संख्या है
- m प्रशिक्षण सेट का आकार है
- Nγ डेटा की कवरिंग संख्या , इनपुट स्पेस की संरचना से संबंधित एक मात्रा और प्रशिक्षण सेट में विभिन्न वर्गों के बिंदुओं के बीच न्यूनतम पृथक्करण है। संदर्भ:
जे। सोकोलिक, आर। गिरीस, जी। सैपिरो और एम। रोड्रिग्स। अपरिवर्तनीय सहपाठियों की सामान्यीकरण त्रुटि । AISTATS, 2017 में