मशीन (डीप) लर्निंग में मुख्य प्रमेय क्या हैं?


45

अल रहीमी ने हाल ही में एनआईपीएस 2017 में एक बहुत ही उत्तेजक बात की है जिसमें वर्तमान मशीन लर्निंग की तुलना कीमिया से की गई है। उनका एक दावा यह है कि हमें सैद्धांतिक घटनाक्रमों को वापस लाने की जरूरत है, जिसमें साधारण प्रमेयों को आधारभूत परिणाम साबित करना है।

जब उन्होंने कहा कि, मैंने एमएल के लिए मुख्य प्रमेयों की तलाश शुरू की, लेकिन मुख्य परिणामों की समझ बनाने वाला एक अच्छा संदर्भ नहीं मिल सका। तो यहाँ मेरा सवाल है: एमएल / डीएल में वर्तमान मुख्य गणितीय प्रमेय (सिद्धांत) क्या हैं और वे क्या साबित करते हैं? मुझे लगता है कि यहां वैपनिक का काम चल जाएगा। एक अतिरिक्त के रूप में, मुख्य सैद्धांतिक खुली समस्याएं क्या हैं?


3
@ यह थिअड एक तरह की है, जो आँकड़े के साथ है ।stackexchange.com/questions/2379/… ("आंकड़ों में बड़ी समस्याएं क्या हैं?")।
व्हिबर

2
यह थोड़ा व्यापक है। क्या आप कम से कम मशीन लर्निंग का सबसेट निर्दिष्ट कर सकते हैं? यदि हम अपने आप को डीप लर्निंग तक सीमित कर लेते हैं, या कम से कम पर्यवेक्षित शिक्षा के लिए, तो कोई उत्तर देने का प्रयास कर सकता है। लेकिन अगर आप "गणित सीखने की मशीन" जैसी चीज़ पर ज़ोर देते हैं, तो एक उत्तर लिखने में उम्र लग जाएगी।
11

3
@ व्हिबर के उदाहरण एनालॉग के प्रकाश में, मैं यह कहना चाहूंगा कि यह सीडब्ल्यू के रूप में खुला रहना चाहिए, खासकर अगर यह एमएलवी के एक विशिष्ट सबसेट तक सीमित हो सकता है, जैसे कि पर्यवेक्षित अधिगम , डेल्टावी अनुरोध।
गंग -

3
@DeltaIV ध्यान दें कि शीर्षक में "डीप" है।
अमीबा का कहना है कि मोनिका

4
इस प्रश्न को समझना डेविड डोनोहो द्वारा होस्ट किए गए व्याख्यानों की एक हालिया श्रृंखला का विषय था: आँकड़े 385.github.io देखें ।
user795305

जवाबों:


43

जैसा कि मैंने टिप्पणियों में लिखा है, यह प्रश्न मुझे बहुत व्यापक लगता है, लेकिन मैं एक उत्तर देने का प्रयास करूंगा। कुछ सीमाओं को निर्धारित करने के लिए, मैं थोड़ा गणित के साथ शुरू करूंगा जो अधिकांश एमएल को रेखांकित करता है, और फिर डीएल के लिए हाल के परिणामों पर ध्यान केंद्रित करता है।


पूर्वाग्रह-विचरण तालमेल , अनगिनत किताबें, पाठ्यक्रम, एमओओसी, ब्लॉग्स, ट्वीट, आदि एमएल पर में में जाना जाता है, ताकि हम उसे उल्लेख किए बिना शुरू नहीं कर सकते हैं:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

यहाँ सबूत: https://web.stanford.edu/~hastie/ElemStatLearn/


गॉस-मार्कोव प्रमेय (हाँ, रेखीय प्रतीपगमन मशीन लर्निंग का एक महत्वपूर्ण हिस्सा बना रहेगा, कोई क्या फर्क: इसके साथ सौदा) स्पष्ट जब रेखीय मॉडल सच है और त्रुटि अवधि पर कुछ मान्यताओं, मान्य हैं OLS कि, कम से कम है मतलब चुकता त्रुटि (जो उपरोक्त अभिव्यक्ति में सिर्फ Bias2 + Variance ) केवल रैखिक मॉडल के निष्पक्ष रेखीय अनुमानकों के बीच । इस प्रकार पूर्वाग्रह (या ग़ैर-अनुमानक अनुमानक) के साथ अच्छी तरह से रैखिक अनुमानक हो सकते हैं जिनके पास एक बेहतर माध्य वर्ग त्रुटि होती है, और इस तरह ओएलएस की तुलना में एक बेहतर अनुमानित भविष्यवाणी त्रुटि होती है। और यह सभी नियमितीकरण शस्त्रागार (रिज रिग्रेशन, LASSO, वजन क्षय, आदि) का मार्ग प्रशस्त करता है जो एमएल का एक कार्यक्षेत्र है। एक प्रमाण यहाँ दिया गया है (और अनगिनत अन्य पुस्तकों में): https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

नियमित रूप से दृष्टिकोण के विस्फोट के लिए संभवतः अधिक प्रासंगिक है, जैसा कि कार्लोस सिनेली ने टिप्पणियों में उल्लेख किया है, और निश्चित रूप से इसके बारे में जानने के लिए अधिक मजेदार है, जेम्स-स्टीन प्रमेय हैn स्वतंत्र, एक ही विचरण पर विचार करें , लेकिन गौसियन यादृच्छिक चर के समान नहीं है :

Xi|μiN(θi,σ2),i=1,,n

दूसरे शब्दों में, हमारे पास एक n घटक गाऊसी यादृच्छिक वेक्टर । हम एक नमूना है से और हम यह अनुमान करना चाहते हैं । MLE (और भी UMVUE) अनुमानक स्पष्ट रूप से । जेम्स-स्टीन अनुमानक पर विचार करेंXN(θ,σ2I)xXθθ एम एल = एक्सθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

जाहिर है, अगर , सिकुड़ता है शून्य की ओर MLE अनुमान। जेम्स-स्टीन प्रमेय कहा गया है कि के लिए , सख्ती से हावी कम एमएसई, यानी, यह है । Pheraps आश्चर्यजनक रूप से, हम किसी अन्य निरंतर की ओर हटना भले ही , अभी भी हावी है । बाद से(n2)σ2||x||2θ जम्मू एस एन 4 θ जम्मू एस θ एम एल θ 0 θ जम्मू एस θ एम एल एक्स मैंθ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXiस्वतंत्र हैं, यह अजीब लग सकता है कि, जब स्पेन में उत्पादित सेब की संख्या से एक नमूना सहित तीन असंबंधित व्यक्तियों की ऊंचाई का अनुमान लगाने की कोशिश हो रही है, तो औसत पर हमारे अनुमान में सुधार हो सकता है । यहां मुख्य बिंदु "औसत" है: पैरामीटर वेक्टर के सभी घटकों के एक साथ अनुमान के लिए माध्य वर्ग त्रुटि छोटी है, लेकिन एक या अधिक घटकों के लिए वर्ग त्रुटि अच्छी तरह से बड़ी हो सकती है, और वास्तव में यह अक्सर होता है, जब आपके पास "चरम" अवलोकन है।

यह पता लगाना कि MLE, जो कि वास्तव में "यूनीवेट अनुमान मामले के लिए" इष्टतम "अनुमानक था, बहुभिन्नरूपी आकलन के लिए निरूपित किया गया था, उस समय काफी झटका था, और सिकुड़न में एक बड़ी रुचि पैदा हुई, जिसे एमएल parlance में नियमितीकरण के रूप में जाना जाता है। मिश्रित मॉडल और "उधार लेने की ताकत" की अवधारणा के साथ कुछ समानताएं नोट कर सकते हैं: वास्तव में कुछ कनेक्शन है, जैसा कि यहां चर्चा की गई है

संकोचन पर एकीकृत दृष्टिकोण: स्टीन के विरोधाभास, रिज प्रतिगमन और मिश्रित मॉडल में यादृच्छिक प्रभावों के बीच क्या संबंध है (यदि कोई है)?

संदर्भ: जेम्स, डब्ल्यू।, स्टीन, सी।, द्विघात हानि के साथ अनुमान । गणितीय सांख्यिकी और संभाव्यता पर चौथा बर्कले संगोष्ठी की कार्यवाही, खंड 1: सांख्यिकी का योगदान, 361--379, कैलिफोर्निया विश्वविद्यालय प्रेस, बर्कले, कैलिफोर्निया। 1961।


प्रमुख घटक विश्लेषण आयाम में कमी के महत्वपूर्ण विषय के लिए महत्वपूर्ण है, और यह विलक्षण मूल्य अपघटन पर आधारित है : प्रत्येक वास्तविक मैट्रिक्स (हालांकि प्रमेय आसानी से जटिल मेट्रिसेस के लिए सामान्यीकृत होता है)N×pX

X=UDVT

जहां का आकार ऑर्थोगोनल है, एक विकर्ण मैट्रिक्स है, जिसके पास nonnegative विकर्ण तत्व हैं और का आकार फिर से orthogonal है। यह गणना करने के तरीके पर सबूत और एल्गोरिदम के लिए: गोलूब, जी और वैन लोन, सी। (1983), मैट्रिक्स कम्प्यूटेशंस , जॉन हॉपकिंस यूनिवर्सिटी प्रेस, बाल्टीमोर।UN×pDp×pUp×p


मर्सर का प्रमेय बहुत से अलग-अलग एमएल तरीकों के लिए पाया जाने वाला पत्थर है: पतली प्लेट के छींटे, वेक्टर मशीनों का समर्थन, गाऊसी यादृच्छिक प्रक्रिया के क्रिंगिंग अनुमान, आदि। मूल रूप से, तथाकथित कर्नेल चाल के पीछे दो प्रमेयों में से एक है । चलो एक symmmetric निरंतर समारोह या कर्नेल हो। यदि धनात्मक अर्धवृत्ताकार है, तो यह nonnegative eigenvalues ​​के अनुरूप eigenfunctions का एक अलौकिक आधार मानता है:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

एमएल सिद्धांत के लिए इस प्रमेय के महत्व को प्रसिद्ध ग्रंथों में प्राप्त संदर्भों की संख्या द्वारा गवाही दी गई है, जैसे कि गौसियन प्रक्रियाओं पर रासमुसेन और विलियम्स पाठ

संदर्भ: जे। मर्सर, सकारात्मक और नकारात्मक प्रकार के कार्य, और अभिन्न समीकरण के सिद्धांत के साथ उनका संबंध। लंदन की रॉयल सोसायटी के दार्शनिक विवरण। श्रृंखला ए, एक गणितीय या भौतिक चरित्र के युक्त पत्र, 209: 415-446, 1909

कोनराड जार्गेन्स, रैखिक अभिन्न ऑपरेटरों , पिटमैन, बोस्टन, 1982 में एक सरल प्रस्तुति भी है ।


अन्य प्रमेय, जो मर्सर की प्रमेय के साथ मिलकर कर्नेल ट्रिक की सैद्धांतिक नींव देता है, रिप्रेसेंट प्रमेय है । मान लीजिए कि आपके पास एक नमूना स्थान और एक सममित सकारात्मक अर्धवृत्ताकार कर्नेल । इसके अलावा जुड़ा हो । अंत में, एक प्रशिक्षण नमूना हो। प्रमेय का कहना है कि सभी कार्यों के बीच , जो कि के eigenfunctions के संदर्भ में एक अनंत प्रतिनिधित्व मानता हैXK:X×XRHKKS={xi,yi}i=1nfHKKमर्सर के प्रमेय के कारण, जो नियमित जोखिम को कम करता है, उसे हमेशा प्रशिक्षण बिंदुओं पर मूल्यांकन किए गए कर्नेल द्वारा गठित आधार में एक परिमित प्रतिनिधित्व होता है , अर्थातn

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(प्रमेय अंतिम समानता है)। सन्दर्भ: वेहबा, जी। 1990, वेधशाला डेटा के लिए तख्ते मॉडल , सियाम, फिलाडेल्फिया।


सार्वभौमिक सन्निकटन प्रमेय पहले से ही उपयोगकर्ता टोबियास Windisch द्वारा उद्धृत किया गया है और की तुलना में यह कार्यात्मक विश्लेषण करने के लिए है बहुत कम मशीन लर्निंग के लिए प्रासंगिक है, भले ही वह एक पहली नजर में तो ऐसा नहीं लगता हो सकता है। समस्या यह है कि प्रमेय केवल यह कहता है कि ऐसा नेटवर्क मौजूद है, लेकिन:

  • यह छिपी हुई परत के आकार और लक्ष्य फ़ंक्शन की जटिलता के कुछ माप के बीच कोई संबंध नहीं देता है , जैसे कि उदाहरण कुल भिन्नता। यदि और को एक निश्चित त्रुटि के लिए आवश्यक तेजी से साथ बढ़ता है , तो एकल छिपी परत तंत्रिका। नेटवर्क बेकार हो जाएगा।Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • अगर नेटवर्क सीखने योग्य है तो यह नहीं कहता । दूसरे शब्दों में मान लेते हैं कि दिए गए और , हम जानते हैं कि एक आकार एनएन के लगभग बराबर होगी hypercube में आवश्यक सहिष्णुता के साथ। फिर आकार प्रशिक्षण सेट और एक सीखने की प्रक्रिया जैसे उदाहरण के लिए बैक-प्रॉप का उपयोग करके, क्या हमारे पास कोई गारंटी है कि को बढ़ाकर हम को पुनर्प्राप्त कर सकते हैं ?F(x)एफ ϵ एन एफ एम एम एफfϵNfMMF
  • अंत में, और उन सभी से भी बदतर, यह तंत्रिका नेटवर्क की भविष्यवाणी त्रुटि के बारे में कुछ नहीं कहता है। हम वास्तव में जो रुचि रखते हैं, वह भविष्यवाणी त्रुटि का एक अनुमान है, कम से कम आकार सभी प्रशिक्षण सेटों पर औसत है । प्रमेय इस संबंध में मदद नहीं करता है।M

इस प्रमेय के हॉर्निक संस्करण के साथ एक छोटा दर्द बिंदु यह है कि यह ReLU सक्रियण कार्यों के लिए नहीं है। हालांकि, बार्टलेट ने एक विस्तारित संस्करण साबित किया है जो इस अंतर को कवर करता है।


अब तक, मुझे लगता है कि मुझे लगता है कि सभी प्रमेयों को अच्छी तरह से जाना जाता था। तो अब यह मजेदार सामान के लिए समय है :-) आइए देखते हैं कुछ डीप लर्निंग प्रमेय:

मान्यताओं:

  • गहरी तंत्रिका नेटवर्क (फिक्स्ड , फ़ंक्शन है जो तंत्रिका नेटवर्क के इनपुट को अपने आउटपुट के साथ जोड़ती है) और नियमितीकरण हानि दोनों ही सकारात्मक रूप से हैं एक ही डिग्री के सजातीय कार्यΦ(X,W)WΦW(X)Θ(W)
  • हानि समारोह उत्तल है और एक बार में एक अलग सेट में एक अलग सेट हैL(Y,Φ(X,W)XS

फिर:

  • लिए कोई भी स्थानीय न्यूनतम जैसे कि सबनेटवर्क में शून्य वज़न है, एक वैश्विक न्यूनतम ( प्रमेय 1 ) हैL(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • एक महत्वपूर्ण नेटवर्क आकार के ऊपर, स्थानीय वंश हमेशा किसी भी आरंभीकरण ( प्रमेय 2 ) से वैश्विक न्यूनतम में परिवर्तित होगा ।

यह बहुत दिलचस्प है: CNNs ने केवल दृढ़ परतों, ReLU, अधिकतम-पूलिंग, पूरी तरह से जुड़े हुए ReLU और रैखिक परतों को सकारात्मक रूप से समरूप कार्य किया है, जबकि यदि हम सिग्मॉइड सक्रियण कार्यों को शामिल करते हैं, तो यह अब सच नहीं है, जो आंशिक रूप से बेहतर समझा सकता है सिग्मोइड के संबंध में ReLU + अधिकतम पूलिंग के कुछ अनुप्रयोगों में प्रदर्शन। क्या अधिक है, प्रमेय केवल पकड़ अगर भी सकारात्मक रूप से एक ही डिग्री के में रूप में सजातीय है । अब, मज़ा तथ्य यह है कि है या नियमितीकरण, हालांकि सकारात्मक सजातीय, का एक ही डिग्री की जरूरत नहीं है (की डिग्रीΘWΦl1l2ΦΦ, सरल सीएनएन मामले में पहले उल्लेख किया गया है, परतों की संख्या के साथ बढ़ता है)। इसके बजाय, इस तरह के बैच सामान्य और पथ-SGD के रूप में और अधिक आधुनिक नियमितीकरण तरीके के रूप में एक ही डिग्री के एक सकारात्मक सजातीय नियमितीकरण के संगत होती करना , और छोड़ने वालों की है, जबकि वास्तव में इस ढांचे फिटिंग नहीं है, यह करने के लिए मजबूत समानता रखती है। यह समझा सकता है कि, CNNs के साथ उच्च सटीकता प्राप्त करने के लिए, और नियमितीकरण पर्याप्त नहीं हैं, लेकिन हमें सभी प्रकार के शैतानी चालों को नियोजित करने की आवश्यकता है, जैसे ड्रॉपआउट और बैच सामान्यीकरण! मेरे ज्ञान का सबसे अच्छा करने के लिए, यह बैच सामान्यीकरण की प्रभावकारिता की व्याख्या करने के लिए निकटतम बात है, जो अन्यथा बहुत अस्पष्ट है, जैसा कि अल रहीमी ने अपनी बात में सही ढंग से उल्लेख किया है।Φl1l2

एक और अवलोकन, जो कुछ लोग प्रमेय 1 के आधार पर करते हैं , वह यह है कि यह बता सकता है कि मृत न्यूरॉन्स की समस्या के साथ भी क्यों ReLU अच्छा काम करता है । इस अंतर्ज्ञान के अनुसार, तथ्य यह है कि, प्रशिक्षण के दौरान, कुछ ReLU न्यूरॉन्स "मर जाते हैं" (शून्य सक्रियण पर जाएं और फिर कभी इससे उबरें नहीं, क्योंकि लिए ReLU का ढाल शून्य है) "एक विशेषता है, बग नहीं ", क्योंकि अगर हम एक न्यूनतम तक पहुँच गए हैं और एक पूर्ण उप-नेटवर्क की मृत्यु हो गई है, तो हम काफी हद तक एक वैश्विक न्यूनतम ( प्रमेय के सिद्धांत के तहत) तक पहुँच चुके हैं 1x<0)। मुझे कुछ याद आ रहा है, लेकिन मुझे लगता है कि यह व्याख्या दूर की कौड़ी है। सबसे पहले, प्रशिक्षण के दौरान ReLUs एक स्थानीय न्यूनतम तक पहुँचने से पहले अच्छी तरह से "मर" सकते हैं। दूसरे, यह साबित करना होगा कि जब ReLU इकाइयां "मर" जाती हैं, तो वे हमेशा इसे पूरी तरह से उप-नेटवर्क्स पर करते हैं: एकमात्र मामला जहां यह तुच्छ रूप से सच है, जब आपके पास सिर्फ एक छिपी हुई परत होती है, तो निश्चित रूप से प्रत्येक एकल के मामले में एक सबनेटवर्क। लेकिन सामान्य तौर पर मैं "मृत न्यूरॉन्स" को एक अच्छी चीज के रूप में देखने में बहुत सतर्क रहूंगा।

संदर्भ:

बी। हाइफ़ेल और आर। विडाल, तंत्रिका नेटवर्क प्रशिक्षण में वैश्विक इष्टतमता, कंप्यूटर विजन और पैटर्न मान्यता पर 2017 में IEEE सम्मेलन में।

बी। हैफेल और आर। विडाल। टेंसर फैक्टराइजेशन, डीप लर्निंग और उससे परे , अर्क्सिव, एबीएस / 1506.07540, 2015 में वैश्विक अनुकूलता


छवि वर्गीकरण के लिए सीखने के अभ्यावेदन की आवश्यकता होती है जो विभिन्न परिवर्तनों जैसे स्थान, मुद्रा, दृष्टिकोण, प्रकाश, अभिव्यक्ति आदि के लिए अपरिवर्तनीय (या कम से कम मजबूत, अर्थात बहुत कमजोर संवेदनशील) हैं, जो आमतौर पर प्राकृतिक छवियों में मौजूद होते हैं, लेकिन इनमें जानकारी नहीं होती है वर्गीकरण कार्य के लिए। भाषण पहचान के लिए एक ही बात: पिच, मात्रा, गति, उच्चारण में परिवर्तन। आदि शब्द के वर्गीकरण में परिवर्तन नहीं होना चाहिए। CNNs में प्रयुक्त कनवल्शन, मैक्स पूलिंग, एवरेज पूलिंग आदि जैसे ऑपरेशंस का बिल्कुल यही लक्ष्य होता है, इसलिए सहजता से हम उम्मीद करते हैं कि वे इन अनुप्रयोगों के लिए काम करेंगे। लेकिन क्या हमारे पास इस अंतर्ज्ञान का समर्थन करने के लिए प्रमेय है? एक लंबवत अनुवाद अदर्शनशील प्रमेय है, जो नाम के बावजूद, ऊर्ध्वाधर दिशा में अनुवाद से कोई लेना-देना नहीं है, लेकिन यह मूल रूप से एक परिणाम है जो कहता है कि निम्न परतों में सीखी गई विशेषताएं अधिक से अधिक अपरिवर्तनीय होती हैं, क्योंकि परतों की संख्या बढ़ती है। यह एक पुराने क्षैतिज अनुवाद इनवेरियन प्रमेय के विरोध में है जो कि बिखरने वाले नेटवर्क के लिए है, लेकिन सीएनएन के लिए नहीं । प्रमेय बहुत ही तकनीकी है, हालांकि:

  • मान (आपकी इनपुट छवि) वर्ग-पूर्णांक हैf
  • मान लें कि आपका फ़िल्टर ट्रांसलेशन ऑपरेटर , जो इनपुट इमेज को खुद की अनुवादित कॉपी में । एक सीखा हुआ सजा कर्नेल (फ़िल्टर) इस परिकल्पना को संतुष्ट करता है।TtfTtf
  • अपने नेटवर्क में सभी फ़िल्टर्स, नॉनलाइनियरिटीज़ और पूलिंग को मान लें , जो एक तथाकथित कमजोर स्वीकार्यता की स्थिति को संतुष्ट करते हैं , जो मूल रूप से कमजोर नियमितता और बाध्यता की स्थिति है। ये स्थितियां सीखे हुए कन्वर्सेशन कर्नेल (जब तक कि प्रत्येक परत पर कुछ सामान्यीकरण ऑपरेशन किया जाता है), ReLU, सिग्मॉइड, टैन, आदि, नॉनलाइनरिटीज़ और औसत पूलिंग द्वारा संतुष्ट हो जाते हैं, लेकिन अधिकतम-पूलिंग द्वारा नहीं । तो यह कुछ (सभी नहीं) वास्तविक दुनिया CNN आर्किटेक्चर को कवर करता है।
  • अंत में मान लें कि प्रत्येक लेयर में एक पूलिंग फैक्टर , अर्थात, प्रत्येक लेयर में पूलिंग लागू की जाती है और प्रभावी रूप से सूचनाओं को करती है। शर्त भी प्रमेय के कमजोर संस्करण के लिए पर्याप्त होगी।nSn>1Sn1

इनपुट के होने पर CNN के लेयर के आउटपुट के साथ संकेत मिलता है । फिर अंत में:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(ट्रिपल बार एक त्रुटि नहीं हैं) जिसका मूल अर्थ है कि प्रत्येक परत उन विशेषताओं को सीखती है जो अधिक से अधिक अपरिवर्तनीय बन जाती हैं, और एक असीम रूप से गहरे नेटवर्क की सीमा में हमारे पास एक पूरी तरह से अपरिवर्तनीय वास्तुकला है। चूंकि सीएनएन में परतों की एक सीमित संख्या होती है, वे पूरी तरह से अनुवाद-अपरिवर्तनीय नहीं होते हैं, जो चिकित्सकों के लिए अच्छी तरह से जाना जाता है।

संदर्भ: टी। विवातोस्की और एच। बोलस्केकी, फ़ीचर एक्सट्रैक्शन के लिए दीप कन्वोकेशनल न्यूरल नेटवर्क्स का एक गणितीय सिद्धांत , arXiv: 1512.06293v3


निष्कर्ष निकालने के लिए, अपने Vapnik-Chervonkensis आयाम के आधार पर एक डीप न्यूरल नेटवर्क की सामान्यीकरण त्रुटि के लिए कई सीमाएँ या रेडीमैकर जटिलता मापदंडों की संख्या (कुछ भी तेज़ी से) के साथ बढ़ती हैं, जो यह नहीं समझा सकते हैं कि DNN इतनी अच्छी तरह से क्यों काम करते हैं व्यवहार में भी जब मापदंडों की संख्या प्रशिक्षण नमूनों की संख्या से काफी बड़ी है। वास्तव में, डीप लर्निंग में वीसी सिद्धांत बहुत उपयोगी नहीं है।

इसके विपरीत, पिछले वर्ष के कुछ परिणाम एक DNN क्लासिफायर के सामान्यीकरण त्रुटि को एक मात्रा के साथ बाध्य करते हैं जो तंत्रिका नेटवर्क की गहराई और आकार से स्वतंत्र है, लेकिन केवल प्रशिक्षण सेट और इनपुट स्थान की संरचना पर निर्भर करता है। सीखने की प्रक्रिया पर कुछ सुंदर तकनीकी मान्यताओं के तहत, और प्रशिक्षण सेट और इनपुट स्थान पर, लेकिन DNN पर बहुत कम मान्यताओं के साथ (विशेष रूप से, CNN पूरी तरह से कवर होते हैं), तो कम से कम , हमारे पास है1δ

GE2log2NyNγm+2log(1/δ)m

कहाँ पे:

  • GE सामान्यीकरण त्रुटि है, जो अपेक्षित नुकसान (सभी संभावित परीक्षण बिंदुओं पर सीखा क्लासिफायर का औसत नुकसान) और अनुभवजन्य हानि (बस अच्छे ol 'प्रशिक्षण सेट त्रुटि) के बीच अंतर के रूप में परिभाषित किया गया है
  • Ny वर्गों की संख्या है
  • m प्रशिक्षण सेट का आकार है
  • Nγ डेटा की कवरिंग संख्या , इनपुट स्पेस की संरचना से संबंधित एक मात्रा और प्रशिक्षण सेट में विभिन्न वर्गों के बिंदुओं के बीच न्यूनतम पृथक्करण है। संदर्भ:

जे। सोकोलिक, आर। गिरीस, जी। सैपिरो और एम। रोड्रिग्स। अपरिवर्तनीय सहपाठियों की सामान्यीकरण त्रुटि । AISTATS, 2017 में


2
+1। शानदार जवाब, आखिरी हिस्सा बहुत पेचीदा है। पहले भाग में, मर्सर का प्रमेय एसवीडी की तरह ही दिखता है जिसे आपने अभी ऊपर प्रस्तुत किया था।
अमीबा का कहना है कि मोनिका

1
@amoeba, आप सही कह रहे हैं, लेकिन 1) सभी पाठक आपके जैसे गणित-सेवी नहीं हैं, कि वे तुरंत SVD, करहुनेन-लोव विस्तार और मर्सर के प्रमेय के बीच के अनुकरण को पहचान लेंगे। 2) कार्यात्मक विश्लेषण से अन्य प्रमेय जो कर्नेल चाल को "शक्तियां" देता है, और जिसे मैंने शामिल नहीं करने के लिए चुना है, मर्सर के प्रमेय की तुलना में व्याख्या करना कठिन है, और मैंने पहले ही अपने शनिवार का पर्दाफाश कर दिया :-) शायद मैं इसे कल जोड़ूंगा!
डेल्टाविले

1
गाऊस मार्कोव जगह से बाहर लगता है, एमएल समुदाय में किसी को भी ब्लू के बारे में कभी ध्यान नहीं दिया गया।
कार्लोस सिनेली

2
मैं मानता हूं कि एक सामान्य नियम के रूप में मूल (पुरातन) संदर्भ में आमतौर पर थकाऊ संकेतन होता है। उस ने कहा, मर्सर का पेपर वास्तव में उस पहलू में आश्चर्यजनक रूप से आधुनिक है और मैंने इसे ठीक उसी वजह से जोड़ा है। :) (मैंने मूल रूप से कहा, यह एक बहुत अच्छा जवाब है, यह सिर्फ एक टिप्पणी है,
उत्थान के

2
मुझे यहाँ Mercer की प्रमेय पसंद है, इसे हटाओ नहीं। और दोनों लिंक क्यों नहीं हैं? बस See [here] for a modern exposition"मूल पेपर के लिए" या इसके विपरीत smth जोड़ें ।
अमीबा का कहना है कि मोनिका

11

मुझे लगता है कि निम्नांकित प्रमेय जिसे आप सांख्यिकीय शिक्षा में बहुत मौलिक मानते हैं।

प्रमेय (Vapnik और Chervonenkis, 1971) Let एक डोमेन से कार्यों की एक परिकल्पना वर्ग के लिए और नुकसान समारोह रहने दो नुकसान। उसके बाद निम्न बराबर हैं:एक्स { 0 , 1 }HX{0,1}01

  1. H पास समरूप अभिसरण गुण है।
  2. H पीएसी सीखने योग्य है।
  3. H का परिमित वीसी-आयाम है।

यहाँ एक मात्रात्मक संस्करण में साबित हुआ:

VN Vapnik और AY Chervonenkis: अपनी संभावनाओं के लिए घटनाओं के सापेक्ष आवृत्तियों के समरूप अभिसरण पर। संभाव्यता और उसके अनुप्रयोगों का सिद्धांत, 16 (2): 264–280, 1971।

सीखने के सिद्धांत से अन्य परिणामों की एक अच्छी प्रदर्शनी के साथ ऊपर तैयार किया गया संस्करण यहां उपलब्ध है :

शलेव-शवार्ट्ज, शाइ और शाइ बेन-डेविड। मशीन लर्निंग को समझना: सिद्धांत से एल्गोरिदम तक। कैम्ब्रिज यूनिवर्सिटी प्रेस, 2014।


6

कर्नेल ट्रिक एक सामान्य विचार है जो बहुत सारे स्थानों पर उपयोग किया जाता है, और हिल्बर्ट स्पेस के बारे में बहुत सार गणित से आता है। मेरे लिए टाइप करने के लिए बहुत अधिक सिद्धांत (कॉपी ...) यहाँ एक उत्तर में है, लेकिन अगर आप इसके माध्यम से स्किम करते हैं, तो आप इसके कठोर आधारों का एक अच्छा विचार प्राप्त कर सकते हैं:

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf


4

मेरा पसंदीदा एक क्राफ्ट असमानता है।

प्रमेय: किसी भी विवरण विधि के लिए के लिए परिमित वर्णमाला , लंबाई कोड शब्द असमानता को पूरा करना चाहिए ।CA={1,,m}LC(1),,LC(2)xA2LC(x)1

यह असमानता संभावना घनत्व के साथ संपीड़न से संबंधित है : एक कोड दिया गया, उस कोड द्वारा दर्शाए गए परिणाम की लंबाई कोड द्वारा पहचाने गए मॉडल की नकारात्मक लॉग संभावना है।

इसके अलावा, मशीन लर्निंग के लिए नि: शुल्क लंच प्रमेय में कम हाइपर कम्प्रेशन प्रमेय वाले सिबलिंग को कम जाना जाता है, जिसमें कहा गया है कि सभी अनुक्रमों को संकुचित नहीं किया जा सकता है।


4

मैं इसे मुख्य प्रमेय नहीं कहूंगा , लेकिन मुझे लगता है कि निम्नलिखित (कभी-कभी यूनिवर्सल सन्निकटन प्रमेय के रूप में संदर्भित) एक दिलचस्प (और कम से कम मेरे लिए आश्चर्य की बात है) एक है क्योंकि यह फ़ीड-फॉरवर्ड न्यूरल नेटवर्क की अनुमानित शक्ति को बताता है।

प्रमेय: Let एक गैर-संवेदी और एक-दूसरे के साथ लगातार बढ़ता हुआ कार्य है। किसी भी निरंतर कार्य के लिए और किसी भी , वहाँ एक पूर्णांक और एक बहुपरत जिसमें एक छिपी हुई परत होती है जिसमें न्यूरॉन्स सक्रियण के रूप में कार्य करें ताकिσf:[0,1]mRϵ>0NFNσ

एक्स [ 0 , 1 ] मीटर

|F(x)f(x)|ϵ
सभी ।x[0,1]m

बेशक, जैसा कि यह अस्तित्व पर एक बयान है , चिकित्सकों के लिए इसका प्रभाव नगण्य है।

एक प्रमाण हॉर्निक में पाया जा सकता है , मुट्टीलेयर फीडफॉर्वर्ड नेटवर्क्स की स्वीकृति क्षमता, तंत्रिका नेटवर्क 4 (2), 1991,


5
यह प्रमेय थोड़ा सा निर्बाध है क्योंकि यह विशेष रूप से तंत्रिका जाल के लिए नहीं है। कार्यों के कई अन्य वर्ग समान (और कभी-कभी मजबूत) सन्निकटन गुणों को साझा करते हैं। उदाहरण के लिए स्टोन-वीयरस्ट्रैस प्रमेय देखें। एक और दिलचस्प परिणाम एक सामान्य ढांचे में तंत्रिका शुद्ध प्रतिगमन की स्थिरता होगी। इसके अलावा, नेट की जटिलता और प्रशिक्षण के नमूने के आकार के मामले में औसत सामान्यीकरण त्रुटि पर ज्ञात सीमाएं होनी चाहिए।
ओलिवियर

1
@ ओलिवर: मैं पूरी तरह से सहमत हूं। लेकिन भले ही यह प्रमेय विशेष रूप से तंत्रिका नेटवर्क के लिए समर्पित नहीं है, फिर भी मुझे यह कथन, इसके कठोर प्रमाण और इसके निहितार्थ दिलचस्प लगते हैं। उदाहरण के लिए, यह कहता है कि जब तक आप एक सक्रियण फ़ंक्शन का उपयोग कर रहे हैं जिसमें ऊपर बताए गए गुण हैं, नेटवर्क की अनुमानित क्षमता समान (मोटे तौर पर बोलना) है। या, यह कहता है कि तंत्रिका नेटवर्क अतिव्यापी हैं क्योंकि आप एक छिपी हुई परत के साथ बहुत कुछ सीख सकते हैं।
टोबियास विंडिस

1
यह बिलकुल नहीं कहता। यह केवल यह कहता है कि एक छिपी हुई परत के साथ एक तंत्रिका नेटवर्क मौजूद है जो प्रतिनिधित्व कर सकता है , लेकिन यह आपको कुछ भी नहीं बताता है कि , साथ कैसे बढ़ता है , उदाहरण के लिए, या की जटिलता के कुछ माप के साथ (उदाहरण के लिए इसकी कुल भिन्नता )। यह आपको नहीं बताता कि क्या आप अपने नेटवर्क के वज़न, दिए गए डेटा को सकते । आप पाएंगे कि दिलचस्प मामलों का एक बहुत में है तेजी से बहुपरत के लिए (गहरी) नेटवर्क एक से छिपा परत नेटवर्क के लिए बड़ा। यही कारण है कि कोई भी ImageNet या कागले के लिए एक छिपे हुए परत नेटवर्क का उपयोग नहीं करता है। एन एम एफ एल एक आर एन एनfNmflearnN
डेल्टावि

@ डेल्टिव: मेरी पिछली टिप्पणी के अंतिम वाक्य में एक टाइपो है: शब्द "सीखना" वास्तव में "अनुमानित" होना चाहिए (अन्यथा, "ओवरफिटिंग" के बारे में मेरा बयान कोई मतलब नहीं होगा)। संकेत के लिए धन्यवाद!
टोबियास विंडिस्क

हां, मैंने व्याख्या की कि "सन्निकटन" के अर्थ में। मेरा कहना यह है कि भले ही आपको पता हो कि आप किसी छिपे हुए परत NN के साथ किसी भी फंक्शन (एक बंधी हुई हाइपरक्यूब पर) सिद्धांत में कर सकते हैं, व्यवहार में यह कई मामलों में बेकार है। एक और उदाहरण: स्क्वैयर घातीय कर्नेल के साथ गॉसियन प्रक्रियाओं में सार्वभौमिक सन्निकटन गुण होता है, लेकिन उन्होंने अन्य सभी प्रतिगमन विधियों को समाप्त नहीं किया है, इस तथ्य के कारण भी कि कुछ समस्याओं के लिए सटीक सन्निकटन के लिए आवश्यक नमूनों की संख्या तेजी से बढ़ती है।
डेल्टा ४

2

इस सवाल पर ध्यान देने वाली एक अच्छी पोस्ट (सामान्य मशीन लर्निंग प्रमेय के बजाय विशेष रूप से गहन सीखने) यहाँ है:

https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

यह इतनी अच्छी तरह से सामान्य करने के लिए गहरे तंत्रिका नेटवर्क की क्षमता के लिए मुख्य उभरते प्रमेयों का एक सुलभ सारांश देता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.