खराब वीसी आयाम के बावजूद गहरी शिक्षा क्यों सम्मोहित है?


86

Vapnik-Chervonenkis (वीसी) -dimension तंत्रिका नेटवर्क के लिए सूत्र से लेकर के , के साथ सबसे खराब स्थिति है, जहां में किनारों और की संख्या है नोड्स की संख्या है। सामान्यीकरण की मजबूत गारंटी के लिए आवश्यक प्रशिक्षण नमूनों की संख्या कुलपति-आयाम के साथ रैखिक है।O(E)O(E2)O(E2V2)EV

इसका मतलब यह है कि अरबों किनारों वाले नेटवर्क के लिए, जैसे कि सफल गहन शिक्षण मॉडल के मामले में, प्रशिक्षण डेटासेट को सबसे अच्छे मामले में, सबसे खराब स्थिति में क्वाड्रिलियन को अरबों प्रशिक्षण नमूने की आवश्यकता होती है। वर्तमान में सबसे बड़े प्रशिक्षण सेट में लगभग सौ बिलियन नमूने हैं। चूंकि पर्याप्त प्रशिक्षण डेटा नहीं है, यह संभावना नहीं है कि गहन शिक्षण मॉडल सामान्यीकरण कर रहे हैं। इसके बजाय, वे प्रशिक्षण डेटा से आगे निकल रहे हैं। इसका मतलब यह है कि मॉडल डेटा पर अच्छा प्रदर्शन नहीं करेंगे जो प्रशिक्षण डेटा से भिन्न है, जो मशीन सीखने के लिए एक अवांछनीय संपत्ति है।

वीसी आयामी विश्लेषण के अनुसार, सामान्य सीखने के लिए गहन सीखने की अक्षमता को देखते हुए, गहन सीखने के परिणाम इतने सम्मोहित क्यों हैं? कुछ डेटासेट पर उच्च सटीकता होने का मतलब अपने आप में बहुत ज्यादा नहीं है। क्या डीप लर्निंग आर्किटेक्चर के बारे में कुछ खास है जो कुलपति-आयाम को काफी कम करता है?

यदि आपको नहीं लगता कि वीसी-आयाम विश्लेषण प्रासंगिक है, तो कृपया सबूत / स्पष्टीकरण प्रदान करें कि गहन शिक्षा सामान्यीकरण कर रही है और अतिव्यापी नहीं है। यानी इसके पास अच्छी रिकॉल और परिशुद्धता है, या सिर्फ अच्छा रिकॉल है? 100% को प्राप्त करने के लिए तुच्छ याद है, जैसा कि 100% सटीक है। दोनों को 100% के करीब लाना बहुत मुश्किल है।

एक विपरीत उदाहरण के रूप में, यहाँ इस बात का प्रमाण है कि गहरी शिक्षा अधिभूत है। एक ओवरफिट मॉडल को मूर्ख बनाना आसान है क्योंकि इसमें नियतात्मक / स्टोचस्टिक शोर शामिल है। ओवरफिटिंग के उदाहरण के लिए निम्न छवि देखें।

अंडरफिटिंग, फिटिंग और ओवरफिटिंग का उदाहरण।

इसके अलावा, परीक्षण डेटा पर अच्छी सटीकता के बावजूद एक ओवरफिट मॉडल के साथ समस्याओं को समझने के लिए इस प्रश्न के कम रैंक वाले उत्तर देखें ।

कुछ ने जवाब दिया है कि नियमितीकरण एक बड़े कुलपति आयाम की समस्या को हल करता है । आगे की चर्चा के लिए यह प्रश्न देखें ।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
DW

7
मुझे नहीं लगता कि सवाल यह है कि कुछ "सम्मोहित" क्यों अच्छा है। जवाब है "क्योंकि लोग"। मार्केटिंग सहित कई कारणों से लोग चीजों की रुचि लेते हैं।
luk32

अभ्यास में गहन शिक्षण कार्य करता है। यह ओवरफिटिंग हो सकता है। यह पूरी तरह से अनुचित हो सकता है। यह एक प्राचीन देवता से ब्रह्मांड के रहस्यों को सीख सकता है। लेकिन प्रचार चिकित्सकों से आ रहा है जो अचानक कोड पर 30 लाइनें लिखने में सक्षम हैं और हस्ताक्षर को स्कैन करने के लिए एक कैमरा सिखाते हैं और उन्हें बैंक लेनदेन को मान्य करने के लिए संग्रहीत लोगों के साथ मेल खाते हैं। या तस्वीरों में अज्ञात लोगों को टैग करें। आदि। शायद आपने लाइन सुनी है "अगर यह सच नहीं है तो यह अपमान नहीं है"? यदि यह काम करता है तो खैर यह प्रचार नहीं है। वहाँ बहुत सारी समस्याएं हैं जो इस पर काम नहीं करती हैं और अत्यधिक लोकप्रिय प्रचार है। लेकिन यह वास्तविक जीवन में काम करता है।
स्टेला बिडरमैन

@StellaBiderman मानक मशीन सीखने की तकनीक के आसपास टूलींग करने में आसानी अच्छी और सभी है। लेकिन यह दिलचस्पी डीएनएन की कथित सीखने की क्षमता से अधिक लगती है, जो शायद मानव क्षमता को टक्कर देती है, जो मॉडल के वीसी विश्लेषण को देखते हुए ओवरहाइप होने लगती है। इस तरह के एक उच्च कुलपति आयाम का अर्थ है कि मॉडल सामान्य नहीं होंगे, और इसके बजाय डेटासेट को याद कर रहे हैं, जिससे उन्हें बहुत भंगुर बना दिया गया है। सभी प्रतिकूल उदाहरण के कागजात इस बिंदु को प्रदर्शित करते हैं।
yters

@gerrit मुझे यकीन नहीं है कि संपादन वह सब उपयोगी था। मैं शर्त लगाता हूं कि अधिक लोगों को पता है कि वीसी आयाम क्या है, यह जानने के लिए कि यह किसके लिए खड़ा है।
डेविड रिचीर्बी

जवाबों:


75

"अगर नक्शा और इलाके असहमत हैं, तो इलाके पर भरोसा करें।"

यह वास्तव में समझ में नहीं आता है कि गहरी सीखने के साथ-साथ यह क्यों काम करता है, लेकिन निश्चित रूप से सीखने के सिद्धांत से पुरानी अवधारणाएं जैसे कि वीसी आयाम बहुत उपयोगी नहीं हैं।

मामला गरमाया हुआ है, देखें उदाहरण:

प्रतिकूल उदाहरणों के मुद्दे के संबंध में , समस्या का पता चला:

  • सी। स्वेग्डी, डब्ल्यू। लियू, वाई। जिया, पी। सेरनेट, एस। रीड, डी। एंगुएलोव, डी। एर्हान, वी। वॉनहोक, ए। राबिनोविच, जो संकल्पों के साथ गहराई से जा रहे हैं

इसे आगे विकसित किया गया है:

  • I. गुडफेलो, जे। श्लेन्स, सी। सेजेडी, एक्सप्लिसिंग एंड हार्नेसिंग एडवरसैरियल उदाहरण

काफी फॉलो-ऑन काम है।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
डीडब्ल्यू

जब आप कहते हैं "बहुत सारे फॉलो-ऑन काम हैं" तो क्या आप पिछले 2014 के पेपर का जिक्र कर रहे हैं? आपके द्वारा उल्लेखित पहले दो पेपर काफी हाल के हैं। क्या आप उन कागजात के साथ अद्यतन कर सकते हैं जिनका आप उल्लेख कर रहे हैं?
VF1

2
मजबूत +1 के लिए "यदि नक्शा और इलाके असहमत हैं, तो इलाके पर भरोसा करें।" मॉडल बहुत अच्छी तरह से अभ्यास में काम करते हैं अगर गणित कहता है कि उन्हें करना चाहिए। एक वैज्ञानिक पीओवी से, यह हर समय होता है और यदि कुछ भी समस्याओं को अधिक रोचक बनाता है। किसी ने भी रेजरबरोव और रूडीच के काम को प्राकृतिक सबूतों पर नहीं पढ़ा और "अच्छी तरह से, मुझे लगता है कि पी बनाम एनपी बिल्कुल भी दिलचस्प सवाल नहीं है।" वे गए और पता लगा कि जटिलता सिद्धांत को करने के लिए बीजीय ज्यामिति का उपयोग करना संभव हो सकता है। विज्ञान के दृष्टिकोण से, हमारी समझ को पार करने वाली समस्याएं बेहतर हैं , बदतर नहीं।
स्टेला बिडरमैन

65

"वीसी आयामी विश्लेषण के अनुसार, सामान्य सीखने के लिए गहन सीखने की अक्षमता को देखते हुए [...]"

नहीं, यह नहीं है कि कुलपति आयामी विश्लेषण क्या कहता है। वीसी आयामी विश्लेषण कुछ पर्याप्त शर्तें देता है जिसके तहत सामान्यीकरण की गारंटी दी जाती है। लेकिन काफिला जरूरी नहीं है। यहां तक ​​कि अगर आप उन शर्तों को पूरा करने में विफल रहते हैं, तो भी एमएल विधि सामान्य हो सकती है।

एक और तरीका रखो: वीसी आयामी विश्लेषण की तुलना में गहन शिक्षण बेहतर काम करता है जिससे आप उम्मीद करेंगे (वीसी विश्लेषण "भविष्यवाणी" की तुलना में बेहतर)। यह कुलपति आयामी विश्लेषण की कमी है, गहन शिक्षा की कमी नहीं है। इसका मतलब यह नहीं है कि गहरी शिक्षा त्रुटिपूर्ण है। बल्कि, इसका मतलब है कि हम नहीं जानते कि गहन शिक्षण कार्य क्यों - और कुलपति विश्लेषण कोई उपयोगी जानकारी प्रदान करने में असमर्थ है।

उच्च कुलपति आयाम का अर्थ यह नहीं है कि गहन शिक्षा को मूर्ख बनाया जा सकता है। उच्च कुलपति आयाम इस बारे में कुछ भी गारंटी नहीं देता है कि क्या यह व्यावहारिक स्थितियों में मूर्ख बनाया जा सकता है। VC आयाम एक यूनिडायरेक्शनल, सबसे खराब स्थिति प्रदान करता है: यदि आप इन शर्तों को पूरा करते हैं, तो अच्छी चीजें होती हैं, लेकिन अगर आप इन शर्तों को पूरा नहीं करते हैं, तो हम नहीं जानते कि क्या होगा (शायद अच्छी चीजें अभी भी वैसे ही होंगी, यदि प्रकृति सबसे खराब संभव मामले की तुलना में बेहतर व्यवहार करती है; कुलपति विश्लेषण यह वादा नहीं करता है कि अच्छी चीजें नहीं हो सकती / नहीं होंगी )।

यह हो सकता है कि मॉडल स्पेस का वीसी आयाम बड़ा है (इसमें यथासंभव जटिल पैटर्न शामिल हैं), लेकिन प्रकृति को सरल पैटर्न द्वारा समझाया गया है, और एमएल एल्गोरिथ्म प्रकृति में मौजूद सरल पैटर्न सीखता है (जैसे, नियमितीकरण के कारण) - - इस मामले में, वीसी आयाम अधिक होगा लेकिन मॉडल सामान्य होगा (प्रकृति में मौजूद विशेष पैटर्न के लिए)।

उस ने कहा ... इस बात के प्रमाण बढ़ रहे हैं कि गहरी सीख को प्रतिकूल उदाहरणों द्वारा मूर्ख बनाया जा सकता है। लेकिन अपने तर्क की श्रृंखला के बारे में सावधान रहें। आपके द्वारा शुरू किए गए निष्कर्ष आपके द्वारा शुरू किए गए परिसर से अनुसरण नहीं करते हैं।


6
उच्च कुलपति आयाम सामान्य रूप से कठिन काम करता है (कुछ अर्थों में, कम से कम जब मनमाना वितरण के साथ काम करता है)। द सामान्यीकरण त्रुटि कम बाउंड वास्तव में इसका मतलब है कि वीसी आयाम की तुलना में छोटे नमूनों की संख्या के लिए, एक वितरण मौजूद है जैसे कि यह किसी भी एल्गोरिथ्म के सापेक्ष है उच्च सामान्यीकरण त्रुटि (उच्च संभावना के साथ) का अनुभव करेंगे। Ω(dn)
एरियल

5
-1 के लिए "उच्च कुलपति आयामी कुछ भी गारंटी नहीं देता है।" यह सच नहीं है: उच्च वीसी-आयाम पीएसी सीखने के लिए नमूना जटिलता कम सीमा का मतलब है। एक अच्छे उत्तर को "वास्तविक जीवन" वितरणों के मामले में सबसे खराब स्थिति को संबोधित करना चाहिए।
साशो निकोलेव

1
@SashoNikolov, अच्छी बात है - धन्यवाद! संपादित।
डीडब्ल्यू

यह पद निम्न गुणवत्ता की समीक्षा में था। सामग्री, लंबाई, वोट और गुणवत्ता को देखते हुए, यह हास्यास्पद है, यहाँ यह इंगित करता है, लेकिन इसे मेटा की आवश्यकता हो सकती है, क्योंकि कुछ वास्तव में गलत है।
ईविल

23

उद्योग के लोगों को वीसी आयाम, गुंडे के लिए कोई संबंध नहीं है ...

अधिक गंभीर नोट पर, हालांकि पीएसी मॉडल सीखने के बारे में सोचने का एक सुंदर तरीका है (कम से कम मेरी राय में), और दिलचस्प अवधारणाओं और सवालों को बढ़ाने के लिए पर्याप्त जटिल है (जैसे कि वीसी आयाम और नमूना जटिलता के लिए इसका संबंध) , यह वास्तविक जीवन स्थितियों के साथ बहुत कम है।

याद रखें कि पीएसी मॉडल में आपको मनमानी वितरण को संभालने की आवश्यकता होती है, इसका मतलब है कि आपके एल्गोरिथ्म को प्रतिकूल वितरण को संभालना चाहिए। जब वास्तविक दुनिया में कुछ घटनाओं को सीखने की कोशिश की जाती है, तो कोई भी आपको अपने परिणामों को गड़बड़ाने के लिए "प्रतिकूल डेटा" नहीं दे रहा है, इसलिए पीएसी सीखने योग्य होने के लिए एक अवधारणा वर्ग की आवश्यकता हो सकती है। कभी-कभी आप वितरण के एक विशिष्ट वर्ग के लिए, वीसी आयाम के स्वतंत्र रूप से सामान्यीकरण त्रुटि को बाध्य कर सकते हैं। यह मार्जिन सीमा का मामला है, जो कुलपति आयाम के स्वतंत्र रूप से तैयार किए गए हैं। वे कम सामान्यीकरण त्रुटि का वादा कर सकते हैं यदि आप उच्च अनुभवजन्य मार्जिन की गारंटी दे सकते हैं (जो निश्चित रूप से, सभी वितरणों के लिए नहीं हो सकता है, उदाहरण के लिए, विपरीत टैग वाले विमान पर दो करीबी बिंदुओं को लें, और उन पर ध्यान केंद्रित करें)।

इसलिए, पीएसी मॉडल और वीसी आयाम को एक तरफ रखकर, मुझे लगता है कि प्रचार इस तथ्य से आता है कि वे सिर्फ काम करने लगते हैं, और उन कार्यों में सफल होते हैं जो पहले संभव नहीं थे (दिमाग में आने वाली नवीनतम उपलब्धियों में से एक अल्फाजो है)। मैं तंत्रिका जाल के बारे में बहुत कम जानता हूं, इसलिए मुझे उम्मीद है कि अधिक अनुभव वाला कोई व्यक्ति इसमें पिच करेगा, लेकिन मेरे ज्ञान में अभी तक कोई अच्छी गारंटी नहीं है (निश्चित रूप से पीएसी मॉडल में पसंद नहीं है)। शायद सही धारणाओं के तहत कोई औपचारिक रूप से तंत्रिका जाल की सफलता को सही ठहरा सकता है (मुझे लगता है कि तंत्रिका जाल और "गहरी शिक्षा" के औपचारिक उपचार के आसपास काम कर रहे हैं, इसलिए मुझे उम्मीद है कि इस विषय पर अधिक ज्ञान वाले लोग कुछ कागजात लिंक कर सकते हैं) ।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
DW

15

सामान्यीकरण के लिए दीप अधिगम की अक्षमता को देखते हुए,

मुझे नहीं पता कि आप इसे कहां से लेते हैं। स्पष्ट रूप से, सामान्यीकरण को अनदेखी डेटा पर स्कोर (उदाहरण सटीकता) के रूप में देखा जाता है।

सीएनएन का उपयोग क्यों किया जाता है इसका उत्तर सरल है: सीएनएन किसी भी चीज़ की तुलना में बहुत बेहतर काम करता है । उदाहरण के लिए ImageNet 2012 देखें:

  • CNNs: 15.315% (यह एक प्रारंभिक उदाहरण था। CNN अब बहुत बेहतर हैं। लगभग 4% शीर्ष -5%)
  • सर्वश्रेष्ठ गैर-सीएनएन: 26.172% टॉप -5 एरर ( स्रोत - मेरी ज्ञान तकनीकों तक, जो सीएनएन का उपयोग नहीं करते हैं, 25% टॉप -5 त्रुटि से कम नहीं हुआ)

एक क्लासिफायर बनाएं जो बेहतर हो और लोग उसी में शिफ्ट हो जाएं।

अद्यतन: मैं प्रकाशित साक्ष्य प्रदान करने वाले किसी व्यक्ति को उत्तर दूंगा कि सामान्य रूप से मशीन लर्निंग को आसानी से बेवकूफ बनाया जाता है, जैसे कि डीप लर्निंग के लिए यह साक्ष्य।

यह मामला नहीं है। आप एक वर्गीकरण बना सकते हैं जो एक साधारण डेटासेट पर बेहद सरल है। इसे बेवकूफ बनाना संभव नहीं होगा (इससे कोई फर्क नहीं पड़ता कि "आसान" का मतलब क्या है), लेकिन यह भी दिलचस्प नहीं है।


3
कम त्रुटि सामान्यीकरण का अर्थ नहीं है। यह आवश्यक है, लेकिन पर्याप्त नहीं है, स्थिति।
yters

3
@ कभी भी सामान्यीकरण को परिभाषित करते हैं।
मार्टिन थोमा

5
@yters, यह टिप्पणी मुझे लगता है कि आपने मशीन लर्निंग के बारे में ज्यादा नहीं पढ़ा है। मार्टिन ने कहा कि अनदेखी डेटा पर सटीकता । आप प्रशिक्षण डेटा पर सटीकता के बारे में बात कर रहे हैं। आप मूल रूप से सामान्यीकरण के बारे में सही हैं, लेकिन कृपया यह महसूस करें कि यहां बाकी सभी भी इसे समझते हैं
केन विलियम्स

1
@yters मुझे पूरा यकीन है कि केन (और इस साइट पर कई लोग, जिनमें मैं भी शामिल हूं) को यह पता है। यदि आपका परीक्षण सेट, हालांकि, आपके डेटासेट का प्रतिनिधित्व नहीं करता है तो आप सामान्यीकरण के बारे में कोई बयान नहीं दे सकते। हालांकि यह ध्यान में रखने योग्य है, मैं यह नहीं देखता कि यह इस प्रश्न के लिए किसी भी तरह से आपकी मदद कैसे करता है। आपको बस यह सुनिश्चित करना / सुनिश्चित करना है कि आपका परीक्षण सेट उत्पादन समय पर आपके डेटा का प्रतिनिधित्व करता है। वास्तव में, यह दिखाना बहुत आसान है कि आप किसी भी क्लासिफायर को मनमाना बुरा बना सकते हैं यदि प्रशिक्षण नमूने वितरण का प्रतिनिधित्व नहीं करते हैं।
मार्टिन थोमा

2
ज़ाहिर सी बात है। यदि यह गलत डेटा पर मान्य है, तो आप किसी मॉडल से अच्छी तरह से सामान्यीकरण की उम्मीद नहीं कर सकते। आपको बेहतर डेटा की जरूरत है, बेहतर मॉडल की नहीं।
Emre

9

एक शब्द का उत्तर "नियमितीकरण" है। भोले कुलपति आयाम सूत्र वास्तव में यहां लागू नहीं होते हैं क्योंकि नियमितीकरण के लिए आवश्यक है कि भार सामान्य न हो। वजन संयोजन के केवल एक छोटे (शिशु)? नियमितीकरण के बाद स्वीकार्य नुकसान होता है। सही आयाम परिणाम के रूप में कम परिमाण के कई आदेश हैं, इसलिए सामान्यीकरण हमारे पास प्रशिक्षण सेटों के साथ हो सकता है। वास्तविक जीवन के परिणाम यह बताते हैं कि ओवरफिटिंग आमतौर पर नहीं होती है।


2
मैंने बार-बार यह दावा देखा है कि वास्तविक जीवन के परिणाम गहन शिक्षण को सामान्य दिखाते हैं। वास्तव में सामान्यीकरण दिखाने वाले परिणाम क्या हैं? मैंने अब तक देखा है कि डीएल विशेष डेटासेट पर कम त्रुटि दर प्राप्त करता है, जिसका अर्थ यह नहीं है कि डीएल सामान्यीकरण करता है।
yters

3
यह डेटा पर अच्छे परिणाम ("अच्छा" = अन्य एमएल तरीकों से बेहतर) दिखाता है कि इसे प्रशिक्षित नहीं किया गया था । मुझे यकीन नहीं है कि आप और कैसे व्यावहारिक रूप से सामान्यीकरण को मापना चाहते हैं।
lvilnis

3

हम पेपर को संबोधित करते हैं: डीप लर्निंग को समझना आवश्यक है रीथिंकिंग सामान्यीकरण। में

पुनर्विचार सामान्यीकरण के लिए पुराने विचारों पर फिर से विचार करने की आवश्यकता है: सांख्यिकीय यांत्रिकी दृष्टिकोण और जटिल शिक्षण व्यवहार चार्ल्स एच। मार्टिन और माइकल डब्ल्यू। महोनी

देखें: https://arxiv.org/pdf/1710.09553.pdf

मूल रूप से, हम तर्क देते हैं कि वीसी सीमा बहुत ढीली है क्योंकि मौलिक दृष्टिकोण और कैसे ली गई सांख्यिकीय सीमा अवास्तविक है।

एक बेहतर दृष्टिकोण सांख्यिकीय यांत्रिकी में निहित है, जो डेटा आश्रित कार्यों के एक वर्ग पर विचार करता है, थर्मोडायनामिक सीमा लेता है (न केवल बड़ी संख्या की सीमा)

इसके अलावा, हम यह भी इंगित करते हैं कि सीखने की अवस्था में गहरी आवश्यकता में प्राकृतिक असंतुलन से चरण परिवर्तन कैसे हो सकता है, जिसे हम मानते हैं कि Google पेपर (ऊपर) में देखा जा रहा है।

सीमाओं के संबंध में, हमारे पेपर का खंड 4.2 देखें

"स्पष्ट रूप से, यदि हम नमूना आकार m को ठीक करते हैं और चलो [फंक्शन क्लास का आकार] N → ∞, [या vise वर्सा, फिक्स N, let m → ∞] हमें एक गैर-तुच्छ परिणाम की उम्मीद नहीं करनी चाहिए, क्योंकि [ एन] बड़ा हो रहा है, लेकिन नमूना आकार तय हो गया है। इस प्रकार, [सांख्यिकीय यांत्रिकी में] आमतौर पर इस मामले पर विचार करता है कि मीटर, एन → N जैसे कि α = m / N एक स्थिर स्थिर है। "

यही है, बहुत कम ही हम केवल अधिक डेटा (एम) को एक गहरे जाल में जोड़ देंगे। हम हमेशा नेट (एन) का आकार भी बढ़ाते हैं, क्योंकि हम जानते हैं कि हम डेटा से अधिक विस्तृत सुविधाओं / सूचनाओं को कैप्चर कर सकते हैं। इसके बजाय हम अभ्यास में करते हैं कि हम पेपर के लिए क्या तर्क देते हैं - बड़े आकार की सीमा लें, जिसमें अनुपात m / N नियत हो (जैसा कि फिक्सिंग मी और एन को बढ़ाने के लिए विरोध किया जाए)।

ये परिणाम सांख्यिकीय यांत्रिकी में लर्निंग के रूप में जाने जाते हैं। विश्लेषण अधिक जटिल है, लेकिन परिणाम बहुत समृद्ध संरचना की ओर ले जाते हैं जो गहरी सीखने में कई घटनाओं की व्याख्या करता है।

इसके अलावा, और विशेष रूप से, यह ज्ञात है कि आंकड़ों से कई सीमाएं या तो तुच्छ हो जाती हैं या गैर-चिकनी संभावना वितरण पर लागू नहीं होती हैं, या जब चर असतत मूल्यों पर ले जाते हैं। तंत्रिका नेटवर्क के साथ, गैर-तुच्छ व्यवहार उत्पन्न होता है क्योंकि असंतोष (सक्रियण कार्यों में), चरण संक्रमण के लिए अग्रणी (जो थर्मोडायनामिक सीमा में उत्पन्न होता है)।

हमने जो पेपर लिखा, वह कंप्यूटर विज्ञान के दर्शकों को मुख्य विचारों को समझाने की कोशिश करता है।

वापनिक ने खुद महसूस किया कि उनका सिद्धांत वास्तव में तंत्रिका नेटवर्क पर लागू नहीं था ... 1994 में वापस आ गया

"मल्टीलेयर नेटवर्क के लिए [वीसी आयाम] का विस्तार [कई] कठिनाइयों का सामना करता है.. मौजूदा लर्निंग एल्गोरिदम को नेटवर्क द्वारा कार्यान्वित कार्यों के पूरे सेट पर अनुभवजन्य जोखिम को कम करने के रूप में नहीं देखा जा सकता है ... [क्योंकि] यह है संभावना ... खोज को [इन] कार्यों के एक सबसेट तक सीमित किया जाएगा ... इस सेट की क्षमता पूरे सेट की क्षमता से बहुत कम हो सकती है ... [और] टिप्पणियों की संख्या के साथ बदल सकती है। इसके लिए एक सिद्धांत की आवश्यकता होती है, जो 'फ़ंक्शंस' के 'सक्रिय' उप-समूह के साथ एक गैर-स्थिर क्षमता की धारणा पर विचार करता है "
वापनिक, लेविन, और लेकुन 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

वीसी सिद्धांत के साथ इलाज करना आसान नहीं है, यह स्टेटस मच के लिए एक मुद्दा नहीं है..और जो वे वर्णन करते हैं वह प्रोटीन फोल्डिंग के एनर्जी लैंडस्केप थ्योरी की तरह दिखता है। (जो भविष्य के पेपर का विषय होगा)


यह दिलचस्प लगता है, लेकिन मुझे यकीन नहीं है कि मैं आपके तर्क का पालन करूंगा। क्या आप पहले वाक्य पर, यानी मौलिक दृष्टिकोण / सांख्यिकीय सीमा अवास्तविक है, इस तरह से स्व-निहित तरीके से बता सकते हैं कि सांख्यिकीय यांत्रिकी को समझने की आवश्यकता नहीं है? कुलपति सीमा क्या धारणा बनाते हैं, और वे अवास्तविक क्यों हैं? शायद आप उस जानकारी को शामिल करने के लिए अपने उत्तर को संपादित कर सकते हैं?
DW

मैंने वापनिक और लेकून (1994) द्वारा मूल काम के संदर्भ को जोड़ा, जो इस मुद्दे पर चर्चा करता है।
चार्ल्स मार्टिन

और कुछ स्पष्टीकरण जोड़ा।
चार्ल्स मार्टिन

1

उपरोक्त उत्तरों में किसी ने भी यह नहीं कहा है कि वीसी आयाम सूत्र केवल 1-परत तंत्रिका नेटवर्क के लिए उद्धृत है। मेरा अनुमान है कि वीसी आयाम वास्तव में तेजी से बढ़ता है क्योंकि एल की संख्या बढ़ जाती है। मेरा तर्क गहरे तंत्रिका नेटवर्क पर विचार करने पर आधारित है जहां सक्रियण समारोह को बहुपदों द्वारा प्रतिस्थापित किया जाता है। फिर परतों के बढ़ने के साथ ही निर्मित बहुपद की डिग्री तेजी से बढ़ती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.