यहाँ सौदा है:
तकनीकी रूप से आपने सही वाक्य लिखे (दोनों मॉडल किसी भी 'पागल भी नहीं हैं' समारोह को पर्याप्त पैरामीटर दिए गए हैं), लेकिन वे वाक्य आपको कहीं भी नहीं मिलते हैं!
ऐसा क्यों है? खैर, सार्वभौमिक सन्निकटन सिद्धांत, या किसी अन्य औपचारिक प्रमाण पर एक करीब से नज़र डालें जो कि एक तंत्रिका नेटवर्क किसी भी f (x) की गणना कर सकता है यदि ENOUGH न्यूरॉन्स हैं।
उन सभी प्रकार के प्रमाण जो मैंने देखे हैं, केवल एक छिपी हुई परत का उपयोग करते हैं।
कुछ इंट्रस्ट के लिए यहां देखें http://neuralnetworksanddeeplearning.com/chap5.html । वहाँ काम कर रहे हैं कि एक तरह से न्यूरॉन्स की संख्या तेजी से बढ़ने की जरूरत है अगर आप सिर्फ एक परत का उपयोग कर रहे हैं।
तो, जबकि सिद्धांत रूप में आप सही हैं, व्यवहार में, आपके पास स्मृति की अनंत मात्रा नहीं है, इसलिए आप वास्तव में 2 ^ 1000 न्यूरॉन्स नेट को प्रशिक्षित नहीं करना चाहते हैं, क्या आप? यहां तक कि अगर आपके पास अनंत मात्रा में मेमोरी है, तो यह सुनिश्चित करने के लिए शुद्ध हो जाएगा।
मेरे दिमाग में, एमएल का सबसे महत्वपूर्ण बिंदु व्यावहारिक बिंदु है! चलो उस पर थोड़ा विस्तार करें। यहाँ असली बड़ा मुद्दा यह नहीं है कि प्रशिक्षण सेट के बाहर बहुपत्नी कैसे बहुत तेज़ी से बढ़ती / घटती है। हर्गिज नहीं। एक त्वरित उदाहरण के रूप में, किसी भी चित्र का पिक्सेल प्रत्येक आरजीबी रंग के लिए एक बहुत ही विशिष्ट सीमा ([0,255]) के भीतर होता है, ताकि आप निश्चिंत रहें कि कोई भी नया नमूना आपके प्रशिक्षण सेट मानों के भीतर होगा। नहीं। बड़ी बात यह है: यह तुलना (!) के साथ शुरू करने के लिए उपयोगी नहीं है।
मेरा सुझाव है कि आप एमएनआईएसटी के साथ थोड़ा सा प्रयोग करेंगे, और केवल एक ही परत का उपयोग करके वास्तविक परिणाम देख सकते हैं।
प्रैक्टिकल नेट्स एक से अधिक छिपी हुई परतों का उपयोग करते हैं, कभी-कभी दर्जनों (अच्छी तरह से, Resnet और भी अधिक ...) परतों का। किसी कारण से। वह कारण साबित नहीं हुआ है, और सामान्य तौर पर, तंत्रिका जाल के लिए एक वास्तुकला का चयन करना अनुसंधान का एक गर्म क्षेत्र है। दूसरे शब्दों में, जबकि हमें अभी भी अधिक जानने की जरूरत है, दोनों मॉडल जो आपने तुलना किए हैं (रैखिक प्रतिगमन और एनएन सिर्फ एक छिपी हुई परत के साथ), कई डेटासेट के लिए, जो भी उपयोगी नहीं है!
वैसे, यदि आप एमएल में पहुंचेंगे, तो एक और बेकार प्रमेय है जो वास्तव में 'शोध का क्षेत्र' है- पीएसी (शायद लगभग सही) / वीसी आयाम। मैं उस पर एक बोनस के रूप में विस्तार करूंगा:
यदि सार्वभौमिक सन्निकटन में मूल रूप से कहा गया है कि अनंत मात्रा में न्यूरॉन्स दिए गए हैं, तो हम किसी भी फ़ंक्शन का अनुमान लगा सकते हैं (बहुत-बहुत धन्यवाद!), व्यावहारिक रूप से पीएसी जो कहती है, वह (व्यावहारिक रूप से) लेबल किए गए उदाहरणों की अनंत राशि है जो हम करीब से प्राप्त कर सकते हैं! हमारे मॉडल के भीतर सबसे अच्छी परिकल्पना करना चाहते हैं। यह बिल्कुल प्रफुल्लित करने वाला था जब मैंने एक व्यावहारिक नेट के लिए आवश्यक कुछ उदाहरणों की वास्तविक मात्रा की गणना कुछ ओकीश संभावना के साथ व्यावहारिक वांछित त्रुटि दर के भीतर की थी :) यह ब्रह्मांड में इलेक्ट्रॉनों की संख्या से अधिक थी। इसे बढ़ावा देने के लिए PS यह भी मानता है कि नमूने IID हैं (यह कभी सच नहीं है!)।