1 छिपी हुई परत 1000 न्यूरॉन्स बनाम 10 छिपी हुई परतें 100 न्यूरॉन्स के साथ


13

इस प्रकार के प्रश्न समस्या-आश्रित हो सकते हैं, लेकिन मैंने शोध खोजने की कोशिश की है जो इस प्रश्न को संबोधित करता है कि क्या छिपी हुई परतों की संख्या और उनका आकार (प्रत्येक परत में न्यूरॉन्स की संख्या) वास्तव में मायने रखती है या नहीं।

तो मेरा सवाल यह है कि क्या यह वास्तव में मायने रखता है अगर हम उदाहरण के लिए 1000 न्यूरॉन्स की 1 बड़ी छिपी हुई परत बनाम 10 छिपी हुई परतें 100 न्यूरॉन्स प्रत्येक के साथ हैं?

जवाबों:


12

मूल रूप से, कई परतें (उर्फ एक गहरा नेटवर्क) होने से आपके नेटवर्क को इनपुट डेटा के कुछ पहलुओं को पहचानने के लिए अधिक उत्सुक बनाता है। उदाहरण के लिए, यदि आपके पास इनपुट के रूप में एक घर (आकार, लॉन आकार, स्थान आदि) का विवरण है और कीमत का अनुमान लगाना चाहते हैं। पहली परत भविष्यवाणी कर सकती है:

  • बड़ा क्षेत्र, उच्च कीमत
  • बेडरूम की छोटी मात्रा, कम कीमत

दूसरी परत समाप्त हो सकती है:

  • बड़ा क्षेत्र + बेडरूम की छोटी राशि = बड़े बेडरूम = + प्रभाव

हां, एक परत आँकड़ों का 'पता' भी लगा सकती है, हालाँकि इसके लिए अधिक न्यूरॉन्स की आवश्यकता होगी क्योंकि यह उस मूर्ति का पता लगाने के लिए आवश्यक कुल गणना के 'भागों' को करने के लिए अन्य न्यूरॉन्स पर भरोसा नहीं कर सकता है।

इस उत्तर को देखें


अपने जवाब के लिए आपको बहुत बहुत धन्यवाद। बस स्पष्ट करने के लिए, जब आप लिखते हैं "यह आपका नेटवर्क बनाता है [...]", क्या आप उस मामले का जिक्र कर रहे हैं, जब मेरे पास कम परतों में कई न्यूरॉन्स के साथ कई छिपी हुई परतें हैं, बजाय कम परतों में अधिक न्यूरॉन्स होने के?
स्टीफन जॉनसन

@StephenJohnson ओह, मैंने प्रश्न संपादित किया। मैं गहरे नेटवर्क (कई परतों) की बात कर रहा हूँ।
थॉमस डब्ल्यू

अच्छा जवाब, फिर से धन्यवाद। शायद मुझे इसे दूसरे धागे में जारी रखना चाहिए, लेकिन क्या आपको लगता है कि जीआरयू या एलएसटीएम जैसे आवर्ती तंत्रिका नेटवर्क पर उसी तरह का तर्क लागू होता है?
स्टीफन जॉनसन

@StephenJohnson क्या आपका मतलब है कि एक स्तरित आवर्तक नेटवर्क बनाम बहुपरत आवर्तक नेटवर्क या आप अपने आवर्तक कनेक्शन के कारण हैं?
थॉमस डब्ल्यू

मेरा आम तौर पर मतलब है, क्योंकि उनके पास आवर्ती कनेक्शन हैं जो उन्हें लंबी दूरी पर संदर्भों को मैप करने की अनुमति देते हैं, क्या इस तरह के नेटवर्क को डीप होने का फायदा उसी तरह से मिलता है जैसे एक नियमित फीडफोवर्ड नेटवर्क को होता है? शायद उनकी तुलना इस तरह से नहीं की जा सकती क्योंकि आवर्ती नेटवर्क का उपयोग आमतौर पर तब किया जाता है जब अनुक्रमिक डेटा, जैसे कि ऑडियो का उपयोग किया जाता है।
स्टीफन जॉनसन

4

बहुत सारे पहलू हैं।

1. प्रशिक्षण: गायब होने (तेजी से विस्फोट) प्रवणता समस्या के कारण गहन जाल प्रशिक्षण कठिन काम है। इसलिए 10x100 न्यूरल-नेट बनाने की सिफारिश नहीं की जाती है।

2. प्रशिक्षित नेटवर्क प्रदर्शन:

  • सूचना की हानि: तंत्रिका जाल का शास्त्रीय उपयोग वर्गीकरण समस्या है। जिसका अर्थ है कि हम डेटा से कुछ अच्छी तरह से परिभाषित जानकारी प्राप्त करना चाहते हैं। (पूर्व। क्या तस्वीर में कोई चेहरा है या नहीं।) इसलिए आमतौर पर वर्गीकरण की समस्या में बहुत अधिक इनपुट होते हैं, और कुछ आउटपुट, छिपी हुई परतों का आकार इनपुट से आउटपुट तक अधिक होता है। हालांकि, हम परत द्वारा कम न्यूरॉन्स परत का उपयोग करके जानकारी को नुकसान पहुंचाते हैं। (यानी। हम इस तथ्य के आधार पर मूल छवि को पुन: पेश नहीं कर सकते हैं कि उस पर कोई चेहरा है या नहीं।) इसलिए आपको पता होना चाहिए कि इनपुट के आकार के होने पर आपको जानकारी 100 न्यूरॉन्स का उपयोग करने की हानि होती है (कहने दें) 1000।
  • सूचना जटिलता: हालाँकि गहरे जाल (जैसा कि टॉमस डब्ल्यू ने उल्लेख किया है) इनपुट डेटा से अधिक जटिल जानकारी प्राप्त कर सकते हैं। इसके बावजूद इसकी पूरी तरह से जुड़ी 10 परतों का उपयोग करने की अनुशंसा नहीं की गई है। इसकी सलाह दी गई है कि संकेंद्रित / रिले / अधिकतम या अन्य प्रकार की परतों का उपयोग करें। फायरस्ट लेयर इनपुट के कुछ आवश्यक भाग को संपीड़ित कर सकते हैं। (चित्र के विशिष्ट भाग में कोई रेखा है) दूसरी परतें कह सकती हैं: चित्र में इस स्थान का एक विशिष्ट आकार है। आदि आदि।

इतना गहरा जाल अधिक "चतुर" है लेकिन 10x100 शुद्ध संरचना एक अच्छा विकल्प है।


1

यदि आप जो समस्या हल कर रहे हैं वह रैखिक रूप से अलग है, 1000 न्यूरॉन्स की एक परत 100 न्यूरॉन्स में से प्रत्येक के साथ 10 परतों से बेहतर काम कर सकती है। यदि समस्या गैर रैखिक है और उत्तल नहीं है, तो आपको गहरे तंत्रिका जाल की आवश्यकता है।


2
यदि समस्या रैखिक रूप से अलग है, तो आपको छिपी हुई परतों की आवश्यकता नहीं है
Amedeo Baragiola

0

मुझे लगता है कि आपको तंत्रिका नेटवर्क की मूल बातें में भ्रम है। हर लेयर का एक अलग एक्टिवेशन फंक्शन और इनपुट / आउटपुट कनेक्शन वेट होता है।

पहली छिपी हुई परत के उत्पादन को एक वजन से गुणा किया जाएगा, जो अगली परत में एक सक्रियण फ़ंक्शन द्वारा संसाधित किया जाएगा और इसी तरह। सिंगल लेयर न्यूरल नेटवर्क सरल कार्यों के लिए बहुत सीमित हैं, गहरे एनएन एक परत की तुलना में बेहतर प्रदर्शन कर सकते हैं।

हालांकि, अगर आपके आवेदन काफी जटिल नहीं है, तो परत से अधिक का उपयोग न करें। अंत में, 100 न्यूरॉन्स परत का मतलब 10 परतों x 10 न्यूरॉन्स से बेहतर तंत्रिका नेटवर्क नहीं है, लेकिन 10 परतें कुछ काल्पनिक हैं जब तक कि आप गहन शिक्षा नहीं कर रहे हैं। छिपी हुई परत में 10 न्यूरॉन्स के साथ शुरू करें और अंतर देखने के लिए परतों को जोड़ने या एक ही परत में अधिक न्यूरॉन्स जोड़ने का प्रयास करें। अधिक परतों के साथ सीखना आसान होगा लेकिन अधिक प्रशिक्षण समय की आवश्यकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.