deep-learning पर टैग किए गए जवाब

मशीन लर्निंग का एक क्षेत्र डेटा के पदानुक्रमित अभ्यावेदन सीखने से संबंधित है, जो मुख्य रूप से गहरे तंत्रिका नेटवर्क के साथ किया जाता है।

1
छोटे डेटासेट पर LSTM के ओवरफिटिंग को रोकना
मैं 80 परतों के साथ एक word2vec जैसे प्रतिनिधित्व का उपयोग करते हुए 128 छिपी इकाइयों के साथ एक परत LSTM का उपयोग कर भावना भविष्यवाणी के लिए 15000 ट्वीट्स मॉडलिंग कर रहा हूं। मुझे 1 युग के बाद एक वंश सटीकता (यादृच्छिक = 20% के साथ 38%) मिलती है। …

1
गहरे नेटवर्क की LSTM परत को कैसे प्रशिक्षित करें
मैं टेक्स्ट को वर्गीकृत करने के लिए एक lstm और फीड-फॉरवर्ड नेटवर्क का उपयोग कर रहा हूं। मैं पाठ को एक-गर्म वैक्टर में परिवर्तित करता हूं और प्रत्येक को lstm में फ़ीड करता हूं ताकि मैं इसे एकल प्रतिनिधित्व के रूप में सारांशित कर सकूं। फिर मैं इसे दूसरे नेटवर्क …

3
मैट्रिक्स गुणन के स्थान पर कन्वेन्शियल न्यूरल नेटवर्क वास्तव में कनवल्शन का उपयोग कैसे करते हैं?
मैं गहराई से सीखने पर यशुआ बेंगियो की किताब पढ़ रहा था और यह पेज 224 पर कहती है: संवेदी नेटवर्क केवल तंत्रिका नेटवर्क हैं जो कम से कम एक परत में सामान्य मैट्रिक्स गुणन के स्थान पर दृढ़ संकल्प का उपयोग करते हैं। हालाँकि, मैं गणितीय रूप से सटीक …

1
व्यवहार में प्रयुक्त "सैडल-फ्री न्यूटन" वंश एल्गोरिथ्म क्यों नहीं है?
हाल ही में मैंने Yann Dauphin et al द्वारा एक पेपर पढ़ा है। उच्च-आयामी गैर-उत्तल अनुकूलन में काठी बिंदु समस्या की पहचान करना और उस पर हमला करना , जहां वे सैडल-फ्री न्यूटन नामक एक दिलचस्प वंश एल्गोरिथ्म का परिचय देते हैं , जो तंत्रिका नेटवर्क अनुकूलन के लिए बिल्कुल …


2
Keras: क्यों घट जाती है जबकि val_loss बढ़ जाती है?
मैंने पैरामस के एक समूह के लिए ग्रिड खोज की स्थापना की। मैं एक केरस तंत्रिका जाल के लिए सबसे अच्छा पैरामीटर खोजने की कोशिश कर रहा हूं जो बाइनरी वर्गीकरण करता है। आउटपुट या तो 1 या 0. एक लगभग 200 विशेषताएं हैं। जब मैंने एक ग्रिड खोज की, …

1
स्टोचस्टिक ग्रेडिएंट डिसेंट (SGD) के लिए एक उपयुक्त मिनीबैच आकार चुनना
क्या कोई साहित्य है जो स्टोकेस्टिक क्रमिक वंश प्रदर्शन करते समय मिनीबच आकार की पसंद की जांच करता है? मेरे अनुभव में, यह एक अनुभवजन्य विकल्प प्रतीत होता है, जो आमतौर पर क्रॉस-मान्यता के माध्यम से या अंगूठे के अलग-अलग नियमों का उपयोग करके पाया जाता है। क्या यह एक …

2
Google इंसेप्शन मॉडल: क्यों कई सॉफ्टमैक्स है?
Google इंसेप्शन मॉडल की टोपोलॉजी यहां पाई जा सकती है: Google इंसेप्शन नेटवॉर्क मैंने देखा कि इस मॉडल में 3 सॉफ्टमैक्स परत है (# 154, # 152, # 145), और उनमें से 2 इस मॉडल के जल्दी भागने के कुछ प्रकार हैं। मुझे जो पता है, सॉफ्टमैक्स लेयर अंतिम आउटपुट …

3
क्या तंत्रिका नेटवर्क (जैसे, दृढ़ तंत्रिका नेटवर्क) में नकारात्मक भार हो सकते हैं?
जब हम सभी सक्रियण परतों के लिए ReLU का उपयोग करते हैं, तो गहन अवक्षेपण तंत्रिका नेटवर्क के लिए नकारात्मक भार (पर्याप्त अवधि के बाद) होना संभव है?

5
क्या तंत्रिका जाल / गहन सीखने को डिजाइन करने और लागू करने के लिए एक दृश्य उपकरण है? [बन्द है]
बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह क्रॉस मान्य के लिए विषय पर हो । 10 महीने पहले बंद हुआ । मुझे पता है कि मशीन सीखने और …

1
बैच सामान्यीकरण के साथ बैकप्रोपैजेशन का मैट्रिक्स रूप
बैच तंत्रिकाकरण को गहरे तंत्रिका जाल में पर्याप्त प्रदर्शन सुधार के साथ श्रेय दिया गया है। इंटरनेट पर बहुत सारी सामग्री यह बताती है कि इसे सक्रियण-दर-सक्रियण के आधार पर कैसे लागू किया जाए। मैंने पहले से ही मैट्रिक्स बीजगणित का उपयोग करके बैकप्रॉप लागू किया है, और यह देखते …

3
तंत्रिका आर्किटेक्चर: डेटा-सूचित स्वचालित डिजाइन
तंत्रिका नेटवर्क में हालिया प्रगति मुख्य रूप से इसकी बढ़ती डिजाइन जटिलता द्वारा विशेषता उपन्यास आर्किटेक्चर के एक अनुक्रम द्वारा संक्षेपित है। LeNet5 (1994) से लेकर एलेक्सनेट (2012) तक, ओवरफेट (2013) और GoogleLNet / इंसेप्शन (2014) और इतने पर ... क्या मशीन को तय करने / डिजाइन करने की कोई …

4
ऑप्टिमाइज़र के रूप में ग्रेडिएंट डिसेंट होने के लिए (व्यवस्थित) धुन सीखने की दर कैसे?
एमएल / डीएल क्षेत्र के लिए एक बाहरी व्यक्ति; उनेसिटी डीप लर्निंग कोर्स शुरू किया जो टेनसफ़्लो पर आधारित है; असाइनमेंट 3 समस्या 4 कर रहा है; निम्नलिखित विन्यास के साथ सीखने की दर को धुनने की कोशिश कर रहा है: बैच का आकार 128 चरणों की संख्या: 2 युगों …

2
समय (RNN / LSTM) के माध्यम से छंटनी किए गए बैकप्रोगैजेशन का उपयोग करते समय प्रारंभिक पैटर्न को पकड़ना
यह कहें कि मैं एक RNN / LSTM का उपयोग भावना विश्लेषण करने के लिए करता हूं, जो कि कई-से-एक दृष्टिकोण है ( इस ब्लॉग को देखें )। नेटवर्क को समय (BPTT) के माध्यम से एक काट-छाँट backpropagation के माध्यम से प्रशिक्षित किया जाता है, जहां नेटवर्क को हमेशा की …

2
क्यों 0-1 नुकसान समारोह अचूक है?
इयान गुडफेलो की डीप लर्निंग किताब में, यह लिखा है कि कभी-कभी, नुकसान समारोह जिसे हम वास्तव में परवाह करते हैं (कहते हैं, वर्गीकरण त्रुटि) वह नहीं है जिसे कुशलता से अनुकूलित किया जा सकता है। उदाहरण के लिए, अनुमानित 0-1 नुकसान को कम करना आमतौर पर एक रेखीय क्लासिफायरियर …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.