मैं वर्तमान में इस पेपर के परिणामों को फिर से बनाने पर काम कर रहा हूं । कागज में वे सुविधाओं के निष्कर्षण के लिए सीएनएन का उपयोग करने के लिए एक विधि का वर्णन करते हैं, और एक ध्वनिक मॉडल है जो डीएनएन-हम्म है और आरबीएम का उपयोग करने का दिखावा किया है।
धारा III उपधारा अलग-अलग तरीके बताती है कि इनपुट डेटा का प्रतिनिधित्व किया जा सकता है। मैंने स्थैतिक, डेल्टा और डेल्टा डेल्टा के स्पेक्ट्रम प्लॉट को लंबवत रूप से स्टैक करने का निर्णय लिया।
फिर पेपर बताता है कि नेटवर्क कैसा होना चाहिए। वे कहते हैं कि वे एक नेटवर्क का उपयोग करते हैं, लेकिन नेटवर्क की संरचना के बारे में कुछ भी नहीं है? इसके अलावा और अधिक नेटवर्क हमेशा एक जटिल प्लाई के रूप में जाना जाता है? जो मुझे यकीन है कि मैं एक सामान्य नेटवर्क कन्वेन्शनल न्यूरल नेटवर्क (cnn) की तुलना में कोई अंतर देखता हूँ।
इस अंतर के बारे में कागज बताता है:
(धारा III उपधारा बी से)
एक दृढ़ संकल्प प्लाई एक मानक से भिन्न होता है, हालांकि दो महत्वपूर्ण पहलुओं में पूरी तरह से छिपी हुई परत। सबसे पहले, प्रत्येक संधारित्र इकाई इनपुट के केवल एक स्थानीय क्षेत्र से इनपुट प्राप्त करती है। इसका अर्थ है कि प्रत्येक इकाई इनपुट के एक स्थानीय क्षेत्र की कुछ विशेषताओं का प्रतिनिधित्व करती है। दूसरा, कन्वेन्शन प्लाई की इकाइयाँ स्वयं कई फीचर मैप में व्यवस्थित हो सकती हैं, जहाँ एक ही फ़ीचर मैप में सभी इकाइयाँ समान भार साझा करती हैं, लेकिन निचली परत के विभिन्न स्थानों से इनपुट प्राप्त करती हैं।
एक और बात मैं सोच रहा था कि क्या कागज वास्तव में बताता है कि dnn-hmm ध्वनिक मॉडल को खिलाने के लिए कितने आउटपुट पैरामीटर की आवश्यकता है। मैं नेटवर्क के सामान्य विवरणों में फ़िल्टर, फ़िल्टर आकार .. की संख्या को डिकोड नहीं कर सकता?