ऑडियो वर्गीकरण के लिए एक दृढ़ गहन विश्वास नेटवर्क को कैसे समझा जाए?

11

"में श्रेणीबद्ध अभ्यावेदन की स्केलेबल के चलते किसी सीखने के लिए Convolutional गहरे विश्वास नेटवर्क ली एट द्वारा"। अल। ( पीडीएफ ) रूपांतरण डीबीएन प्रस्तावित हैं। इसके अलावा छवि वर्गीकरण के लिए विधि का मूल्यांकन किया जाता है। यह तार्किक लगता है, क्योंकि प्राकृतिक स्थानीय छवि विशेषताएं हैं, जैसे छोटे कोने और किनारे आदि।

में " के चलते किसी सुविधा convolutional गहरे विश्वास नेटवर्क का उपयोग कर ऑडियो वर्गीकरण के लिए सीखने ली एट द्वारा"। अल। इस पद्धति को विभिन्न प्रकार के वर्गीकरणों में ऑडियो के लिए लागू किया जाता है। स्पीकर पहचान, लिंग इंडेंटिफिकेशन, फोन वर्गीकरण और कुछ संगीत शैली / कलाकार वर्गीकरण।

ऑडियो के लिए इस नेटवर्क के जटिल भाग की व्याख्या कैसे की जा सकती है, जैसे कि इसे किनारों के रूप में छवियों के लिए समझाया जा सकता है?

— पीटर स्मिट
स्रोत

पेपर के लिए कोड किसके पास है?

9

ऑडियो एप्लिकेशन द्वि-आयामी छवि वर्गीकरण समस्या का एक-आयामी सरलीकरण है। एक फोनेमे (उदाहरण के लिए) एक छवि विशेषता का ऑडियो एनालॉग है जैसे कि एक किनारे या एक सर्कल। किसी भी मामले में ऐसी विशेषताओं में एक आवश्यक स्थानीयता होती है: वे एक छवि स्थान के अपेक्षाकृत छोटे पड़ोस या भाषण के क्षण के भीतर मूल्यों की विशेषता होती हैं। बातचीत स्थानीय पड़ोस में मूल्यों के औसत भारित नियंत्रित, नियमित रूप हैं। इसी से यह आशा व्यक्त की कि एक निकलती है convolutional एक DBN के रूप की पहचान करने और सुविधाओं है कि सार्थक कर रहे हैं भेदभाव पर सफल हो सकते हैं।

— व्हीबर
स्रोत

1

ऑडियो डेटा के लिए कंफ़्यूशनल आरबीएम के लागू होने के मामले में, लेखकों ने पहले शॉर्ट टर्म फूरियर ट्रांसफॉर्म और फिर स्पेक्ट्रम पर ऊर्जा बैंड को परिभाषित किया है। तब उन्होंने ट्रांसफॉर्म किए गए आरबीएम को उस रूपांतरित ऑडियो पर लागू किया है।

— user1915348
स्रोत