ध्वनि वर्गीकरण के लिए सुविधा निष्कर्षण

16

मैं एक ध्वनि फ़ाइल से सुविधाओं को निकालने और एक विशेष श्रेणी (जैसे: कुत्ते की छाल, वाहन इंजन आदि) के रूप में ध्वनि को वर्गीकृत करने की कोशिश कर रहा हूं। मुझे निम्नलिखित बातों पर कुछ स्पष्टता चाहिए:

1) यह सब करने योग्य है? ऐसे कार्यक्रम हैं जो भाषण को पहचान सकते हैं, और विभिन्न प्रकार के कुत्ते की छाल के बीच अंतर कर सकते हैं। लेकिन क्या ऐसा प्रोग्राम होना संभव है जो ध्वनि नमूना प्राप्त कर सकता है और बस यह कह सकता है कि यह किस तरह की ध्वनि है? (मान लें कि एक डेटाबेस है जिसमें बहुत सारे ध्वनि नमूने हैं)। इनपुट साउंड सैंपल थोड़ा शोर (माइक्रोफोन इनपुट) हो सकता है।

2) मुझे लगता है कि पहला कदम ऑडियो सुविधा निष्कर्षण है। यह लेख MFCC को निकालने और उन्हें मशीन लर्निंग एल्गोरिदम को खिलाने का सुझाव देता है। क्या एमएफसीसी पर्याप्त है? क्या कोई अन्य विशेषताएं हैं जो आमतौर पर ध्वनि वर्गीकरण के लिए उपयोग की जाती हैं?

आपके समय के लिए शुक्रिया।

— केविन मार्टिन जोस
स्रोत

15

लंबे शॉट से यह संभव है - किसका विस्तार करें? तुम देखोगे। पर्यावरणीय ध्वनि वर्गीकरण का यह कार्य बहुत अच्छी तरह से अध्ययन नहीं किया गया है। मशीन सीखने के प्रतिमान का चुनाव भी महत्वपूर्ण है - सांख्यिकीय दृष्टिकोण या शायद बाइनरी क्लासिफायरियर? आप GMM, ANN और SVM से शुरू कर सकते हैं - मैं GMM और ANN के लिए विकल्प चुनता हूं।
हां, अधिकांश लोग एमएफसीसी का उपयोग कर रहे हैं क्योंकि वे अच्छी तरह से सहसंबद्ध हैं जो लोग वास्तव में सुन रहे हैं और यह भी कि कोई भी व्यक्ति पहले से बेहतर नहीं है। आप MPEG-7 डिस्क्रिप्टर जैसे अतिरिक्त सुविधाओं को भी जोड़ना चाह सकते हैं। उचित सुविधा अनुकूलन का प्रदर्शन किया जाना चाहिए क्योंकि कभी-कभी आपको इतनी सारी विशेषताओं की आवश्यकता नहीं होती है, खासकर जब वे अलग नहीं होते हैं। अधिक जानकारी के लिए कृपया मेरे पिछले उत्तरों को देखें:

स्पेक्ट्रम से सुविधा निष्कर्षण

MFCC निष्कर्षण

नाद का पता लगाना

— जोजेक
स्रोत

मैं शाम को अपने जवाब का विस्तार करूंगा।

— jojek

अभी भी विस्तारित उत्तर की प्रतीक्षा कर रहा है ...

— नितिन

शाम ... में

— jojek

4

गैर-मौखिक ऑडियो (अकेले पर्यावरण को छोड़ दें) चित्रों, भाषण, पाठ जैसे मीडिया स्ट्रीम सीखने के मुख्य स्ट्रीम मशीन के लिए छोटा भाई लगता है।

आपके प्रश्न का उत्तर देने के लिए किसी दिए गए ध्वनि की पहचान करने के लिए एक नेटवर्क को प्रशिक्षित करना संभव है? हाँ यही है! लेकिन यह सभी समान कारणों के लिए कठिन है मशीन सीखना कठिन है।

हालाँकि जो वास्तव में ऑडियो वापस पकड़ रहा है, और मैं इसे छवियों और भाषण के लिए छोटा भाई क्यों कहता हूं, यह ऑडियो के बड़े पैमाने पर लेबल किए गए डेटासेट की कमी के कारण है। स्पीच के लिए TIMIT है, Images के लिए कई ImagenNet, CIFAR, Caltech हैं, पाठ और प्राकृतिक भाषा प्रसंस्करण के लिए साहित्य की विशाल मात्राएं हैं, आदि।

मेरे ज्ञान के लिए सबसे बड़े दो गैर-मौखिक मानव * लेबल ऑडियो डेटासेट अर्बनसाइड्स और ईएससी -100 डेटासेट हैं, जो वास्तव में गहरे सीखने के दृष्टिकोण के लिए निषेधात्मक रूप से छोटे हैं। 2-लेयर कन्वनेट का उपयोग करके इन डेटासेट पर कुछ प्रकाशित मिश्रित परिणाम हैं।

एमएफसीसी विशेषताएं सामान्य रूप से भाषण मान्यता और ऑडियो विश्लेषण में एक अच्छी तरह से स्थापित आधारभूत सुविधा प्रतिनिधित्व हैं। लेकिन अन्य ऑडियो फीचर अभ्यावेदन के टन हैं! यह पेपर ऑडियो फीचर प्रकारों का एक अच्छा वर्गीकरण करता है।

सबसे रोमांचक काम जो मैंने हाल ही में देखा है वह साउंड क्लासिफिकेशन कर रहा है, जिसे कुछ लोग दीपमाइंड में कर रहे हैं, जिसे वेवनेट कहा जाता है ।

— beeCwright
स्रोत

3

यहां 10 कक्षाओं के लिए ध्वनि वर्गीकरण के लिए एक समाधान है: कुत्ते के भौंकने, कार के सींग, बच्चों के खेलने आदि। यह तंत्रिका नेटवर्क का उपयोग करके टेंसोफ़्लो लाइब्रेरी पर आधारित है। साउंड क्लिप को स्पेक्ट्रोग्राम में परिवर्तित करके फीचर निकाले जाते हैं

— abggcv
स्रोत

3

बस लिंक एक उत्तर के रूप में पर्याप्त अच्छा नहीं है।

— गाइल्स

हां, कृपया लिंक का विस्तार करें।

— पीटर के.एच.

2

लेकिन फिर भी लिंक के लिए धन्यवाद।

— केविन मार्टिन जोस

वास्तव में मैं लिंक में दी गई ट्यूटोरियल में उपयोग की जाने वाली तकनीकों पर अधिक समझने की कोशिश कर रहा हूं। ध्वनि संकेतों में मेरा ज्ञान बहुत सीमित है क्योंकि मैं एक कंप्यूटर दृष्टि और छवि प्रसंस्करण आदमी हूं। जब मैं कुछ बेहतर समझ पाऊंगा तो उत्तर के बारे में विस्तार से बताने की कोशिश करूंगा।

— abggcv

1

हाँ, यह अत्यंत उल्लेखनीय है। यद्यपि एनएन इस तरह के वर्गीकरण प्रशिक्षण में उत्कृष्ट हैं, वे आवश्यक भी नहीं हो सकते हैं - सुविधाओं के एक अच्छी तरह से चुने हुए सेट के साथ, बस क्लासिक क्लस्टरिंग एल्गोरिदम जैसे कि गौसियन मिश्रण मॉडल, या प्रमुख घटक विश्लेषण, शायद अच्छी तरह से करेंगे। । आधुनिक पुस्तकालय इस सामान को लगभग 95% समय या उससे अधिक समय में प्राप्त कर सकते हैं।

— johnwbyrd
स्रोत