ध्वनि वर्गीकरण के लिए सुविधा निष्कर्षण


16

मैं एक ध्वनि फ़ाइल से सुविधाओं को निकालने और एक विशेष श्रेणी (जैसे: कुत्ते की छाल, वाहन इंजन आदि) के रूप में ध्वनि को वर्गीकृत करने की कोशिश कर रहा हूं। मुझे निम्नलिखित बातों पर कुछ स्पष्टता चाहिए:

1) यह सब करने योग्य है? ऐसे कार्यक्रम हैं जो भाषण को पहचान सकते हैं, और विभिन्न प्रकार के कुत्ते की छाल के बीच अंतर कर सकते हैं। लेकिन क्या ऐसा प्रोग्राम होना संभव है जो ध्वनि नमूना प्राप्त कर सकता है और बस यह कह सकता है कि यह किस तरह की ध्वनि है? (मान लें कि एक डेटाबेस है जिसमें बहुत सारे ध्वनि नमूने हैं)। इनपुट साउंड सैंपल थोड़ा शोर (माइक्रोफोन इनपुट) हो सकता है।

2) मुझे लगता है कि पहला कदम ऑडियो सुविधा निष्कर्षण है। यह लेख MFCC को निकालने और उन्हें मशीन लर्निंग एल्गोरिदम को खिलाने का सुझाव देता है। क्या एमएफसीसी पर्याप्त है? क्या कोई अन्य विशेषताएं हैं जो आमतौर पर ध्वनि वर्गीकरण के लिए उपयोग की जाती हैं?

आपके समय के लिए शुक्रिया।

जवाबों:


15
  1. लंबे शॉट से यह संभव है - किसका विस्तार करें? तुम देखोगे। पर्यावरणीय ध्वनि वर्गीकरण का यह कार्य बहुत अच्छी तरह से अध्ययन नहीं किया गया है। मशीन सीखने के प्रतिमान का चुनाव भी महत्वपूर्ण है - सांख्यिकीय दृष्टिकोण या शायद बाइनरी क्लासिफायरियर? आप GMM, ANN और SVM से शुरू कर सकते हैं - मैं GMM और ANN के लिए विकल्प चुनता हूं।
  2. हां, अधिकांश लोग एमएफसीसी का उपयोग कर रहे हैं क्योंकि वे अच्छी तरह से सहसंबद्ध हैं जो लोग वास्तव में सुन रहे हैं और यह भी कि कोई भी व्यक्ति पहले से बेहतर नहीं है। आप MPEG-7 डिस्क्रिप्टर जैसे अतिरिक्त सुविधाओं को भी जोड़ना चाह सकते हैं। उचित सुविधा अनुकूलन का प्रदर्शन किया जाना चाहिए क्योंकि कभी-कभी आपको इतनी सारी विशेषताओं की आवश्यकता नहीं होती है, खासकर जब वे अलग नहीं होते हैं। अधिक जानकारी के लिए कृपया मेरे पिछले उत्तरों को देखें:

स्पेक्ट्रम से सुविधा निष्कर्षण

MFCC निष्कर्षण

नाद का पता लगाना


मैं शाम को अपने जवाब का विस्तार करूंगा।
jojek

अभी भी विस्तारित उत्तर की प्रतीक्षा कर रहा है ...
नितिन

शाम ... में
jojek

4

गैर-मौखिक ऑडियो (अकेले पर्यावरण को छोड़ दें) चित्रों, भाषण, पाठ जैसे मीडिया स्ट्रीम सीखने के मुख्य स्ट्रीम मशीन के लिए छोटा भाई लगता है।

आपके प्रश्न का उत्तर देने के लिए किसी दिए गए ध्वनि की पहचान करने के लिए एक नेटवर्क को प्रशिक्षित करना संभव है? हाँ यही है! लेकिन यह सभी समान कारणों के लिए कठिन है मशीन सीखना कठिन है।

हालाँकि जो वास्तव में ऑडियो वापस पकड़ रहा है, और मैं इसे छवियों और भाषण के लिए छोटा भाई क्यों कहता हूं, यह ऑडियो के बड़े पैमाने पर लेबल किए गए डेटासेट की कमी के कारण है। स्पीच के लिए TIMIT है, Images के लिए कई ImagenNet, CIFAR, Caltech हैं, पाठ और प्राकृतिक भाषा प्रसंस्करण के लिए साहित्य की विशाल मात्राएं हैं, आदि।

मेरे ज्ञान के लिए सबसे बड़े दो गैर-मौखिक मानव * लेबल ऑडियो डेटासेट अर्बनसाइड्स और ईएससी -100 डेटासेट हैं, जो वास्तव में गहरे सीखने के दृष्टिकोण के लिए निषेधात्मक रूप से छोटे हैं। 2-लेयर कन्वनेट का उपयोग करके इन डेटासेट पर कुछ प्रकाशित मिश्रित परिणाम हैं।

एमएफसीसी विशेषताएं सामान्य रूप से भाषण मान्यता और ऑडियो विश्लेषण में एक अच्छी तरह से स्थापित आधारभूत सुविधा प्रतिनिधित्व हैं। लेकिन अन्य ऑडियो फीचर अभ्यावेदन के टन हैं! यह पेपर ऑडियो फीचर प्रकारों का एक अच्छा वर्गीकरण करता है।

सबसे रोमांचक काम जो मैंने हाल ही में देखा है वह साउंड क्लासिफिकेशन कर रहा है, जिसे कुछ लोग दीपमाइंड में कर रहे हैं, जिसे वेवनेट कहा जाता है ।


3

यहां 10 कक्षाओं के लिए ध्वनि वर्गीकरण के लिए एक समाधान है: कुत्ते के भौंकने, कार के सींग, बच्चों के खेलने आदि। यह तंत्रिका नेटवर्क का उपयोग करके टेंसोफ़्लो लाइब्रेरी पर आधारित है। साउंड क्लिप को स्पेक्ट्रोग्राम में परिवर्तित करके फीचर निकाले जाते हैं


3
बस लिंक एक उत्तर के रूप में पर्याप्त अच्छा नहीं है।
गाइल्स

हां, कृपया लिंक का विस्तार करें।
पीटर के.एच.

2
लेकिन फिर भी लिंक के लिए धन्यवाद।
केविन मार्टिन जोस

वास्तव में मैं लिंक में दी गई ट्यूटोरियल में उपयोग की जाने वाली तकनीकों पर अधिक समझने की कोशिश कर रहा हूं। ध्वनि संकेतों में मेरा ज्ञान बहुत सीमित है क्योंकि मैं एक कंप्यूटर दृष्टि और छवि प्रसंस्करण आदमी हूं। जब मैं कुछ बेहतर समझ पाऊंगा तो उत्तर के बारे में विस्तार से बताने की कोशिश करूंगा।
abggcv

1

हाँ, यह अत्यंत उल्लेखनीय है। यद्यपि एनएन इस तरह के वर्गीकरण प्रशिक्षण में उत्कृष्ट हैं, वे आवश्यक भी नहीं हो सकते हैं - सुविधाओं के एक अच्छी तरह से चुने हुए सेट के साथ, बस क्लासिक क्लस्टरिंग एल्गोरिदम जैसे कि गौसियन मिश्रण मॉडल, या प्रमुख घटक विश्लेषण, शायद अच्छी तरह से करेंगे। । आधुनिक पुस्तकालय इस सामान को लगभग 95% समय या उससे अधिक समय में प्राप्त कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.