मैं एक ध्वनि फ़ाइल से सुविधाओं को निकालने और एक विशेष श्रेणी (जैसे: कुत्ते की छाल, वाहन इंजन आदि) के रूप में ध्वनि को वर्गीकृत करने की कोशिश कर रहा हूं। मुझे निम्नलिखित बातों पर कुछ स्पष्टता चाहिए:
1) यह सब करने योग्य है? ऐसे कार्यक्रम हैं जो भाषण को पहचान सकते हैं, और विभिन्न प्रकार के कुत्ते की छाल के बीच अंतर कर सकते हैं। लेकिन क्या ऐसा प्रोग्राम होना संभव है जो ध्वनि नमूना प्राप्त कर सकता है और बस यह कह सकता है कि यह किस तरह की ध्वनि है? (मान लें कि एक डेटाबेस है जिसमें बहुत सारे ध्वनि नमूने हैं)। इनपुट साउंड सैंपल थोड़ा शोर (माइक्रोफोन इनपुट) हो सकता है।
2) मुझे लगता है कि पहला कदम ऑडियो सुविधा निष्कर्षण है। यह लेख MFCC को निकालने और उन्हें मशीन लर्निंग एल्गोरिदम को खिलाने का सुझाव देता है। क्या एमएफसीसी पर्याप्त है? क्या कोई अन्य विशेषताएं हैं जो आमतौर पर ध्वनि वर्गीकरण के लिए उपयोग की जाती हैं?
आपके समय के लिए शुक्रिया।