लौकिक डेटा के लिए पैटर्न मान्यता


9

मैं गैर-भाषण ध्वनियों का पता लगाने और वर्गीकृत करने की कोशिश कर रहा हूं। वर्तमान में, मैं उन विशेषताओं के रूप में प्रशिक्षण ध्वनियों से ओवरलैप्ड पावर स्पेक्ट्रोम्स की एक श्रृंखला का उपयोग कर रहा हूं, जिन्हें मैं देख रहा हूं।

जब मैं विश्लेषण करता हूं, तो मैं केवल ओवरलैप किए गए स्पेक्ट्रोम्स की समान मात्रा की गणना कर रहा हूं ताकि सुविधाओं की संख्या समान हो। अभी प्रदर्शन बहुत अच्छा नहीं है, यह केवल मौन बनाम गैर-मौन का पता लगा सकता है।

इस प्रकार के सिग्नल का पता लगाने के लिए क्या तकनीकें हैं? मेरी एक चिंता यह है कि समय क्षेत्र में अलग-अलग लंबाई की ध्वनियों के लिए अलग-अलग लंबाई के फ़ीचर वैक्टर होंगे, जिससे मैं एक ही क्लासिफायर का उपयोग नहीं कर सकता, मैं इस पर अटका हुआ हूं।

जवाबों:


3

क्या आप भाषण बनाम गैर-भाषण का पता लगाने की कोशिश कर रहे हैं, या गैर-भाषण ध्वनियों के वर्ग हैं जिनसे आप भेदभाव करने की कोशिश कर रहे हैं? मैं आपके प्रश्न से स्पष्ट नहीं हूँ।

मुझे लगता है कि एक अच्छा पहला दृष्टिकोण आपके सिग्नल को फ्रेम में ब्लॉक करना और मेल-फ्रीक्वेंसी सेफस्ट्राल गुणांक (एमएफसीसी), साथ ही डेल्टा-एमएफसीसी (आसन्न फ्रेम 'एमएफसीसी के बीच अंतर) और डेल्टा-डेल्टा एमएफसीसी (एमएफसीसी के बीच अंतर) की गणना करना होगा। (दो तख्ते अलग हैं)। यह ऐसा करने का एकमात्र तरीका नहीं है, लेकिन समस्या डोमेन के अधिक विशिष्ट ज्ञान के बिना, यह संभवतः शुरू करने के लिए एक अच्छी जगह है।

यदि आप पहले से ही परिचित नहीं हैं, तो बस googling आपको MFCC की गणना करने के तरीके के बारे में कुछ अच्छे संदर्भ देने चाहिए। मूल रूप से आप डीएफटी लेते हैं, परिमाण लेते हैं, मानव सुनवाई के अनुरूप त्रिकोणीय खिड़कियों के अंदर ऊर्जा की गणना करते हैं, इन गुणांक के डीसीटी लेते हैं, अनिवार्य रूप से एक संपीड़न कदम के रूप में, और फिर उच्च आदेश गुणांक को छोड़ देते हैं, आमतौर पर केवल पहले बारह गुणांक के बारे में लेते हैं। । मेरे पास इस पोस्ट में डीसीटी कदम के अर्थ की व्याख्या है : मैं एमएफसीसी निष्कर्षण प्रक्रिया में डीसीटी कदम की व्याख्या कैसे करूं?

आप तब कह सकते हैं, इन गुणांक का उपयोग SVM के लिए सुविधाओं के रूप में करें।


2

मुझे लगता है कि आप आम तौर पर भाषण का पता लगाने की समस्या को देख रहे हैं , जो हमेशा के लिए रहा है, और अब तक इसे विकसित करने के लिए तरीकों के असंख्य हैं। यह कागज की तरह दिखता है , उदाहरण के लिए, वर्णक्रमीय तकनीकों का भी उपयोग करता है, इसलिए आप वहां शुरू करना चाहते हैं। एक अच्छी पुरानी Google खोज, कागजात और लेखों के लिंक के साथ कई परिणाम लौटाएगी।

आम तौर पर भाषण का पता लगाने के लिए कुछ अलग दृष्टिकोण हैं। एक अच्छा भाषण-टू-शोर अनुपात (आवाज परिवेश शोर, संगीत, अन्य अप्रासंगिक सामग्री की तुलना में जोर से है) की धारणा के लिए अनुमति देता है, और दूसरा ऐसी कोई धारणा नहीं बनाता है और बहुत शोर संकेतों में भाषण उपस्थिति की पहचान करने की कोशिश करता है (भाषण में दफन शोर)। इस पर निर्भर करता है कि आप क्या करने की कोशिश कर रहे हैं, आप बहुत अलग-अलग कागजात देख रहे हैं। शायद यदि आप अपने प्रश्न को थोड़ा स्पष्ट करते हैं और आपके द्वारा काम कर रहे भाषण संकेतों के प्रकारों पर विस्तृत जानकारी देते हैं, तो यह साइट अधिक मददगार हो सकती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.