सेफस्ट्रल मीन नॉर्मलाइज़ेशन


15

क्या कोई किसी को सिफट्रल मीन नॉर्मलाइज़ेशन के बारे में समझा सकता है, कैसे कनवल्शन की समतुल्य संपत्ति इसे प्रभावित करती है? क्या MFCC आधारित स्पीकर मान्यता में CMN करना आवश्यक है? एमएफसीसी के लिए सजा की संपत्ति मूलभूत आवश्यकता क्यों है?

मैं इस सिग्नल प्रोसेसिंग के लिए बहुत नया हूं। कृपया सहायता कीजिए


क्या फिल्टर बैंक का उपयोग किए बिना, आवृत्ति को सीधे melscale में परिवर्तित करना MFCC प्रक्रिया में काम करेगा?
बैंगनी

जवाबों:


18

बस चीजों को स्पष्ट करने के लिए - यह संपत्ति मौलिक नहीं बल्कि महत्वपूर्ण है । स्पेक्ट्रम गणना के लिए DFT के बजाय DCT का उपयोग करने की बात आती है तो यह मूलभूत अंतर है।

क्यों हम सेफस्ट्राल मीन नॉर्मलाइज़ेशन करते हैं

स्पीकर की मान्यता में हम किसी भी चैनल प्रभाव (मुखर पथ, ऑडियो पथ, कमरे, आदि की आवेग प्रतिक्रिया) को हटाना चाहते हैं। यह प्रदान करना कि इनपुट संकेत और चैनल आवेग प्रतिक्रिया h [ n ] द्वारा दी गई है , रिकॉर्ड किया गया संकेत दोनों का रैखिक संकेतन है:x[n]h[n]

y[n]=x[n]h[n]

फूरियर ट्रांसफॉर्म लेने से हम प्राप्त करते हैं:

Y[f]=X[f]H[f]

एफटी के दोषी-गुणन तुल्यता संपत्ति के कारण - यही कारण है कि इस कदम पर एफएफटी की इतनी महत्वपूर्ण संपत्ति है

Cepstrum की गणना में अगला कदम स्पेक्ट्रम का लघुगणक ले रहा है:

Y[q]=logY[f]=log(X[f]H[f])=X[q]+H[q]

क्योंकि: । जाहिर है, क्ष ही प्रतिफल है । जैसा कि कोई नोटिस कर सकता है, समय डोमेन में हम cepstral (quefrency) डोमेन में जोड़ के साथ समापन के cepstrum को लेते हैं।log(ab)=loga+logbq

सेफस्ट्राल मीन नॉर्मलाइज़ेशन क्या है?

अब हम जानते हैं कि cepstral डोमेन में किसी भी विक्षेपात्मक विकृतियों को जोड़कर दर्शाया जाता है। मान लेते हैं कि वे सभी स्थिर हैं (जो एक मुखर पथ के रूप में एक मजबूत धारणा है और चैनल प्रतिक्रिया नहीं बदल रही है) और भाषण का स्थिर हिस्सा नगण्य है। हम देख सकते हैं कि हर i-वें फ्रेम के लिए यह सही है:

Yi[q]=H[q]+Xi[q]

हमें प्राप्त होने वाले सभी फ़्रेमों पर औसत लेने से

1एनΣमैंYमैं[क्ष]=एच[क्ष]+1एनΣमैंएक्समैं[क्ष]

अंतर को परिभाषित करना:

आरमैं[क्ष]=Yमैं[क्ष]-1एनΣजेYजे[क्ष]=एच[क्ष]+एक्समैं[क्ष]-(एच[क्ष]+1एनΣजेएक्सजे[क्ष])=एक्समैं[क्ष]-1एनΣजेएक्सजे[क्ष]

हम चैनल विकृतियों के साथ अपने सिग्नल को समाप्त कर रहे हैं। उपरोक्त सभी समीकरणों को सरल अंग्रेजी में रखना:

  • सेप्स्ट्रम की गणना करें
  • प्रत्येक गुणांक से औसत घटाना
  • उपप्रकार के विपरीत विरोध के रूप में वैकल्पिक रूप से प्रदर्शन करने के लिए विचरण द्वारा विभाजित करें।

क्या सेफस्ट्राल मीन सामान्यीकरण आवश्यक है?

यह अनिवार्य नहीं है, खासकर जब आप किसी एक वातावरण में एक वक्ता को पहचानने की कोशिश कर रहे हों। वास्तव में, यह आपके परिणामों को भी खराब कर सकता है, क्योंकि यह additive शोर के कारण त्रुटियों से ग्रस्त है:

y[n]=x[n]h[n]+w[n]

Y[f]=X[f]H[f]+W[f]

logY[f]=log[X[f](H[f]+W[f]X[f])]=logX[f]+log(H[f]+W[f]X[f])

खराब एसएनआर स्थितियों में चिह्नित शब्द अनुमान से आगे निकल सकता है।

हालांकि जब सीएमएस किया जाता है, तो आप आमतौर पर कुछ अतिरिक्त प्रतिशत प्राप्त कर सकते हैं। यदि आप गुणांक के डेरिवेटिव से उस प्रदर्शन लाभ को जोड़ते हैं तो आपको अपनी पहचान दर का वास्तविक बढ़ावा मिलता है। अंतिम निर्णय आप पर निर्भर है, विशेष रूप से कि भाषण मान्यता प्रणालियों के सुधार के लिए उपयोग किए जाने वाले अन्य तरीकों के बहुत सारे हैं।


@ मम: खुशी है कि यह मदद की। अपने प्रश्नों के उत्तरों को स्वीकार करने के लिए क्यों नहीं, ताकि आप नए उपयोगकर्ता प्रतिबंधों को हटा सकें?
jojek

@ मम: बधाई हो! अब आप अधिक लिंक पोस्ट करते हैं, प्रश्न और उत्तर + फ्लैग पोस्ट पर वोट करते हैं।
jojek

धन्यवाद @jojek .. मैं इन सभी के लिए बहुत नया हूँ। लेकिन मुझे खुशी है कि मुझे मेरी समस्या हल हो गई।
मुन

@mun: तब मैं निश्चित रूप से आप एक त्वरित लेने के लिए सुझाव है कि दौरे
jojek

अंतिम उत्तर में, मुझे नहीं मिल सकता है "गुणांक के व्युत्पन्न से उस प्रदर्शन लाभ को क्या जोड़ें" वास्तव में मतलब है। क्या आप कुछ सरल व्याख्या दे सकते हैं? बहुत बहुत धन्यवाद
शुआई वांग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.