बस चीजों को स्पष्ट करने के लिए - यह संपत्ति मौलिक नहीं बल्कि महत्वपूर्ण है । स्पेक्ट्रम गणना के लिए DFT के बजाय DCT का उपयोग करने की बात आती है तो यह मूलभूत अंतर है।
क्यों हम सेफस्ट्राल मीन नॉर्मलाइज़ेशन करते हैं
स्पीकर की मान्यता में हम किसी भी चैनल प्रभाव (मुखर पथ, ऑडियो पथ, कमरे, आदि की आवेग प्रतिक्रिया) को हटाना चाहते हैं। यह प्रदान करना कि इनपुट संकेत और चैनल आवेग प्रतिक्रिया h [ n ] द्वारा दी गई है , रिकॉर्ड किया गया संकेत दोनों का रैखिक संकेतन है:x[n]h[n]
y[n]=x[n]⋆h[n]
फूरियर ट्रांसफॉर्म लेने से हम प्राप्त करते हैं:
Y[f]=X[f]⋅H[f]
एफटी के दोषी-गुणन तुल्यता संपत्ति के कारण - यही कारण है कि इस कदम पर एफएफटी की इतनी महत्वपूर्ण संपत्ति है ।
Cepstrum की गणना में अगला कदम स्पेक्ट्रम का लघुगणक ले रहा है:
Y[q]=logY[f]=log(X[f]⋅H[f])=X[q]+H[q]
क्योंकि: । जाहिर है, क्ष ही प्रतिफल है । जैसा कि कोई नोटिस कर सकता है, समय डोमेन में हम cepstral (quefrency) डोमेन में जोड़ के साथ समापन के cepstrum को लेते हैं।log(ab)=loga+logbq
सेफस्ट्राल मीन नॉर्मलाइज़ेशन क्या है?
अब हम जानते हैं कि cepstral डोमेन में किसी भी विक्षेपात्मक विकृतियों को जोड़कर दर्शाया जाता है। मान लेते हैं कि वे सभी स्थिर हैं (जो एक मुखर पथ के रूप में एक मजबूत धारणा है और चैनल प्रतिक्रिया नहीं बदल रही है) और भाषण का स्थिर हिस्सा नगण्य है। हम देख सकते हैं कि हर i-वें फ्रेम के लिए यह सही है:
Yi[q]=H[q]+Xi[q]
हमें प्राप्त होने वाले सभी फ़्रेमों पर औसत लेने से
1एनΣमैंYमैं[ क्ष] = एच[ क्ष] + 1एनΣमैंएक्समैं[ क्ष]
अंतर को परिभाषित करना:
आरमैं[ क्ष]= यमैं[ क्ष] - १एनΣजेYजे[ क्ष]= एच[ क्ष] + एक्समैं[ क्ष] - ( एच)[ क्ष] + 1एनΣजेएक्सजे[ क्ष] )= एक्समैं[ क्ष] - १एनΣजेएक्सजे[ क्ष]
हम चैनल विकृतियों के साथ अपने सिग्नल को समाप्त कर रहे हैं। उपरोक्त सभी समीकरणों को सरल अंग्रेजी में रखना:
- सेप्स्ट्रम की गणना करें
- प्रत्येक गुणांक से औसत घटाना
- उपप्रकार के विपरीत विरोध के रूप में वैकल्पिक रूप से प्रदर्शन करने के लिए विचरण द्वारा विभाजित करें।
क्या सेफस्ट्राल मीन सामान्यीकरण आवश्यक है?
यह अनिवार्य नहीं है, खासकर जब आप किसी एक वातावरण में एक वक्ता को पहचानने की कोशिश कर रहे हों। वास्तव में, यह आपके परिणामों को भी खराब कर सकता है, क्योंकि यह additive शोर के कारण त्रुटियों से ग्रस्त है:
y[n]=x[n]⋆h[n]+w[n]
Y[f]=X[f]⋅H[f]+W[f]
logY[f]=log[X[f](H[f]+W[f]X[f])]=logX[f]+log(H[f]+W[f]X[f])
खराब एसएनआर स्थितियों में चिह्नित शब्द अनुमान से आगे निकल सकता है।
हालांकि जब सीएमएस किया जाता है, तो आप आमतौर पर कुछ अतिरिक्त प्रतिशत प्राप्त कर सकते हैं। यदि आप गुणांक के डेरिवेटिव से उस प्रदर्शन लाभ को जोड़ते हैं तो आपको अपनी पहचान दर का वास्तविक बढ़ावा मिलता है। अंतिम निर्णय आप पर निर्भर है, विशेष रूप से कि भाषण मान्यता प्रणालियों के सुधार के लिए उपयोग किए जाने वाले अन्य तरीकों के बहुत सारे हैं।