क्या यह एमएफसीसी गणना में डीसीटी कदम की सही व्याख्या है?


9

यह यहां चर्चा का सिलसिला है । मैं वहां टिप्पणी करूंगा, लेकिन मेरे पास 50 प्रतिनिधि नहीं हैं इसलिए मैं एक नया प्रश्न पूछ रहा हूं।

यहां बताया गया है कि मैं एमएफसीसी गणना प्रक्रिया में डीसीटी चरण को कैसे समझता हूं: इसके पीछे तर्क यह है कि फिल्टर के अतिव्यापी होने के कारण लॉग-स्पेक्ट्रल परिमाण (फ़िल्टरबैंक से) में सहसंबंध को अलग करना है। अनिवार्य रूप से, DCT इन लॉग-वर्णक्रमीय परिमाण द्वारा दिए गए स्पेक्ट्रम प्रतिनिधित्व को सुचारू करता है।

क्या यह कहना सही होगा कि नीचे की छवि में नीली रेखा लॉग-वर्णक्रमीय परिमाण के वेक्टर द्वारा दर्शाये गए स्पेक्ट्रम का प्रतिनिधित्व करती है, और लाल रेखा उस वेक्टर की है जो एक बार DCT-ified हो गई है?

DCT-ified लॉग-स्पेक्ट्रल परिमाण (यानी MFCC) बनाम केवल लॉग-स्पेक्ट्रल परिमाण ???


मैं परीक्षण के लिए आपका कोड कहां से डाउनलोड कर सकता हूं?
आभा

नीचे की छवि? पोस्ट में कोई छवि नहीं।
एरिक प्लैटन

जवाबों:


16

मुझे फिर से शुरू करने दें। सेफस्ट्रम की गणना का मानक तरीका निम्नलिखित है:

C(x(t))=F1[log(F[x(t)])]

एमएफसीसी गुणांक के मामले में मामला थोड़ा अलग है, लेकिन फिर भी समान है।

पूर्व-जोर और विंडोिंग के बाद, आप अपने सिग्नल के डीएफटी की गणना करते हैं और ओवरलैपिंग त्रिकोणीय फिल्टर के फिल्टर बैंक को लागू करते हैं, जिसे मेल स्केल में अलग किया जाता है (हालांकि कुछ मामलों में रैखिक स्केल मेल से बेहतर होता है):

यहाँ छवि विवरण दर्ज करें

सेफस्ट्रम परिभाषा के संबंध में, अब आप मेल-फ्रीक्वेंसी स्केल में स्पेक्ट्रम (कम स्पेक्ट्रम) के लिफाफे का प्रतिनिधित्व करते हैं। यदि आप इसका प्रतिनिधित्व करते हैं, तो आप देखेंगे कि यह kind'a आपके मूल सिग्नल स्पेक्ट्रम जैसा दिखता है।

अगला कदम ऊपर प्राप्त गुणांक के लघुगणक की गणना करना है। यह इस तथ्य के कारण है कि सेफस्ट्रम को एक होमोमोर्फिक परिवर्तन माना जाता है जो मुखर पथ के आवेग प्रतिक्रिया से संकेत को अलग करता है, आदि कैसे?

एक मूल भाषण संकेत s(t) ज्यादातर एक आवेग प्रतिक्रिया के साथ सजाया जाता है h(t) मुखर पथ के:

s^(t)=s(t)h(t)

फ़्रीक्वेंसी डोमेन कनवल्शन में स्पेक्ट्रा का गुणा है:

S^(f)=S(f)H(f)

निम्नलिखित संपत्ति के आधार पर दो भागों में विघटित किया जा सकता है: log(ab)=log(a)+log(b)

हम यह भी उम्मीद करते हैं कि आवेग प्रतिक्रिया समय के साथ नहीं बदल रही है, इस प्रकार यह आसानी से मतलब घटाकर हटाया जा सकता है। अब आप देखते हैं कि हम अपने बैंड ऊर्जाओं के लघुगणक क्यों ले रहे हैं।

सेस्ट्रस्ट्रम परिभाषा में अंतिम चरण व्युत्क्रम फूरियर ट्रांसफॉर्म होगा F1। समस्या यह है कि हमारे पास केवल हमारी लॉग-ऊर्जाएँ हैं, कोई चरण जानकारी नहीं है, इसलिए आवेदन करने के बाद ifftहम जटिल-मूल्यवान गुणांक प्राप्त करते हैं - कॉम्पैक्ट प्रतिनिधित्व होने के लिए इस सभी प्रयास के लिए बहुत सुरुचिपूर्ण नहीं है। यद्यपि हम डिस्क्रीट कोसाइन ट्रांसफॉर्म को ले सकते हैं, जो कि एफटी का 'सरलीकृत' संस्करण है और वास्तविक-मूल्यवान गुणांक प्राप्त करता है! इस प्रक्रिया को हमारे लॉग-एनर्जी गुणांकों के मिलान वाले कॉइनिनसाइड के रूप में देखा जा सकता है। आपको याद होगा कि cepstrum को 'स्पेक्ट्रम का वर्णक्रम' भी कहा जाता है? यह बहुत ही कदम है - हम अपने लॉग-एनर्जी लिफ़ाफ़ा गुणांक में किसी भी आवधिकता की खोज कर रहे हैं।

यहाँ छवि विवरण दर्ज करें

तो अब आप देखते हैं कि अब यह समझना मुश्किल है कि मूल स्पेक्ट्रम कैसा दिखता था। इसके अतिरिक्त, हम आमतौर पर केवल पहले 12 एमएफसीसी ले रहे हैं, क्योंकि उच्चतर लोग लॉग-एनर्जी में तेजी से बदलाव का वर्णन कर रहे हैं, जो आमतौर पर मान्यता दर को बदतर बना रहा है। तो DCT करने के कारण निम्नलिखित थे:

  • मूल रूप से आपको IFFT का प्रदर्शन करना होगा, लेकिन DCT से वास्तविक-मूल्यवान गुणांक प्राप्त करना आसान है। इसके अतिरिक्त, हमारे पास अब पूर्ण स्पेक्ट्रम (सभी फ़्रीक्वेंसी डिब्बे) नहीं हैं, लेकिन मेल फ़िल्टर-बैंकों के भीतर ऊर्जा गुणांक हैं, इसलिए IFFT का उपयोग ओवरकिल का एक सा है।

  • आप पहले आंकड़े को देखते हैं कि फिल्टर बैंक ओवरलैप कर रहे हैं, इसलिए एक-दूसरे के बगल से ऊर्जा दो के बीच फैल रही है - डीसीटी उन्हें सजाने की अनुमति देता है। याद रखें कि यह गौसियन मिक्सचर मॉडल के मामले में उदाहरण के लिए एक अच्छी संपत्ति है, जहां आप विकर्ण सहसंयोजक मैट्रिक्स (अन्य गुणांक के बीच कोई संबंध नहीं) का उपयोग कर सकते हैं, पूर्ण के बजाय (सभी गुणांक सहसंबंधित) हैं - यह चीजों को बहुत सरल करता है।

  • सजाने की आवृत्ति आवृत्ति गुणांक का एक और तरीका होगा पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस), इस उद्देश्य के लिए पूरी तरह से तकनीक का उपयोग किया जाता है। हमारे भाग्य के लिए यह साबित हो गया था कि डीसीटी पीसीए का एक बहुत अच्छा सन्निकटन है, जब यह सजाने वाले संकेतों की बात आती है, इसलिए डिस्क्रीट कोसाइन ट्रांसफॉर्म का उपयोग करने का एक और फायदा है।


कुछ साहित्य:

Hyoung-Gook किम, निकोलस मोरो, थॉमस सिकोरा - एमपीईजी -7 ऑडियो एंड बियॉन्ड: ऑडियो कंटेंट इंडेक्सिंग एंड रिट्रीवल


1
हम IFFT से जटिल संख्याओं का निरपेक्ष मान क्यों नहीं ले सकते हैं? यदि जटिल संख्याओं से निपटना अधिक कठिन है, तो हम कभी भी एक cstrstrum की गणना करते समय IFFT क्यों लेते हैं और हमेशा DCT ही नहीं करते हैं? स्पष्टीकरण के लिए धन्यवाद। वह आकृति विशेष रूप से सहायक थी।
acannon828

1
@ acannon828: कृपया मेरे संपादित उत्तर के अंतिम 3 बिंदु देखें। मुझे उम्मीद है कि अब यह सब कुछ समझाता है।
jojek

शानदार प्रतिक्रिया .. इससे जुड़ा कोई भी साहित्य।
बॉब बर्ट

1
@ याकूब: आप वहाँ जाओ!
jojek

पुस्तक के लिए धन्यवाद। ज्यादातर चीजें उस एक में समझाई जाती हैं। क्या पुस्तक मुखर पथ के बारे में सिद्धांत को भी कवर करती है - मुझे इससे संबंधित कुछ भी नहीं मिल पा रहा है।
बॉब बर्ट

3

डीसीटी को सुचारू करने से अधिक स्पेक्ट्रम का प्रतिनिधित्व करने के लिए आवश्यक आयामों की संख्या कम कर देता है। डीसीटी आयामी कमी के लिए अच्छा है क्योंकि यह पहले कुछ गुणांकों में स्पेक्ट्रम की अधिकांश ऊर्जा को संकुचित करता है।


धन्यवाद। इससे मुझे यह समझने में मदद मिली कि @pichenettes का मतलब आयामीता में कमी से है।
acannon828

3

इसके पीछे का तर्क फिल्टर के ओवरलैप होने के कारण लॉग-वर्णक्रमीय परिमाण (फ़िल्टरबैंक से) में सहसंबंध को अलग करना है। अनिवार्य रूप से, DCT इन लॉग-वर्णक्रमीय परिमाण द्वारा दिए गए स्पेक्ट्रम प्रतिनिधित्व को सुचारू करता है।

यह गलत है। लॉग-वर्णक्रमीय परिमाणों के बीच सहसंबंध केवल इसलिए नहीं है क्योंकि वे ओवरलैप करते हैं, बल्कि इसलिए भी कि संख्या का कोई भी क्रम लॉग-वर्णक्रमीय परिमाण की एक "सार्थक" (प्राकृतिक भाषण और ध्वनि में होने वाली) श्रृंखला का प्रतिनिधित्व नहीं करता है। "अर्थपूर्ण" लॉग-वर्णक्रमीय परिमाण उच्चतर आवृत्तियों में ऊर्जा की कुल कमी के साथ, बल्कि सहज होते हैं, कोई कहेगा कि सभी "सार्थक" लॉग-स्पेक्ट्रल परिमाण वैक्टर के अंतरिक्ष का आयाम 40 मिमी से छोटा है। " जो भी आपके द्वारा उपयोग किए जाने वाले बैंड की संख्या; और डीसीटी को इस छोटे स्थान पर 40-चैनल डेटा को मैप करने के लिए आयामी कमी के रूप में देखा जा सकता है।

अनिवार्य रूप से, DCT इन लॉग-वर्णक्रमीय परिमाण द्वारा दिए गए स्पेक्ट्रम प्रतिनिधित्व को सुचारू करता है।

DCT कोई स्मूथिंग नहीं करता है। डीसीटी डेटा से पुनर्निर्माण करते समय आप चौरसाई देखते हैं - डीसीटी द्वारा जानकारी के नुकसान और इसके बाद होने वाले गुणांक ट्रंकेशन के कारण स्मूथिंग।

लेकिन एमएफसीसी गुणांक स्मूथ स्पेक्ट्रम को स्टोर नहीं करता है - यह असंबद्ध डीसीटी गुणांक के अनुक्रम को संग्रहीत करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.