मैं एमएफसीसी निष्कर्षण प्रक्रिया में डीसीटी कदम की व्याख्या कैसे करूं?


20

अधिकांश ऑडियो प्रोसेसिंग कार्यों में, सबसे अधिक उपयोग किए जाने वाले परिवर्तनों में से एक MFCC (मेल-फ़्रीक्वेंसी सेफस्ट्रल गुणांक) है

मैं ज्यादातर एमएफसीसी के पीछे के गणित को जानता हूं: मैं फ़िल्टरबैंक कदम और मेल आवृत्ति स्केलिंग दोनों को समझता हूं।

DCT (डिस्क्रीट कोसाइन ट्रांसफॉर्म) स्टेप क्या है: मुझे इस स्टेप में किस तरह की जानकारी मिलती है? इस कदम का एक अच्छा दृश्य प्रतिनिधित्व क्या है?


1
मैं एमएफसीसी का संक्षिप्त विवरण, या कम से कम एक लिंक जोड़ूंगा: en.wikipedia.org/wiki/Mel-frequency_cepstral_coeffic
किसी प्रकार का रोबोट

जवाबों:


16

आप डीसीटी को एक संपीड़न कदम के रूप में सोच सकते हैं। आमतौर पर एमएफसीसी के साथ, आप डीसीटी लेंगे और उसके बाद केवल पहले कुछ गुणांक रखेंगे। यह मूल रूप से समान कारण है कि डीसीटी का उपयोग जेपीईजी संपीड़न में किया जाता है। DCT को चुना जाता है क्योंकि उनकी सीमा की स्थिति इस प्रकार के संकेतों पर बेहतर काम करती है।

चलो फूरियर रूपांतरण के साथ डीसीटी के विपरीत। फूरियर रूपांतरण साइनसोइड्स से बना होता है, जिसमें पूर्णांक संख्या चक्र होता है। इसका मतलब है, सभी फूरियर बेस फ़ंक्शन एक ही मूल्य पर शुरू और समाप्त होते हैं - वे विभिन्न मूल्यों पर शुरू और समाप्त होने वाले संकेतों का प्रतिनिधित्व करने का एक अच्छा काम नहीं करते हैं। याद रखें कि फूरियर ट्रांसफॉर्म एक आवधिक विस्तार को मानता है: यदि आप कागज की शीट पर अपने सिग्नल की कल्पना करते हैं, तो फूरियर ट्रांसफॉर्मर उस शीट को एक सिलेंडर में रोल करना चाहता है ताकि बाएं और दाएं पक्ष मिलें।

एक ऐसे स्पेक्ट्रम के बारे में सोचें जो मोटे तौर पर नकारात्मक ढलान वाली एक रेखा के आकार का है (जो कि बहुत विशिष्ट है)। फूरियर रूपांतरण इस आकृति को फिट करने के लिए विभिन्न गुणांक का उपयोग करना होगा। दूसरी ओर, डीसीटी में चक्रों की आधी-पूर्णांक संख्याओं के साथ कॉशन है। उदाहरण के लिए, एक डीसीटी आधार फ़ंक्शन है जो नकारात्मक ढलान के साथ उस रेखा की तरह अस्पष्ट दिखता है। यह एक अवधि विस्तार (इसके बजाय, एक भी विस्तार) नहीं मानता है, इसलिए यह उस आकार की फिटिंग का बेहतर काम करेगा।

तो, चलो इसे एक साथ रखें। एक बार जब आप मेल-फ़्रीक्वेंसी स्पेक्ट्रम की गणना कर लेते हैं, तो आपके पास उस स्पेक्ट्रम का प्रतिनिधित्व होता है जो एक तरह से संवेदनशील होता है कि मानव श्रवण कैसे काम करता है। इस आकृति के कुछ पहलू दूसरों की तुलना में अधिक प्रासंगिक हैं। आमतौर पर, स्पेक्ट्रम में शोर ठीक विवरण की तुलना में अधिक बड़े पैमाने पर ओवररचिंग वर्णक्रमीय आकार अधिक महत्वपूर्ण है। आप वर्णक्रमीय आकार का पालन करने के लिए एक चिकनी रेखा खींचने की कल्पना कर सकते हैं, और आपके द्वारा खींची गई चिकनी रेखा आपको संकेत के बारे में जितना बता सकती है।

जब आप डीसीटी लेते हैं और उच्च गुणांक को त्यागते हैं, तो आप इस वर्णक्रमीय आकार को ले रहे हैं, और केवल उन हिस्सों को रख रहे हैं जो इस चिकने आकार का प्रतिनिधित्व करने के लिए अधिक महत्वपूर्ण हैं। यदि आपने फूरियर रूपांतरण का उपयोग किया है, तो यह कम गुणांक में महत्वपूर्ण जानकारी रखने का इतना अच्छा काम नहीं करेगा।

यदि आप एक मशीन लर्निंग एल्गोरिदम के रूप में MFCC को खिलाने के बारे में सोचते हैं, तो ये निचले क्रम के गुणांक अच्छी विशेषताएं बनाएंगे, क्योंकि वे वर्णक्रमीय आकार के कुछ सरल पहलुओं का प्रतिनिधित्व करते हैं, जबकि उच्च-क्रम के गुणांक जो आप त्यागते हैं, वे अधिक शोर वाले होते हैं और प्रशिक्षित करने के लिए महत्वपूर्ण नहीं हैं। इसके अतिरिक्त, मेल स्पेक्ट्रम परिमाणों पर प्रशिक्षण स्वयं शायद उतना अच्छा नहीं होगा क्योंकि विभिन्न आवृत्तियों पर विशेष आयाम स्पेक्ट्रम के सामान्य आकार से कम महत्वपूर्ण नहीं हैं।


संबंधित प्रश्न के इस उत्तर को पढ़ने के लिए दिलचस्प है ।
एरिक प्लटन

8

एमएफसीसी को समझने की कुंजी लिंक्ड-इन लेख में वाक्य की शुरुआत में है:

वे ऑडियो क्लिप के cepstral प्रतिनिधित्व के एक प्रकार से ली गई हैं ...

MFCCs एक स्पेक्ट्रम के-एक करने के लिए की तरह हैं लॉग -spectrum, cepstrum

एक्स(टी)

सी(z)=एफ-1(लॉग(|एफ(एक्स(टी))|2)

एफएफ-1

सेप्रस्ट्रम साफ-सुथरा होने का कारण यह है कि इंटरपोज्ड लॉगरिथम ऑपरेशन का मतलब है कि मूल सिग्नल के कॉंप्लाएंशन सेप्रेशम में साधारण जोड़ के रूप में दिखाई देते हैं

यह लाभ एमएफसीसी को वहन करता है, हालांकि जीवनरक्षक मानक सेफस्ट्रम के साथ प्रत्यक्ष नहीं है।

जहां एमएफसीसी भिन्न है असतत कोसाइन ट्रांसफ़ॉर्म (डीसीटी) का उपयोग उलटा फूरियर रूपांतरण के बजाय अंतिम परिवर्तन के रूप में होता है।

फूरियर रूपांतरण पर DCT का लाभ यह है कि परिणामी गुणांक वास्तविक-मूल्यवान हैं , जो बाद के प्रसंस्करण और भंडारण को आसान बनाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.