मुझे फिर से शुरू करने दें। सेफस्ट्रम की गणना का मानक तरीका निम्नलिखित है:
C(x(t))=F−1[log(F[x(t)])]
एमएफसीसी गुणांक के मामले में मामला थोड़ा अलग है, लेकिन फिर भी समान है।
पूर्व-जोर और विंडोिंग के बाद, आप अपने सिग्नल के डीएफटी की गणना करते हैं और ओवरलैपिंग त्रिकोणीय फिल्टर के फिल्टर बैंक को लागू करते हैं, जिसे मेल स्केल में अलग किया जाता है (हालांकि कुछ मामलों में रैखिक स्केल मेल से बेहतर होता है):
सेफस्ट्रम परिभाषा के संबंध में, अब आप मेल-फ्रीक्वेंसी स्केल में स्पेक्ट्रम (कम स्पेक्ट्रम) के लिफाफे का प्रतिनिधित्व करते हैं। यदि आप इसका प्रतिनिधित्व करते हैं, तो आप देखेंगे कि यह kind'a आपके मूल सिग्नल स्पेक्ट्रम जैसा दिखता है।
अगला कदम ऊपर प्राप्त गुणांक के लघुगणक की गणना करना है। यह इस तथ्य के कारण है कि सेफस्ट्रम को एक होमोमोर्फिक परिवर्तन माना जाता है जो मुखर पथ के आवेग प्रतिक्रिया से संकेत को अलग करता है, आदि कैसे?
एक मूल भाषण संकेत s(t) ज्यादातर एक आवेग प्रतिक्रिया के साथ सजाया जाता है h(t) मुखर पथ के:
s^(t)=s(t)⋆h(t)
फ़्रीक्वेंसी डोमेन कनवल्शन में स्पेक्ट्रा का गुणा है:
S^(f)=S(f)⋅H(f)
निम्नलिखित संपत्ति के आधार पर दो भागों में विघटित किया जा सकता है: log(a⋅b)=log(a)+log(b)।
हम यह भी उम्मीद करते हैं कि आवेग प्रतिक्रिया समय के साथ नहीं बदल रही है, इस प्रकार यह आसानी से मतलब घटाकर हटाया जा सकता है। अब आप देखते हैं कि हम अपने बैंड ऊर्जाओं के लघुगणक क्यों ले रहे हैं।
सेस्ट्रस्ट्रम परिभाषा में अंतिम चरण व्युत्क्रम फूरियर ट्रांसफॉर्म होगा F−1। समस्या यह है कि हमारे पास केवल हमारी लॉग-ऊर्जाएँ हैं, कोई चरण जानकारी नहीं है, इसलिए आवेदन करने के बाद ifft
हम जटिल-मूल्यवान गुणांक प्राप्त करते हैं - कॉम्पैक्ट प्रतिनिधित्व होने के लिए इस सभी प्रयास के लिए बहुत सुरुचिपूर्ण नहीं है। यद्यपि हम डिस्क्रीट कोसाइन ट्रांसफॉर्म को ले सकते हैं, जो कि एफटी का 'सरलीकृत' संस्करण है और वास्तविक-मूल्यवान गुणांक प्राप्त करता है! इस प्रक्रिया को हमारे लॉग-एनर्जी गुणांकों के मिलान वाले कॉइनिनसाइड के रूप में देखा जा सकता है। आपको याद होगा कि cepstrum को 'स्पेक्ट्रम का वर्णक्रम' भी कहा जाता है? यह बहुत ही कदम है - हम अपने लॉग-एनर्जी लिफ़ाफ़ा गुणांक में किसी भी आवधिकता की खोज कर रहे हैं।
तो अब आप देखते हैं कि अब यह समझना मुश्किल है कि मूल स्पेक्ट्रम कैसा दिखता था। इसके अतिरिक्त, हम आमतौर पर केवल पहले 12 एमएफसीसी ले रहे हैं, क्योंकि उच्चतर लोग लॉग-एनर्जी में तेजी से बदलाव का वर्णन कर रहे हैं, जो आमतौर पर मान्यता दर को बदतर बना रहा है। तो DCT करने के कारण निम्नलिखित थे:
मूल रूप से आपको IFFT का प्रदर्शन करना होगा, लेकिन DCT से वास्तविक-मूल्यवान गुणांक प्राप्त करना आसान है। इसके अतिरिक्त, हमारे पास अब पूर्ण स्पेक्ट्रम (सभी फ़्रीक्वेंसी डिब्बे) नहीं हैं, लेकिन मेल फ़िल्टर-बैंकों के भीतर ऊर्जा गुणांक हैं, इसलिए IFFT का उपयोग ओवरकिल का एक सा है।
आप पहले आंकड़े को देखते हैं कि फिल्टर बैंक ओवरलैप कर रहे हैं, इसलिए एक-दूसरे के बगल से ऊर्जा दो के बीच फैल रही है - डीसीटी उन्हें सजाने की अनुमति देता है। याद रखें कि यह गौसियन मिक्सचर मॉडल के मामले में उदाहरण के लिए एक अच्छी संपत्ति है, जहां आप विकर्ण सहसंयोजक मैट्रिक्स (अन्य गुणांक के बीच कोई संबंध नहीं) का उपयोग कर सकते हैं, पूर्ण के बजाय (सभी गुणांक सहसंबंधित) हैं - यह चीजों को बहुत सरल करता है।
सजाने की आवृत्ति आवृत्ति गुणांक का एक और तरीका होगा पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस), इस उद्देश्य के लिए पूरी तरह से तकनीक का उपयोग किया जाता है। हमारे भाग्य के लिए यह साबित हो गया था कि डीसीटी पीसीए का एक बहुत अच्छा सन्निकटन है, जब यह सजाने वाले संकेतों की बात आती है, इसलिए डिस्क्रीट कोसाइन ट्रांसफॉर्म का उपयोग करने का एक और फायदा है।
कुछ साहित्य:
Hyoung-Gook किम, निकोलस मोरो, थॉमस सिकोरा - एमपीईजी -7 ऑडियो एंड बियॉन्ड: ऑडियो कंटेंट इंडेक्सिंग एंड रिट्रीवल