फ़ीचर निष्कर्षण प्रक्रिया में दो बार लागू किए गए फूरियर रूपांतरण को देखने का कारण यह है कि सुविधाएँ एक अवधारणा पर आधारित हैं जिसे सेप्रस्ट्रम कहा जाता है। सेफस्ट्रम शब्द स्पेक्ट्रम पर एक नाटक है - अनिवार्य रूप से विचार फूरियर रूपांतरण द्वारा आवृत्ति डोमेन के लिए एक संकेत को बदलना है, और फिर एक और परिवर्तन करना जैसे कि आवृत्ति स्पेक्ट्रम एक संकेत था।
जबकि आवृत्ति स्पेक्ट्रम प्रत्येक आवृत्ति बैंड के आयाम और चरण का वर्णन करता है, cepstrum आवृत्ति बैंड के बीच भिन्नता को दर्शाता है। फ़्रीक्वेंसी स्पेक्ट्रम से सीधे ली गई सुविधाओं की तुलना में सीप्सट्रम से प्राप्त विशेषताएं भाषण का बेहतर वर्णन करने के लिए पाई जाती हैं।
कुछ अलग परिभाषाएँ हैं। मूल रूप से सेफस्ट्रम परिवर्तन को फूरियर रूपांतरण -> जटिल लघुगणक -> फूरियर रूपांतरण [1] के रूप में परिभाषित किया गया था। एक अन्य परिभाषा है फूरियर ट्रांसफॉर्म -> जटिल लॉगरिदम -> उलटा फूरियर ट्रांसफॉर्म [2]। बाद की परिभाषा के लिए प्रेरणा अलग-अलग संकेतों को अलग करने की क्षमता में है (मानव भाषण अक्सर एक उत्तेजना और एक मुखर पथ के दृढ़ संकल्प के रूप में मॉडलिंग की जाती है)।
एक लोकप्रिय विकल्प जो भाषण मान्यता प्रणालियों में अच्छा प्रदर्शन करने के लिए पाया गया है, आवृत्ति डोमेन में एक गैर-रेखीय फ़िल्टर बैंक लागू करना है (जिस मेलबिन का आप उल्लेख कर रहे हैं) [3]। विशेष एल्गोरिथ्म को फूरियर ट्रांसफॉर्म -> परिमाण के वर्ग -> मेल फ़िल्टर बैंक -> वास्तविक लघुगणक -> असतत कोसाइन रूपांतरण के रूप में परिभाषित किया गया है।
यहां डीसीटी को दूसरे परिवर्तन के रूप में चुना जा सकता है, क्योंकि वास्तविक मूल्य वाले इनपुट के लिए, डीएफटी का वास्तविक हिस्सा एक प्रकार का डीसीटी है। डीसीटी को पसंद करने का कारण यह है कि आउटपुट लगभग सजावटी है। सजावटी सुविधाओं को एक विकर्ण कोविरियस मैट्रिक्स के साथ गॉसियन वितरण के रूप में कुशलता से तैयार किया जा सकता है।
[१] बोगर्ट, बी।, हीली, एम। और टुके, जे (१ ९ ६३)। Echoes के लिए टाइम सीरीज़ की कफ़रेंसी अलनैसिस: सेफस्ट्रम, स्यूडो-ऑटोकॉवेरियन, क्रॉस-सेफस्ट्रम और सफे क्रैकिंग। समय श्रृंखला विश्लेषण पर संगोष्ठी की कार्यवाही में, पी। 209-243।
[२] ओपेनहेम, ए।, और शेफर, आर। (१ ९ ६heim)। भाषण के Homomorphic विश्लेषण। IEEE में ऑडियो और इलेक्ट्रोकैस्टिक्स पर लेनदेन 16, पी। 221-226।
[३] डेविस, एस।, और मर्मेलस्टीन, पी। (१ ९ ,०)। सतत रूप से बोले गए वाक्यों में मोनोसैलिक शब्द मान्यता के लिए पैरामीट्रिक प्रतिनिधियों की तुलना। आईईईई लेनदेन में ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर 28, पी। 357-366।