फूरियर ट्रांसफॉर्म और कोसाइन ट्रांसफॉर्म के बीच अंतर क्या है?


75

भाषण मान्यता में, फ्रंट एंड आमतौर पर ऑडियो स्ट्रीम से फीचर निष्कर्षण की अनुमति के लिए सिग्नल प्रोसेसिंग करता है। इस प्रक्रिया में एक असतत फूरियर ट्रांसफॉर्म (डीएफटी) दो बार लगाया जाता है। पहली बार खिड़की के बाद है; इसके बाद मेल बिनिंग लागू किया जाता है और फिर एक और फूरियर ट्रांसफॉर्म होता है।

हालांकि मैंने देखा है, कि यह दूसरे ऑपरेशन के लिए डीएफटी के बजाय असतत कोसाइन ट्रांसफ़ॉर्म (डीसीटी) का उपयोग करने के लिए भाषण पहचानकर्ताओं ( उदाहरण के लिए सीएमयू स्फिंक्स में डिफ़ॉल्ट फ्रंट एंड) में आम है । इन दोनों परिचालनों में क्या अंतर है? आप पहली बार डीएफटी और दूसरी बार डीसीटी क्यों करेंगे?


तो कई ने दो प्रक्रियाओं के बीच के अंतर को समझाया है। क्या किसी को पता है कि भाषण मान्यता में अलग-अलग समय पर dft और dct का उपयोग क्यों किया जाता है? क्या पहले dft के आउटपुट को सममित माना जाता है? या पहले 13 बिंदुओं में अधिक जानकारी को पैक करने के लिए उपयुक्त dct का संपीड़न (भाषण प्रसंस्करण आमतौर पर केवल उन का उपयोग करता है)?
नैट ग्लेन

क्या आपका प्रश्न मेल-फ़्रीक्वेंसी सेस्ट्रम से संबंधित है , जो किसी अन्य प्रश्न में पूछा गया था ?
rwong

मेरा प्रश्न 2 भागों में था: DCT और DFT के बीच का अंतर, और क्यों DCT का उपयोग DFT और मेल बायनिंग के बाद सिग्नल प्रोसेसिंग के लिए अक्सर किया जाता है, बजाय दूसरे DFT के।
नैट ग्लेन

क्यों छवि प्रसंस्करण में, हम असतत कोसाइन ट्रांसफॉर्मेशन के बजाय असतत साइन ट्रांसफॉर्मेशन का उपयोग नहीं करते हैं?

हाय rimondo, यह एक अच्छा सवाल है लेकिन आपने इसे उत्तर के रूप में पोस्ट किया है। आपको इसे पूछने के लिए एक नया प्रश्न बनाना चाहिए।
नैट ग्लेन

जवाबों:


48

असतत फूरियर ट्रांसफॉर्म (DFT) और असतत कोसाइन ट्रांसफॉर्म (DCT) समान कार्य करते हैं: वे दोनों एक परिमित-लम्बे असतत समय वेक्टर को स्केल-एंड-शिफ्टेड बेस फंक्शन के योग में विघटित करते हैं। दोनों के बीच का अंतर प्रत्येक परिवर्तन द्वारा उपयोग किए जाने वाले आधार फ़ंक्शन का प्रकार है; DFT सामंजस्यपूर्ण रूप से संबंधित जटिल घातीय कार्यों के एक सेट का उपयोग करता है, जबकि DCT केवल (वास्तविक-मूल्यवान) कोसाइन कार्यों का उपयोग करता है।

डीएफटी व्यापक रूप से सामान्य वर्णक्रमीय विश्लेषण अनुप्रयोगों के लिए उपयोग किया जाता है जो खेतों की एक श्रेणी में अपना रास्ता ढूंढते हैं। यह तकनीकों के लिए एक बिल्डिंग ब्लॉक के रूप में भी उपयोग किया जाता है जो सिग्नल के आवृत्ति-डोमेन प्रतिनिधित्व के गुणों का लाभ उठाते हैं, जैसे ओवरलैप-सेव और ओवरलैप-ऐड फास्ट कन्वेंशन एल्गोरिदम।

डीसीटी का उपयोग अक्सर हानिपूर्ण डेटा संपीड़न अनुप्रयोगों में किया जाता है, जैसे जेपीईजी छवि प्रारूप। डीसीटी की संपत्ति जो इसे संपीड़न के लिए काफी उपयुक्त बनाती है, इसकी उच्च डिग्री "वर्णक्रमीय संघनन;" गुणात्मक स्तर पर, डीएफटी जैसे अन्य परिवर्तनों की तुलना में एक संकेत का डीसीटी प्रतिनिधित्व कम संख्या में गुणांक में अपनी ऊर्जा का अधिक ध्यान केंद्रित करता है। यह एक संपीड़न एल्गोरिथ्म के लिए वांछनीय है; यदि आप DCT गुणांक के अपेक्षाकृत छोटे सेट का उपयोग करके मूल (समय- या स्थानिक-डोमेन) संकेत का प्रतिनिधित्व कर सकते हैं, तो आप केवल DCT आउटपुट को संग्रहीत करके अपनी डेटा संग्रहण आवश्यकता को कम कर सकते हैं जिसमें महत्वपूर्ण मात्रा में ऊर्जा होती है।


4
@JasonR "एक गुणात्मक स्तर पर, एक सिग्नल की DCT प्रतिनिधित्व कम से कम गुणांक में अपनी ऊर्जा का अधिक ध्यान केंद्रित करता है जब DFT जैसे अन्य परिवर्तनों की तुलना में होता है।" हम्म्म्म ... मुझे यकीन नहीं है कि मैं इस पर पूरी तरह से सहमत हूं - यदि केवल इसलिए कि डीएफटी में पहले से ही एक कोसाइन शामिल है, जिस पर एक सिग्नल के खिलाफ अनुमान लगाया जा रहा है - तो डीएफटी कैसे उस प्रक्षेपण की ताकत के रूप में नहीं दिखा सकता है और एक डीसीटी कर सकते हैं? धन्यवाद।
स्पेसी

3
यह डीसीटी की एक बहुत ही प्रसिद्ध विशेषता है, जो इतने सारे संपीड़न एल्गोरिदम में इसके उपयोग की व्याख्या करती है। मेरा मानना ​​है कि इसका संकेत के किनारों पर DCT द्वारा ग्रहण की गई सीमा की स्थितियों के साथ करना है, जो कि DFT से भिन्न हैं।
जेसन आर

23

मैंने पाया कि डीसीटी विकी (पियरसनार्टोफोटो द्वारा साझा किए गए) में कुछ विवरण बताते हैं कि डीसीटी संपीड़न अनुप्रयोगों के लिए अच्छी तरह से अनुकूल है। अनौपचारिक अवलोकन अनुभाग का अंत सहायक है (बॉडिंग मेरा है)।

विशेष रूप से, यह सर्वविदित है कि किसी फ़ंक्शन में किसी भी प्रकार की गड़बड़ी फूरियर श्रृंखला के अभिसरण की दर को कम करती है ... फ़ंक्शन को सुचारू किया जाता है, इसके DFT या DCT में कम शब्द इसे सही ढंग से प्रस्तुत करने के लिए आवश्यक हैं, और अधिक संकुचित किया जा सकता है ... हालांकि, डीएफटी की अंतर्निहित आवधिकता का मतलब है कि आमतौर पर सीमाएं बंद हो जाती हैं ... इसके विपरीत, एक डीसीटी जहां दोनों सीमाएं हमेशा सीमाओं पर एक निरंतर विस्तार प्राप्त करती हैं। यही कारण है कि डीसीटी ... आमतौर पर डीएफटी और डीएसटी की तुलना में सिग्नल संपीड़न के लिए बेहतर प्रदर्शन करते हैं। व्यवहार में, कम्प्यूटेशनल सुविधा के कारणों के लिए, आमतौर पर इस तरह के अनुप्रयोगों के लिए एक प्रकार- II DCT को प्राथमिकता दी जाती है।

इसके अतिरिक्त, आप पा सकते हैं कि यह उत्तर भी उपयोगी है (math.stackexchange.com से)। य़ह कहता है:

विशेष समरूपता के साथ अनुक्रम के फूरियर रूपांतरण की गणना के लिए कोसाइन ट्रांसफॉर्मर शॉर्टकट से ज्यादा कुछ नहीं हैं (उदाहरण के लिए यदि अनुक्रम सम कार्य से नमूने का प्रतिनिधित्व करता है)।


19

फ़ीचर निष्कर्षण प्रक्रिया में दो बार लागू किए गए फूरियर रूपांतरण को देखने का कारण यह है कि सुविधाएँ एक अवधारणा पर आधारित हैं जिसे सेप्रस्ट्रम कहा जाता है। सेफस्ट्रम शब्द स्पेक्ट्रम पर एक नाटक है - अनिवार्य रूप से विचार फूरियर रूपांतरण द्वारा आवृत्ति डोमेन के लिए एक संकेत को बदलना है, और फिर एक और परिवर्तन करना जैसे कि आवृत्ति स्पेक्ट्रम एक संकेत था।

जबकि आवृत्ति स्पेक्ट्रम प्रत्येक आवृत्ति बैंड के आयाम और चरण का वर्णन करता है, cepstrum आवृत्ति बैंड के बीच भिन्नता को दर्शाता है। फ़्रीक्वेंसी स्पेक्ट्रम से सीधे ली गई सुविधाओं की तुलना में सीप्सट्रम से प्राप्त विशेषताएं भाषण का बेहतर वर्णन करने के लिए पाई जाती हैं।

कुछ अलग परिभाषाएँ हैं। मूल रूप से सेफस्ट्रम परिवर्तन को फूरियर रूपांतरण -> जटिल लघुगणक -> फूरियर रूपांतरण [1] के रूप में परिभाषित किया गया था। एक अन्य परिभाषा है फूरियर ट्रांसफॉर्म -> जटिल लॉगरिदम -> उलटा फूरियर ट्रांसफॉर्म [2]। बाद की परिभाषा के लिए प्रेरणा अलग-अलग संकेतों को अलग करने की क्षमता में है (मानव भाषण अक्सर एक उत्तेजना और एक मुखर पथ के दृढ़ संकल्प के रूप में मॉडलिंग की जाती है)।

एक लोकप्रिय विकल्प जो भाषण मान्यता प्रणालियों में अच्छा प्रदर्शन करने के लिए पाया गया है, आवृत्ति डोमेन में एक गैर-रेखीय फ़िल्टर बैंक लागू करना है (जिस मेलबिन का आप उल्लेख कर रहे हैं) [3]। विशेष एल्गोरिथ्म को फूरियर ट्रांसफॉर्म -> परिमाण के वर्ग -> मेल फ़िल्टर बैंक -> वास्तविक लघुगणक -> असतत कोसाइन रूपांतरण के रूप में परिभाषित किया गया है।

यहां डीसीटी को दूसरे परिवर्तन के रूप में चुना जा सकता है, क्योंकि वास्तविक मूल्य वाले इनपुट के लिए, डीएफटी का वास्तविक हिस्सा एक प्रकार का डीसीटी है। डीसीटी को पसंद करने का कारण यह है कि आउटपुट लगभग सजावटी है। सजावटी सुविधाओं को एक विकर्ण कोविरियस मैट्रिक्स के साथ गॉसियन वितरण के रूप में कुशलता से तैयार किया जा सकता है।

[१] बोगर्ट, बी।, हीली, एम। और टुके, जे (१ ९ ६३)। Echoes के लिए टाइम सीरीज़ की कफ़रेंसी अलनैसिस: सेफस्ट्रम, स्यूडो-ऑटोकॉवेरियन, क्रॉस-सेफस्ट्रम और सफे क्रैकिंग। समय श्रृंखला विश्लेषण पर संगोष्ठी की कार्यवाही में, पी। 209-243।

[२] ओपेनहेम, ए।, और शेफर, आर। (१ ९ ६heim)। भाषण के Homomorphic विश्लेषण। IEEE में ऑडियो और इलेक्ट्रोकैस्टिक्स पर लेनदेन 16, पी। 221-226।

[३] डेविस, एस।, और मर्मेलस्टीन, पी। (१ ९ ,०)। सतत रूप से बोले गए वाक्यों में मोनोसैलिक शब्द मान्यता के लिए पैरामीट्रिक प्रतिनिधियों की तुलना। आईईईई लेनदेन में ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर 28, पी। 357-366।


पुन। पीसीए फीचर निष्कर्षण में: एक सच्चा पीसीए यहां बेकार होगा क्योंकि यह डेटा पर निर्भर होगा! यदि आप एक डेटासेट से मेल-फ़्रीक्वेंसी लॉग गुणांक के पीसीए की गणना करते हैं, और फिर दूसरे से, तो आपको एक अलग आधार मिलेगा - जिसका अर्थ होगा कि यदि पीसीए को फीचर निष्कर्षण प्रक्रिया में उपयोग किया गया था, तो एक सिग्नल पर निकाली गई विशेषताएं अन्य संकेत पर निकाले गए फीचर्स के समान 't' का अर्थ समान है। अब यह प्रयोग करें: लॉग मेल कॉफ के सेट पर पीसीए की गणना करें। सबसे विविध ऑडियो के 10 बजे से निकाले गए। आपको जो आधार मिलेगा वह डीसीटी आधार के समान ही है।
pichenettes

3
दूसरे शब्दों में कहें: मान्यता आवेदन में उपयोगी होने के लिए, सुविधा निष्कर्षण प्रक्रिया के अंत में सजावट संबंधी परिवर्तन डेटा विशेष के बजाय सामान्य रूप से "ऑडियो" के लिए उपयुक्त समझौता होना चाहिए। यह पता चला है कि जब आप ऑडियो के एक बड़े सेट पर पीसीए चलाते हैं, तो डीसीटी आधार बहुत करीब होता है!
pichenettes

मैंने हाल ही में एक प्रयोगात्मक भाषण प्रणाली में सुविधा निष्कर्षण प्रक्रिया के अंत में उपयोग किए जाने वाले पीसीए को देखा। उस प्रणाली ने प्रशिक्षण डेटा से पीसीए प्रक्षेपण की गणना की और बाद में उसी आधार का उपयोग किया।
सेप्पो एनारवी

8

एक असतत फूरियर रूपांतरण और एक असतत कोसाइन रूपांतरण के बीच का अंतर यह है कि DCT केवल वास्तविक संख्याओं का उपयोग करता है, जबकि एक फूरियर रूपांतरण जटिल संख्याओं का उपयोग कर सकता है। DCT का सबसे आम उपयोग संपीड़न है। यह लंबाई के दोगुने एफएफटी के बराबर है।


1
हालांकि, एक जटिल अनुक्रम के डीसीटी / डीएसटी की कल्पना करना संभव है, जहां एक अलग से वास्तविक और काल्पनिक भागों के डीसीटी / डीएसटी लेता है।

तो हम कह सकते हैं कि यदि मैं DFT की गणना करता हूं तो मुझे DCT मुफ्त में मिलता है, मुझे केवल वेक्टर के काल्पनिक भागों को हटाने की आवश्यकता है। कृपया मुझे सुधारें अगर मैं गलत हूं।
मारेक

1
यह उससे थोड़ा अधिक जटिल है, लेकिन एफएफटी और डीसीटी के बीच काफी आसानी से परिवर्तित करना संभव है।
पियरसनआर्टोफ़ोटो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.