DFT के बजाय DCT को ऑडियो परिमाण स्पेक्ट्रम के लिए इस्तेमाल किया जा सकता है?


13

मैं जो समझता हूं, डीसीटी में उसी आकार के डीएफटी के रूप में आधा बिन आकार है। डीएफटी में चरण जानकारी भी शामिल है, लेकिन अक्सर यह आवश्यक नहीं होता है जब केवल परिमाण स्पेक्ट्रम वांछित होता है।

  • क्या DCT DFT के घनत्व (आधे बिन रिक्ति) के साथ दो बार एक परिमाण स्पेक्ट्रम प्रदान करने के लिए इस्तेमाल किया जा सकता है या चरण जानकारी से बाहर हो जाएगा?
  • कैसे एक 50% ओवरलैप के साथ?

4
मेरा मानना ​​है कि डीसीटी में चरण की जानकारी भी शामिल है, यह सिर्फ जटिल संख्याओं का उपयोग नहीं करता है। "वास्तविक FFT" समान नकारात्मक आवृत्तियों को दूर करके, एक ही जानकारी के लिए आधी मेमोरी और आधा गणना समय का उपयोग करता है। "एक डबल-लंबाई एफएफटी का वास्तविक हिस्सा डीसीटी के समान है सिवाय
सिसुओइडल

वास्तव में, कम से कम एक गुणांक के संकेत को एक गरीब आदमी के चरण के रूप में माना जा सकता है
लॉरेंट डुवल

जवाबों:


3

हां, दो बार घनत्व के साथ एक परिमाण स्पेक्ट्रम प्रदान करने के लिए डीसीटी का उपयोग किया जा सकता है। मुझे ओवरलैप समझ में नहीं आता है, लेकिन मैं यह मान रहा हूं कि चूंकि डीसीटी कम है, इसलिए आपको लगा कि ओवरलैप होगा। प्रश्न का उत्तर देने के लिए, मुझे मुख्य रूप से इमेज प्रोसेसिंग में डीसीटी के उपयोग के लिए एक त्वरित समीक्षा करनी चाहिए।

सबसे पहले, हमें कुछ धारणाएँ बनाने की ज़रूरत है। DCT का उपयोग करने के लिए, आपको एक वास्तविक संकेत होना चाहिए। यह परिभाषा के अनुसार है। जब आप कह रहे हैं, DCT में आकार N में DFT की तुलना में आधा बिन आकार है, तो आप मान रहे हैं कि संकेत कम आवृत्ति संकेत है। नहीं तो इतना भी नहीं।

संपीड़न में डीसीटी के उपयोग के लिए, चूंकि छवि का डीएफटी सममित होगा, यह अनावश्यक जानकारी पैदा करता है (सिग्नल को पुन: उत्पन्न करने के लिए एक साइड मिरर पर्याप्त होगा)। इसलिए, DCT के कर्नेल का उपयोग DFT की तुलना में सघन जानकारी उत्पन्न करने के लिए किया जाता है। यह कम आवृत्ति ऑडियो संकेतों के लिए भी सही है, इसे उसी तरह से उपयोग किया जा सकता है। हालांकि यह घना बनाता है, गुणांक बड़ा हो जाता है, क्योंकि DCT के कर्नेल सिग्नल के दोनों किनारों (वास्तविक और काल्पनिक भागों) को कवर करता है।

मेरी प्रमुख छवि प्रसंस्करण है, इसलिए मैंने छवि प्रसंस्करण में डीसीटी और डीएफटी अवधारणाओं और स्पष्टीकरण को मैप करने की कोशिश की। छवि और ऑडियो के बीच एक अंतर आकार हो सकता है, हालांकि। इमेज प्रोसेसिंग में, आप आकार (FFT और प्रसंस्करण के अन्य उद्देश्य के लिए कॉलम और कॉलम) जानते हैं। मुझे लगता है कि आपको आगे की प्रक्रिया के लिए ऑडियो डेटा के वेक्टर को किसी तरह से विभाजित करने की आवश्यकता है। डेटा को जाने बिना, यह परेशानी हो सकती है (मुझे यकीन नहीं है)।

यहां वेब से ली गई एक छवि है, लेकिन मैंने इसे नहीं लिखा है कि मैं इसे कहां ले गया, विकिपीडिया हो सकता है ।;

इमेज प्रोसेसिंग

जैसा कि आप देख सकते हैं, बिना किसी समस्या के परिमाण स्पेक्ट्रम द्वारा डीसीटी में रूपांतरित छवि का प्रतिनिधित्व किया जाता है। अधिक कॉम्पैक्ट और सघन तरीके से, और गुणांक के परिमाण को देखें। यह डीएफटी के दो गुना से बड़ा है। DFT सममित है, आप इसे दो में विभाजित कर सकते हैं। एक हिस्सा बेमानी है। और एक और बात, DCT स्टोर कर सकता है सूचना सिर्फ DFT की आधी नहीं बल्कि DFT की लगभग चौथाई है। यह आमतौर पर छवियों में DFT से अधिक DCT का मामला है।


क्या FFT को चौथे में नहीं बांटा जा सकता है, क्योंकि यह X और Y दोनों आयामों में बेमानी है?
एंडोलिथ

ऐसा क्यों लगता है कि एफएफटी में अधिक जानकारी है और डीसीटी में अधिक शून्य हैं?
19

पहला सवाल, मैं काफी समझ नहीं पा रहा हूं, आपको X और Y आयामों से क्या मतलब है? दूसरे प्रश्न के लिए, उनकी गुठली में अंतर के कारण है। ऐसा नहीं लगता है कि डीसीटी में अधिक शून्य होते हैं, इसमें वास्तव में सामान्य फूरियर ट्रांसफॉर्म (डीएफटी) की तुलना में अधिक शून्य होते हैं। यह फिर से उनके गुठली में अंतर के कारण है।
हेफेस्टस

मेरा मतलब है कि छवि एक वास्तविक संकेत है, इसलिए एफएफटी में अनावश्यक जानकारी है। एफएफटी का नकारात्मक आधा सकारात्मक आयाम का एक दर्पण है, दोनों आयामों में।
एंडोलिथ

0
  • कैसे एक 50% ओवरलैप के साथ?

इस सवाल से, मैं समझता हूं कि आप स्थानीयकृत, ब्लॉक प्रसंस्करण, फूरियर या स्पेक्ट्रोग्राम को फिसलने के तरीके के बारे में सोच रहे हैं।

  • क्या DCT DFT के घनत्व (आधे बिन रिक्ति) के साथ दो बार एक परिमाण स्पेक्ट्रम प्रदान करने के लिए इस्तेमाल किया जा सकता है या चरण जानकारी से बाहर हो जाएगा?

यदि आप परिमाण स्पेक्ट्रम के बारे में बात करते हैं, तो निश्चित रूप से चरण का हिस्सा ( जैसा कि यह एक जटिल फूरियर गुणांक का तर्क है, या डीसीटी गुणांक का संकेत है) वैसे भी खो जाएगा

तो बेशक आप केवल विश्लेषण के लिए अल्पकालिक-फूरियर निर्माण के अंदर विंडो फूरियर रूपांतरण के लिए प्रतिस्थापन में बहुत सारे कर्नेल को प्लग कर सकते हैं। डीसीटी की विभिन्न नस्लों, उनके अतिव्यापी संस्करण (एलओटी, एमडीसीटी), अच्छे ऑर्थोगोनल और विंडो गुणों के साथ, यहां तक ​​कि उलटा (संश्लेषण) भी हो सकते हैं।

ऑडियो में, (गैर-जटिल) डीसीटी या ओवरलैप किए गए संस्करणों का उपयोग अक्सर विश्लेषण, शुरुआत और पिच का पता लगाने के लिए किया जाता है, (अंधा स्रोत पृथक्करण) उदाहरण के लिए एसटीएफटी, एमडीसीटी और ए लिटुकस द्वारा मैटलैब टूलबॉक्स को उलट दिया जाता है। बड़े समय आवृत्ति विश्लेषण टूलबॉक्स (LTFAT) भी पास:

  • फास्ट टीएफ एक रेखीय समय-आवृत्ति पैमाने के साथ बदलता है: गैबोर (एसटीएफटी), विल्सन और विंडो एमडीसीटी
  • गैबर और WMDCT डोमेन में विरल प्रतिगमन

मैं ऑडियो को बहुत अच्छी तरह से नहीं जानता। हालांकि, एक 50% या 75% ओवरलैप बहुत आम हैं, और बहुत कम लोग अन्य सेटिंग्स का उपयोग करते हैं। हालांकि, "वन-विंडो" टाइम-फ़्रीक्वेंसी सीमा को पार करने में मदद के लिए कम से कम दो विंडो आकार , एक लंबे समय तक स्थिर भाग, क्षणिक के लिए एक का उपयोग करना बहुत आम है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.