मुझे सादे एफएफटी परिमाण स्पेक्ट्रम के बजाय PSD की गणना कब करनी चाहिए?


12

मेरे पास एक तीस-सेकंड का भाषण संकेत है जिसे 44.1 kHz पर नमूना किया गया था। अब, मैं बताना चाहूंगा कि भाषण में कितनी आवृत्ति होती है। हालांकि, मुझे यकीन नहीं है कि ऐसा करने का सबसे अच्छा तरीका क्या होगा। ऐसा लगता है कि कभी-कभी कोई फूरियर रूपांतरण के निरपेक्ष मूल्य की गणना करता है, और कभी-कभी पावर स्पेक्ट्रल घनत्व। अगर मैं सही ढंग से समझूं, तो बाद वाला काम करता है ताकि मैं अपने सिग्नल को भागों में बाँटूँ, एफएफटी को पार्ट-बाय-पार्ट करूँ और किसी तरह इनको योग करूँ। विंडो फ़ंक्शंस किसी भी तरह शामिल हैं। क्या आप मेरे लिए इसे थोड़ा स्पष्ट कर सकते हैं? मैं डीएसपी के लिए नया हूं।


1
सिग्नल को खंडों में तोड़ना, प्रत्येक के स्पेक्ट्रम को खोजना, और फिर स्पेक्ट्रा का औसत शोर को कम करने में मदद कर सकता है, लेकिन संकल्प को भी कम करता है। en.wikipedia.org/wiki/Welch%27s_method
endolith

जवाबों:


8

अब, मैं बताना चाहूंगा कि भाषण में कितनी आवृत्ति होती है। हालांकि, मुझे यकीन नहीं है कि ऐसा करने का सबसे अच्छा तरीका क्या होगा। ऐसा लगता है कि कभी-कभी कोई फूरियर रूपांतरण के निरपेक्ष मूल्य की गणना करता है, और कभी-कभी पावर स्पेक्ट्रल घनत्व।

यदि आप अपने विश्लेषण में भौतिक अर्थ संलग्न करना चाहते हैं, तो पावर स्पेक्ट्रल घनत्व, (पीएसडी) के साथ जाएं। ऐसा इसलिए है क्योंकि यह आपको प्रत्येक आवृत्ति बैंड में बस अपने सिग्नल की शक्ति देगा। दूसरी ओर यदि आप भौतिक अर्थ के बारे में नहीं चाहते / परवाह करते हैं, लेकिन यह जानना चाहते हैं कि प्रत्येक बैंड के फूरियर आयाम एक-दूसरे के सापेक्ष कैसे भिन्न होते हैं, तो आप पूर्ण परिमाण से चिपक सकते हैं।

व्यवहार में, आप PSD को फूरियर रूपांतरण के पूर्ण परिमाण के रूप में गणना कर सकते हैं। उदाहरण के लिए, यदि आपका संकेत , और इसका DFT , तो DFT का पूर्ण परिमाण, जबकि PSD है ।x[n]X(f)|X(f)||X(f)|2

अगर मैं सही ढंग से समझूं, तो बाद वाला काम करता है ताकि मैं अपने सिग्नल को भागों में बाँटूँ, एफएफटी को पार्ट-बाय-पार्ट करूँ और किसी तरह इनको योग करूँ। विंडो फ़ंक्शंस किसी भी तरह शामिल हैं। क्या आप मेरे लिए इसे थोड़ा स्पष्ट कर सकते हैं? मैं डीएसपी के लिए नया हूं।

नहीं, यह सच नहीं है। आप यहां जिस बारे में बात कर रहे हैं, वह शॉर्ट टाइम फूरियर ट्रांसफॉर्म (STFT) को संदर्भित करता है । यह बस आपके समय डोमेन सिग्नल को काट रहा है, इसे चौड़ा कर रहा है, और फिर फूरियर ट्रासफॉर्म ले रहा है। हालांकि दिन के अंत में, आपके पास अभी भी एक जटिल मैट्रिक्स होगा। यदि आप इसका पूर्ण परिमाण लेना चुनते हैं, तो आपके पास पूर्ण परिमाण फूरियर रूपांतरण मैट्रिक्स होगा। यदि आप इसका पूर्ण परिमाण चुकता करते हैं, तो आपके पास एक पावर स्पेक्ट्रल घनत्व मैट्रिक्स होगा।


3

भाषण संकेत जैसी किसी चीज़ के बारे में समझने के लिए महत्वपूर्ण बात यह है कि इसके आवृत्ति घटक समय-भिन्न होते हैं । आवृत्ति डोमेन में भाषण का प्रतिनिधित्व करने के लिए हम आमतौर पर संकेत की एक छोटी पर्याप्त खिड़की लेते हैं जिसके भीतर हम यह मान सकते हैं कि भाषण का स्पेक्ट्रम काफी भिन्न नहीं होता है (आमतौर पर 10 एमएस)। इसलिए हम STFT (अक्सर खिड़कियों के बीच कुछ ओवरलैप के साथ) का उपयोग करके प्रत्येक क्रमिक 10 एमएस विंडो के लिए बिजली स्पेक्ट्रम की गणना करते हैं और उस समय में भाषण के आवृत्ति घटकों के "स्नैपशॉट" के रूप में प्रत्येक क्रमिक स्पेक्ट्रम का इलाज करते हैं। अक्सर लगातार स्पेक्ट्रा इस तरह के एक के रूप में एक 3 डी साजिश में साजिश रची है spectrogram, एक्स अक्ष पर समय के साथ, वाई अक्ष पर आवृत्ति, और प्रत्येक एक्स, वाई स्थान पर झूठे रंग या ग्रे स्केल तीव्रता के रूप में प्लॉट किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.