विलोम शार्ट टाइम फूरियर ट्रांसफॉर्म एल्गोरिथ्म शब्दों में वर्णित है


20

मैं आगे और जब शॉर्ट टाइम फूरियर ट्रांसफॉर्म (STFT) को असतत समय-डोमेन सिग्नल पर लागू किया जाता है, तो यह समझने की कोशिश कर रहा हूं कि क्या हो रहा है। मैंने एलन और राबिनर ( 1977 ) द्वारा क्लासिक पेपर , साथ ही एक विकिपीडिया लेख ( लिंक ) पाया है। मेरा मानना ​​है कि यहां एक और अच्छा लेख भी है

मुझे गैबर ट्रांसफॉर्म की गणना करने में दिलचस्पी है, जो एक गाऊसी खिड़की के साथ एसटीएफटी से ज्यादा कुछ नहीं है।

यह वही है जो मैं आगे STFT के बारे में समझता हूँ :

  1. एक उप-अनुक्रम सिग्नल से चुना जाता है, जिसमें समय डोमेन तत्व शामिल होते हैं।
  2. उप-अनुक्रम टाइम डोमेन में पॉइंट-बाय-पॉइंट गुणा का उपयोग करके एक विंडो फ़ंक्शन द्वारा गुणा किया जाता है।
  3. गुणक उप-अनुक्रम को FFT का उपयोग करके आवृत्ति डोमेन में लिया जाता है।
  4. क्रमिक ओवरलैपिंग उप-अनुक्रमों का चयन करके और ऊपर की प्रक्रिया को दोहराते हुए, हमें एम रो और एन कॉलम के साथ एक मैट्रिक्स मिलता है । प्रत्येक स्तंभ एक दिए गए समय में गणना किए गए उप-अनुक्रम है। यह एक स्पेक्ट्रोग्राम की गणना करने के लिए इस्तेमाल किया जा सकता है।

हालांकि, उलटा एसटीएफटी के लिए, पेपर ओवरलैपिंग विश्लेषण अनुभागों पर एक सारांश के बारे में बात करते हैं। मुझे यह कल्पना करना बहुत चुनौतीपूर्ण लग रहा है कि वास्तव में यहाँ क्या हो रहा है। उलटे एसटीएफटी (ऊपर के रूप में चरण दर चरण में) की गणना करने में सक्षम होने के लिए मुझे क्या करना होगा ?

फॉरवर्ड STFT

मैंने एक ड्राइंग बनाई है, जो मुझे लगता है कि आगे STFT के लिए चल रही है। मुझे समझ में नहीं आता है कि प्रत्येक उप-अनुक्रम को कैसे इकट्ठा किया जाए ताकि मुझे मूल समय अनुक्रम वापस मिल जाए। क्या कोई इस ड्राइंग को संशोधित कर सकता है या यह दिखा सकता है कि उप-अनुक्रम कैसे जोड़े जाते हैं?फॉरवर्ड ट्रांसफॉर्म

उलटा रूपांतरण

यहाँ मैं उलटा रूपांतर के बारे में समझता हूँ। प्रत्येक क्रमिक विंडो को IFFT का उपयोग करके समय डोमेन में वापस ले लिया जाता है। फिर प्रत्येक विंडो को चरण आकार द्वारा स्थानांतरित किया जाता है, और पिछली शिफ्ट के परिणाम में जोड़ा जाता है। निम्न आरेख इस प्रक्रिया को दर्शाता है। सारांशित आउटपुट टाइम डोमेन सिग्नल है।

उलटा रूपांतर

कोड उदाहरण

निम्नलिखित Matlab कोड एक सिंथेटिक टाइम डोमेन सिग्नल उत्पन्न करता है, और फिर STFT प्रक्रिया का परीक्षण करता है, यह दर्शाता है कि व्युत्क्रम संख्यात्मक परिवर्तन के दोहरे है, संख्यात्मक राउंड-ऑफ त्रुटि के भीतर। सिग्नल की शुरुआत और अंत यह सुनिश्चित करने के लिए शून्य-गद्देदार है कि विंडो का केंद्र टाइम-डोमेन सिग्नल के पहले और अंतिम तत्वों पर स्थित हो सकता है।

एन+एन0-1एन0

% The code computes the STFT (Gabor transform) with step size = 1
% This is most useful when modifications of the signal is required in
% the frequency domain

% The Gabor transform is a STFT with a Gaussian window (w_t in the code)

% written by Nicholas Kinar

% Reference:
% [1] J. B. Allen and L. R. Rabiner, 
% “A unified approach to short-time Fourier analysis and synthesis,” 
% Proceedings of the IEEE, vol. 65, no. 11, pp. 1558 – 1564, Nov. 1977.

% generate the signal
mm = 8192;                  % signal points
t = linspace(0,1,mm);       % time axis

dt = t(2) - t(1);           % timestep t
wSize = 101;                % window size


% generate time-domain test function
% See pg. 156
% J. S. Walker, A Primer on Wavelets and Their Scientific Applications, 
% 2nd ed., Updated and fully rev. Boca Raton: Chapman & Hall/CRC, 2008.
% http://www.uwec.edu/walkerjs/primer/Ch5extract.pdf
term1 = exp(-400 .* (t - 0.2).^2);
term2 = sin(1024 .* pi .* t);
term3 = exp(-400.*(t- 0.5).^2);
term4 = cos(2048 .* pi .* t);
term5 = exp(-400 .* (t-0.7).^2);
term6 = sin(512.*pi.*t) - cos(3072.*pi.*t);
u = term1.*term2  + term3.*term4 + term5.*term6; % time domain signal
u = u';

figure;
plot(u)

Nmid = (wSize - 1) / 2 + 1;    % midway point in the window
hN = Nmid - 1;                 % number on each side of center point       


% stores the output of the Gabor transform in the frequency domain
% each column is the FFT output
Umat = zeros(wSize, mm);     


% generate the Gaussian window 
% [1] Y. Wang, Seismic inverse Q filtering. Blackwell Pub., 2008.
% pg. 123.
T = dt * hN;                    % half-width
sp = linspace(dt, T, hN); 
targ = [-sp(end:-1:1) 0 sp];    % this is t - tau
term1 = -((2 .* targ) ./ T).^2;
term2 = exp(term1);
term3 = 2 / (T * sqrt(pi));
w_t = term3 .* term2;
wt_sum = sum ( w_t ); % sum of the wavelet


% sliding window code
% NOTE that the beginning and end of the sequence
% are padded with zeros 
for Ntau = 1:mm

    % case #1: pad the beginning with zeros
    if( Ntau <= Nmid )
        diff = Nmid - Ntau;
        u_sub = [zeros(diff,1); u(1:hN+Ntau)];
    end

    % case #2: simply extract the window in the middle
    if (Ntau < mm-hN+1 && Ntau > Nmid)
        u_sub = u(Ntau-hN:Ntau+hN);
    end

    % case #3: less than the end
    if(Ntau >= mm-hN+1)
        diff = mm - Ntau;
        adiff = hN - diff;
        u_sub = [ u(Ntau-hN:Ntau+diff);  zeros(adiff,1)]; 
    end   

    % windowed trace segment
    % multiplication in time domain with
    % Gaussian window  function
    u_tau_omega = u_sub .* w_t';

    % segment in Fourier domain
    % NOTE that this must be padded to prevent
    % circular convolution if some sort of multiplication
    % occurs in the frequency domain
    U = fft( u_tau_omega );

    % make an assignment to each trace
    % in the output matrix
    Umat(:,Ntau) = U;

end

% By here, Umat contains the STFT (Gabor transform)

% Notice how the Fourier transform is symmetrical 
% (we only need the first N/2+1
% points, but I've plotted the full transform here
figure;
imagesc( (abs(Umat)).^2 )


% now let's try to get back the original signal from the transformed
% signal

% use IFFT on matrix along the cols
us = zeros(wSize,mm);
for i = 1:mm 
    us(:,i) = ifft(Umat(:,i));
end

figure;
imagesc( us );

% create a vector that is the same size as the original signal,
% but allows for the zero padding at the beginning and the end of the time
% domain sequence
Nuu = hN + mm + hN;
uu = zeros(1, Nuu);

% add each one of the windows to each other, progressively shifting the
% sequence forward 
cc = 1; 
for i = 1:mm
   uu(cc:cc+wSize-1) = us(:,i) + uu(cc:cc+wSize-1)';
   cc = cc + 1;
end

% trim the beginning and end of uu 
% NOTE that this could probably be done in a more efficient manner
% but it is easiest to do here

% Divide by the sum of the window 
% see Equation 4.4 of paper by Allen and Rabiner (1977)
% We don't need to divide by L, the FFT transform size since 
% Matlab has already taken care of it 
uu2 = uu(hN+1:end-hN) ./ (wt_sum); 

figure;
plot(uu2)

% Compare the differences bewteen the original and the reconstructed
% signals.  There will be some small difference due to round-off error
% since floating point numbers are not exact
dd = u - uu2';

figure;
plot(dd);

2
बड़ा सवाल - लेकिन, आपने इस डायग्राम को उड़ने पर जल्दी कैसे बना दिया? ...
स्पेसी

2
मैंने ग्रीक वर्णों के लिए आरेख और गणित के लिए एडोब इलस्ट्रेटर का उपयोग किया।
निकोलस किन्नर

1
"मैं गैबर परिवर्तन की गणना करने में दिलचस्पी रखता हूं, जो एक गाऊसी खिड़की के साथ एसटीएफटी से ज्यादा कुछ नहीं है।" याद रखें कि गैबोर परिवर्तन एक निरंतर अभिन्न अंग है, और यह कि गाऊसी खिड़कियां अनंत तक फैली हुई हैं। एसटीएफटी के विशिष्ट कार्यान्वयन असतत ओवरलैप किए गए विखंडू का उपयोग करते हैं और परिमित-लंबाई वाली खिड़कियों का उपयोग करना पड़ता है।
एंडोलिथ

यह इंगित करने के लिए धन्यवाद कि एंडोलिथ। सिग्नल प्रोसेसिंग करते समय मैं बहुत असतत तरीके से सोचता हूं।
निकोलस किन्नर

जवाबों:


11

एसटीएफटी परिवर्तन जोड़ी को 4 अलग-अलग मापदंडों द्वारा विशेषता दी जा सकती है:

  1. एफएफटी आकार (एन)
  2. चरण आकार (एम)
  3. विश्लेषण विंडो (आकार N)
  4. संश्लेषण खिड़की (आकार एन)

प्रक्रिया इस प्रकार है:

  1. वर्तमान इनपुट स्थान से एन (एफएफटी आकार) नमूने पकड़ो
  2. विश्लेषण विंडो लागू करें
  3. एफएफटी करें
  4. आप जो भी करना चाहते हैं उसे फ़्रीक्वेंसी डोमेन में करें
  5. उलटा एफएफटी
  6. संश्लेषण खिड़की लागू करें
  7. वर्तमान आउटपुट स्थान पर आउटपुट में जोड़ें
  8. एम (चरण आकार) नमूनों द्वारा अग्रिम इनपुट और आउटपुट स्थान

ओवरलैप ऐड एल्गोरिथ्म इसके लिए एक अच्छा उदाहरण है। इस मामले में कदम का आकार एन है, एफएफटी का आकार 2 * एन है, विश्लेषण विंडो एन के साथ आयताकार है जिसके बाद एन शून्य है और संश्लेषण विंडो बस सभी हैं।

उसके लिए कई अन्य विकल्प हैं और कुछ शर्तों के तहत आगे / उलटा स्थानांतरण पूरी तरह से पुनर्निर्माण कर रहा है (यानी आप मूल सिग्नल प्राप्त कर सकते हैं)।

यहाँ मुख्य बात यह है कि प्रत्येक आउटपुट नमूने में आमतौर पर एक से अधिक व्युत्क्रम एफएफटी से योगात्मक योगदान प्राप्त होता है। आउटपुट को कई फ़्रेमों पर संचित करने की आवश्यकता होती है। योगदान करने वाले तख्ते की संख्या बस चरण आकार (विभाजित गोल, यदि आवश्यक हो) द्वारा विभाजित एफएफटी आकार द्वारा दी गई है।


आपके उत्कट उत्तर के लिए बहुत-बहुत धन्यवाद। मैं ओवरलैप-ऐड विधि को समझता हूं। मैं संश्लेषण खिड़की के लिए क्या उपयोग करूं? क्या कोई समीकरण है? अगर मुझे विश्लेषण विंडो फ़ंक्शन (जैसे गॉसियन विंडो) पता है, तो मैं संश्लेषण खिड़की की गणना कैसे करूं? मैं समझता हूं कि ओवरलैप-ऐड मेथड का उपयोग कनवल्शन के लिए कैसे किया जाता है, लेकिन मैं यह नहीं समझता कि एसटीएफटी के लिए इसका उपयोग कैसे किया जाता है। यदि चरण आकार चरण = 1 है, तो मैं फ़्रेम को एक साथ कैसे जोड़ूं? क्या कोई समीकरण है?
निकोलस किन्नर

यदि विश्लेषण विंडो फ़ंक्शन चरण आकार चरण 1 के साथ प्रत्येक नमूने पर केंद्रित है, तो क्या मैं समय-डोमेन अनुक्रम की शुरुआत और अंत को शून्य-पैड करता हूं ताकि खिड़की का मध्य प्रत्येक नमूने पर केंद्रित हो (पहले और अंतिम सहित) समय-क्रम अनुक्रम में नमूने)?
निकोलस किन्नर

आप अपने एप्लिकेशन की विशिष्ट आवश्यकताओं के आधार पर चरण आकार, fft आकार, विश्लेषण और संश्लेषण विंडो चुन सकते हैं। एक उदाहरण चरण आकार एन, एफएफटी आकार 2 * एन, विश्लेषण हैंगिंग, संश्लेषण सभी हैं। आप इसे संशोधित कर सकते हैं कि विश्लेषण sqrt (हैंनिंग) और संश्लेषण sqrt (हैंनिंग)। या तो कोई काम करेगा। मैं उकसाता हूं कि आप फ्रिक्वेंसी डोमेन में क्या करते हैं और किस तरह की कलाकृतियां जैसे टाइम डोमेन अलियासिंग आप बना सकते हैं।
हिलमार

@ हिलमार: मुझे सिग्नल के लिए फ़्रीक्वेंसी-डोमेन संशोधन करने में सक्षम होना चाहिए, और फिर आईएफएफटी को समय डोमेन सिग्नल प्राप्त करने के लिए ले जाना चाहिए। मैं समय डोमेन एलियासिंग को कम करना चाहूंगा। मुझे अभी भी समझ में नहीं आया कि प्रत्येक उप-अनुक्रम को समय डोमेन में वापस कैसे लाया जाए और फिर उन्हें एक साथ जोड़ा जाए।
निकोलस किन्नर

मैंने कुछ परीक्षण कोड लिखे हैं और फिर अपने मूल प्रश्न को अपडेट किया है।
निकोलस किन्नर

2

इस सवाल के सात साल बाद पहली बार, मैं इस भ्रम में @Nicholas Kinar के समान था। यहाँ मैं कुछ "अनौपचारिक" और "सही ढंग से पूरी तरह से आश्वस्त नहीं" व्यक्तिगत अवधारणात्मक विचारों और स्पष्टीकरण प्रदान करना चाहूंगा।

बेहतर समझदारी के लिए निम्नलिखित कथनों का शीर्षक अतिरंजित है।

  1. STFT की फॉरवर्ड प्रक्रिया वास्तव में मूल सिग्नल को संरक्षित करने के लिए नहीं है।
    • गैर-तुच्छ विंडो (सभी नहीं) के साथ एसटीएफटी का उपयोग करते समय, एफएफटी के लिए इनपुट सिग्नल मूल सिग्नल टुकड़ा का एक तिरछा / फैला हुआ संस्करण है।
    • यह सुविधा निष्कर्षण के लिए अच्छा है, जिसमें बेकार / अनावश्यक डेटा को फ़िल्टर किया जाता है। सिलेबल्स डिटेक्शन की तरह, एक भाषण में कुछ निश्चित टोन का पता लगाने के लिए सभी अस्थायी डेटा की आवश्यकता नहीं होती है।
    • विंडो वेक्टर में शिखर एक ऑडियो सिग्नल में पदों के अल्पसंख्यक का प्रतिनिधित्व करता है जहां एल्गोरिदम को ध्यान देना चाहिए।
  2. तो उलटा एसटीएफटी का कच्चा परिणाम कुछ ऐसा हो सकता है जिसकी हम उम्मीद नहीं कर सकते।
    • यह विंडो सिग्नल के टुकड़े होने चाहिए जो कि एसटीएफटी सुविधाओं के इफट की तरह दिखना चाहिए।
  3. मूल अन-विंडो संकेत टुकड़े को प्राप्त करने के लिए, कोई ifft के कच्चे आउटपुट में व्युत्क्रम-विंडो लागू कर सकता है।
    • मैपिंग फ़ंक्शन को डिज़ाइन करना आसान है, जो हैंग / हैमिंग विंडो प्रभाव को पूर्ववत कर सकता है।
  4. संश्लेषण खिड़की तो अस्थायी विखंडन अतिव्यापी से निपटने के लिए शामिल है
    • चूंकि मूल अन-विंडो वाले सिग्नल टुकड़े पहले से ही प्राप्त किए जा सकते हैं, इसलिए किसी भी "संक्रमण भार" का उपयोग ओवरलैप किए गए हिस्सों को प्रक्षेपित करने के लिए किया जा सकता है।
  5. यदि आप इस बात पर विचार करना चाहते हैं कि एक खिड़की वाले भाषण की कमी कमजोर संकेतों का कम सम्मान कर सकती है, लेकिन उन शक्तिशाली संकेतों को स्वीकार करती है, तो संबंधित संश्लेषण खिड़कियों को डिजाइन करने का एक तरीका हो सकता है।
  6. इसके अलावा, एक सीधे आगे संश्लेषण खिड़की पीढ़ी एल्गोरिथ्म निम्नलिखित सिद्धांतों को लागू करके दिया जा सकता है:
    • संश्लेषण की खिड़की में वजन अधिक होता है यदि इस स्थिति के लिए विश्लेषण विंडो का मूल्य अधिक है, जो इस स्थिति को ओवरलैप करने वाले अन्य टुकड़ों के साथ तुलना करता है।
    • वजन संश्लेषण की स्थिति में पदों को कम करता है यदि इस स्थिति के लिए विश्लेषण विंडो का मूल्य कम है, और अन्य अतिव्यापी टुकड़े इस स्थिति को एक बड़े विश्लेषण विंडो मान के साथ अधिक सम्मानित करते हैं।

1
ये दिलचस्प कथन हैं जो निश्चित रूप से एसटीएफटी पर सोच को प्रोत्साहित करने में मदद कर सकते हैं।
निकोलस किन्नर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.