वास्तविक समय में लगभग मानवीय सटीकता के साथ ऑडियो सिग्नल के आवृत्ति घटकों को निकालने का सबसे कुशल तरीका


14

मैं FFT की तरह एक मनमाने ढंग से ऑडियो नमूना (आमतौर पर संगीत) के आवृत्ति घटकों को निकालने के लिए (यदि संभव हो) कैसे काम करने की कोशिश कर रहा हूं, लेकिन FFT एल्गोरिथ्म पर अपने शोध में, मैं सीख रहा हूं कि यह कुछ ग्रस्त है इस उद्देश्य के लिए गंभीर प्रतिबंध।

3 समस्याएं हैं जो एफएफटी प्रस्तुत कर रही हैं:

  1. क्योंकि FFT बिन-रिज़ॉल्यूशन आपके विंडो के आकार के बराबर है, एक बहुत ही उचित सटीकता (1 हर्ट्ज कहते हैं) प्राप्त करने के लिए, आपको अनुचित रूप से लंबी विंडो (1 सेकंड कहना) की आवश्यकता है। इसका मतलब है कि आप संक्रमण या नई शुरू की गई आवृत्तियों का जल्दी पता नहीं लगा सकते हैं। इसका मतलब यह भी है कि समस्या को तेजी से सीपीयू और उच्च नमूना-दर के साथ हल नहीं किया जा सकता है - प्रतिबंध आंतरिक रूप से समय से बंधा हुआ है।

  2. मनुष्य आवृत्ति को तार्किक रूप से अनुभव करता है, लेकिन एफएफटी डिब्बे रैखिक रूप से फैलाए जाते हैं। उदाहरण के लिए, हमारी सुनवाई के निचले सिरे पर 20hz का अंतर बहुत बड़ा है , जबकि उच्च अंत में 20hz का अंतर अगोचर है। इसलिए हमें कम आवृत्तियों पर जिस सटीकता की आवश्यकता होती है, उसे प्राप्त करने के लिए, हमें उच्च आवृत्तियों पर आवश्यकता से अधिक गणना करनी होगी।

  3. इनमें से कुछ समस्याओं का समाधान एफएफटी डिब्बे के बीच में अंतर करके हल किया जा सकता है। यह बहुत संगीत ऑडियो के लिए काम कर सकता है, क्योंकि आवृत्तियों को अक्सर काफी दूर तक फैलाया जाएगा और इसलिए 1 से अधिक आवृत्ति डिब्बे की एक जोड़ी में लीक नहीं होगी। लेकिन यह हमेशा मामला नहीं होगा, विशेष रूप से पर्क्युसिव इंस्ट्रूमेंट्स जैसी धार्मिक ध्वनियों के लिए। इसलिए प्रक्षेप वास्तव में सिर्फ अनुमान है।

डीएफटी / एफएफटी एल्गोरिथ्म के बारे में मुझे जो समझ में आया है, उससे आउटपुट (बिन एम्प्लिट्यूड) प्रभावी रूप से प्रत्येक बिन आवृत्ति पर साइन / कोसाइन के सहसंबंध हैं। यह मुझ पर प्रहार करता है कि यदि एल्गोरिथ्म को फिर से डिज़ाइन किया जा सकता है ताकि बिन आवृत्तियों को गैर-रैखिक रूप से फैलाया जाए (अर्थात हम साइन / कोसिन के एक अलग सेट को सहसंबंधित करते हैं), तो हम सभी आवृत्तियों पर pyschoacoustically- समान रिज़ॉल्यूशन प्राप्त कर सकते हैं। क्या यह संभव है, या यह गणित की मेरी अधूरी समझ के आधार पर एक पाइप-सपना है?

मुझे लगता है कि मैं ब्रूट-फोर्स के साथ समस्या को हल कर सकता हूं, हर एक आवृत्ति पर साइन / कोसाइन को सहसंबंधित करके मैं इसमें दिलचस्पी लेता हूं। मैं यहां मैथ्स पर बहुत ज्यादा नहीं लगा हूं। क्या यह संभव है? किस तरह की दक्षता? क्या इससे मेरी समस्या हल हो जाएगी?

क्या एक सिग्नल के अधिक सटीक, वास्तविक समय, आवृत्ति अपघटन को प्राप्त करने का एक अलग तरीका है? सीपीयू दक्षता एक चिंता है, लेकिन प्रमुख चिंता नहीं है - मुझे आंशिक रूप से दिलचस्पी है कि क्या यह सैद्धांतिक रूप से किया जा सकता है। हालांकि, आधुनिक डेस्कटॉप मशीन पर रियलटाइम में संभव होने वाली कोई चीज आदर्श होगी।


3
आप किस समस्या को हल करने की कोशिश कर रहे हैं? f0 डिटेक्शन, मल्टीपल- f0 डिटेक्शन (ट्रांसक्रिप्शन के लिए), कॉर्ड रिकग्निशन, टिम्ब्रे मॉडलिंग ...? इनमें से कुछ समस्याओं के लिए तदर्थ समाधान हैं। क्या आप इन्वर्टिबिलिटी के बारे में परवाह करते हैं (विश्लेषण में इस्तेमाल किया जा सकता है-> परिवर्तन-> रिसिनथेसिस फ्रेमवर्क)?
pichenettes

जिस समस्या को मैं हल करने की कोशिश कर रहा हूं, वह खुले तौर पर खत्म होने के बजाय है। आपकी अधिकांश सूची को कवर करते हुए मुझे डिजिटल संगीत में एक सामान्य रुचि है। लेकिन मेरी अस्पष्टता आंशिक रूप से मेरे ज्ञान की कमी के कारण है कि क्या किया जा सकता है और आपके द्वारा बताई गई प्रत्येक समस्या को हल करने के विशिष्ट उद्योग-मानक या सर्वोत्तम तरीके क्या हैं (जब तक कि मैंने यह प्रश्न नहीं पूछा था, मैं हमेशा एफएफटी मान गया था कि यह )। लेकिन मेरे लिए आपकी सबसे अधिक रुचि की सूची में आइटम टिमब्रे मॉडलिंग है। मैं एक रिकॉर्डिंग में एक साथ लगने वाले जटिल टिम्बरों को निकालने के तरीके भी खोजना चाहता हूँ। पुनर्जीवन रोमांचक है। एआई एल्गोरिदम रुचि के हैं।
7

एक और अधिक विशिष्ट समस्या जिसे मैंने अतीत में हल करने का प्रयास किया है और कुछ समय बाद फिर से कोशिश करना चाहूंगा: मैं वास्तविक समय में "इंप्रोवाइज़" करने के लिए एक खिलाड़ी या गायकों के समूह के साथ एक माइक्रोफोन के साथ रिकॉर्ड करना चाहता हूं। मैं अपने कंप्यूटर "सीटी" को एक साइन के रूप में अपने साथ ले गया, जहाँ तक कि देरी से और बाहर की धुन पर। इस तरह के एक कामचलाऊ व्यवस्था के लिए यह महत्वपूर्ण होगा कि वह सटीक रूप से ऑन-ट्यून और ऑन-बीट हो। निश्चित रूप से, इसे प्राप्त करने के अन्य तरीके हैं (खिलाड़ी डिजिटल वाद्ययंत्र बजाते हैं, या कंप्यूटर को कुछ "अंदर की सूचना" जैसे पूर्व-निर्धारित कॉर्ड प्रगति आदि) दे रहे हैं, लेकिन यह मेरा लक्ष्य नहीं है।
bryhoyt

"एल्गोरिथ्म को फिर से डिज़ाइन किया जा सकता है ताकि बिन आवृत्तियों को गैर-रैखिक रूप से फैलाया जा सके, फिर हम सभी आवृत्तियों पर pyschoacoustically- समान रिज़ॉल्यूशन प्राप्त कर सकते हैं।" निरंतर मोरलेट वेवलेट ट्रांसफॉर्म की तरह लगता है
एंडोलिथ

जवाबों:


5

जैसा कि मैंने एक पिछली पोस्ट पर टिप्पणी की थी, "फ्री टर्म फूरियर ट्रांसफॉर्म" रूप में जाना जाने वाला समय-आवृत्ति विश्लेषण विधि आपके सिग्नल एक्स का विश्लेषण करते हुए, एक फिल्टर बैंक के बराबर है । किसी दिए गए विश्लेषण विंडो w n के लिए , आकार N का , आवृत्ति k / N पर फ़िल्टर है: h n = w - nएक्सएक्सwnएन/एन

n=w-nजे2πnएन

सामान्य विश्लेषण खिड़कियों के लिए (हैन, हेमिंग, या यहां तक ​​कि आयत), यह एक कम-पास फिल्टर के अनुरूप है, जिसमें कट-ऑफ आवृत्ति होती है , जो कि आवृत्ति बिन k (जटिल घातीय मॉड्यूलेशन के लिए धन्यवाद) के लिए"स्थानांतरित" है।, इसलिए एक बैंड-पास फिल्टर के लिए अग्रणी।1/एन

इस बिंदु पर, मानवीय धारणा को प्रतिबिंबित करने के बारे में आपकी चिंता का सीधे जवाब देने के लिए, कुछ लोगों ने ["स्थिरांक-क्यू परिवर्तन" (CQT)] [ब्राउन91] निकाला। यह अपने फिल्टर बैंक व्याख्या में एफटी के समान सिद्धांत पर निर्भर करता है। हालांकि, केन्द्रों रैखिक एक "सामान्य" एफटी के लिए के रूप में स्थान दिया गया है नहीं कर रहे हैं, बल्कि log2 से स्थान दिया गया। पैमाने तो बारीकी से एक पश्चिमी संगीत के पैमाने से संबंधित है: अगर एक चुन लेगा कश्मीर + 1 = 2 1 / 12कश्मीर , तो हम सप्तक प्रति 12 आवृत्तियों (? एक घंटी बजाते हुए :-)) प्राप्त, और बैंडविड्थ पर सेट है , का कहना है, 2 1 / 12 - 1+1=21/12। आप अन्य केंद्रों को भी चुन सकते हैं, क्योंकि आपकी ज़रूरत के हिसाब से यह सबसे अच्छा है।21/12-12

आप सीक्यूटी के कार्यान्वयन को यहां और वहां देख सकते हैं, प्रो.क्लापुरी द्वारा हाल ही में एक, बल्कि एक शानदार विपरीत के साथ आने से यहां पाया जा सकता है । टेलीकॉम पैरिसटेक के ऑडियो समूह का भी प्रो। प्राडो द्वारा कार्यान्वयन है, लेकिन मैंने अभी तक इसकी कोशिश नहीं की।

[ब्राउन91] जे। ब्राउन, "एक निरंतर क्यू वर्णक्रमीय रूपांतरण की गणना", अमेरिका की ध्वनिक सोसायटी के जर्नल, 1991, 89, 425-434

EDIT 20121014: आपके (bryhoyt के) सवालों के कुछ जवाब और टिप्पणियां।

  1. मुख्य प्रश्न के लिए आपकी अपनी टिप्पणियों पर बस सामान्य विचार: आप कई अनुप्रयोगों में रुचि रखते हैं, जो मेरे लिए, पता करने के लिए काफी तुच्छ समस्याएं नहीं हैं। "टिम्ब्रे मॉडलिंग" मुझे भाषण मान्यता या उस से अधिक संबंधित लगता है, जिसके लिए पिच या आवृत्ति संकल्प या परिशुद्धता बहुत अधिक नहीं है (विचार करें कि एमएफसीसी आमतौर पर कैसे गणना की जाती है)।

    यह भी विचार करें कि कितने शीर्ष शोधकर्ता ( एफ। पैक्ट और IRCAM, फ्रांस , कुछ का हवाला देते हुए) की टीम स्वचालित सुधार और संगत के विषय पर काम कर रही है: कार्य असंभव नहीं है, लेकिन कई क्षेत्रों में विशेषज्ञता की आवश्यकता है। संक्षेप में, एक विशिष्ट प्रणाली को मानव श्रवण प्रणाली (कम से कम) की नकल करने, ध्वनि / संगीत / पिच / लय धारणा को लागू करने, संगीत सिद्धांत के बारे में जानने और पिछले सभी चरणों के अनुमानों के आधार पर निर्णय लेने की आवश्यकता है। फूरियर रूपांतरण, या कोई संकेत प्रतिनिधित्व, अंतिम लक्ष्य की ओर सिर्फ एक (छोटे) कदम है - और संभवतः, मेरी राय में, अब तक का सबसे अच्छा समझा गया।

    उस ने कहा, अभी भी संभावना है कि हर कोई वास्तव में क्या होता है उससे परे देख रहा है, और आप इसे एक सरल, इस प्रकार सुरुचिपूर्ण समाधान में दरार कर सकते हैं! एक बार यह करने के बाद इसके बारे में प्रकाशित करना न भूलें! :-)

  2. 44kHz पर 0.1s का एक नमूना आवृत्तियों की एक विशाल श्रृंखला को शामिल करने के लिए पर्याप्त है

    एफरों/एन=44100/4410=10एचz

  3. FFT निम्न और उच्च आवृत्तियों के लिए इसका पता नहीं लगा सकता है, लेकिन आप कहते हैं कि अन्य एल्गोरिदम कर सकते हैं: व्यापार क्या है?

    संक्षिप्त उत्तर: माधुर्य अनुमान पर मेरी थीसिस पढ़ें!

    थोड़ा और विस्तृत करने के लिए: कई पिच अनुमान एल्गोरिथ्म एफटी की सीमाओं से परे जाते हैं, प्रक्रिया के लिए ध्वनियों पर मान्यताओं के लिए धन्यवाद। हम प्राकृतिक ध्वनियों (मानव आवाज, ओबो, सैक्स, पियानो ...) से एकल साइनसोइड्स की तुलना में अधिक जटिल होने की उम्मीद करते हैं। अधिकांश गद्य ध्वनियां कम या ज्यादा हार्मोनिक होती हैं, जिसका अर्थ है कि उन्हें साइनसोइड्स के योग के रूप में चित्रित किया जा सकता है जिनकी आवृत्ति मौलिक आवृत्ति का एक गुण है।

    इसलिए पिच का आकलन करते समय इन हार्मोनिक्स को ध्यान में रखना उपयोगी होता है, जिसमें स्पेक्ट्रल रकम, वर्णक्रमीय उत्पाद या ऑटो-सहसंबंध फ़ंक्शन जैसे डिटेक्शन फ़ंक्शन का उपयोग करने के तरीके मौजूद हैं। किसी ने हाल ही में संबंधित विषय शुरू किया है

  4. ट्रेडऑफ क्या हैं? अधिक विशेष रूप से, मैं किस स्तर की आवृत्ति सटीकता की उम्मीद कर सकता हूं कि यह काफी कम खिड़की है? (मैं समझता हूं कि CQT में विंडो का आकार परिवर्तनशील है - कितना है?) इससे भी अधिक विशेष रूप से, मैं अपने लगभग कैसे प्राप्त कर पाऊंगा। 0.005 s की खिड़की के साथ 0.5% आवृत्ति अंतर का लक्ष्य?

    जैसा कि पहले कहा गया था, 0.005 s की विंडो के साथ, आप "फ़्रीक्वेंसी लीक" के 200 हर्ट्ज जैसे कुछ की उम्मीद कर सकते हैं। यह वास्तव में केवल एक समस्या है जब आपके पास 2 साइनसोइड होते हैं, जो 200Hz से अधिक होती हैं, जैसे कि एफटी यह दिखाने में सक्षम नहीं होगा कि वे 2 अलग साइनसोइड हैं। ठीक है, हम आपके 0.5% से दूर हैं (वैसे, एक सेमीटोन आवृत्ति के 6% पर है!) और 0.005s वास्तव में आपके उद्देश्य के लिए थोड़ा छोटा है। हालाँकि, यदि आप प्रत्येक 0.005s को एक अनुमान प्रदान करना चाहते हैं, तो आप अभी भी लंबे समय तक ओवरलैपिंग फ्रेम की प्रक्रिया कर सकते हैं, जैसा कि आमतौर पर भाषण / संगीत प्रसंस्करण में किया जाता है। क्या आप वास्तव में वही चाहते हैं?

    खिड़कियों के आकार के लिए, आप [Schoerkhuber2010] का उल्लेख कर सकते हैं, जिसमें फ्रेम की लंबाई: बराबर है

    एन=एफरों(21/बी-1)
    बीबी=48=100एचzलगभग 0.7s लंबी खिड़कियों की आवश्यकता है। यह कहने के लिए कुछ भी नहीं है कि हम तब थोड़ा सा अस्थायी समाधान खो देते हैं ... लेकिन जैसा कि पहले उल्लेख किया गया है, यह केवल एक समस्या है अगर हम ध्वनि की संरचना को भूल जाते हैं। इसके अतिरिक्त, मनोविश्लेषक मानते हैं कि 500 ​​हर्ट्ज से नीचे, मानव वास्तव में साइनसोइड्स को इतनी अच्छी तरह से भेद नहीं करता है: यहां तक ​​कि मनुष्यों को भी चुनौती दी जाती है। बेशक, हम आशा कर सकते हैं कि हमारे कंप्यूटर हमसे बेहतर कर सकते हैं, लेकिन यहाँ, हम एक कठिन मुद्दे का सामना करते हैं!

    अंत में, ध्यान दें कि ध्वनि के समय-आवृत्ति प्रतिनिधित्व की गणना के अन्य तरीके मौजूद हैं, उदाहरण के लिए गैमेटोन फ़िल्टर-बैंकों पर विचार करें। पूर्व में उल्लेखित CQT का लाभ यह है कि परिवर्तन और इसके उलट दोनों के लिए सॉफ्टवेयर है। व्यक्तिगत रूप से, मैं अभी भी एसटीएफटी से जुड़ा हुआ हूं, हालांकि, इसकी सादगी के लिए और क्योंकि, अब तक, मुझे कम आवृत्तियों में बेहतर समाधान की आवश्यकता नहीं थी, यहां तक ​​कि स्रोत पृथक्करण के लिए भी।

    [Schoerkhuber2010] Schoerkhuber, C. और Klapuri, A., "लगातार प्रसंस्करण संगीत प्रसंस्करण के लिए उपकरण बॉक्स,", 7 वें ध्वनि और संगीत कम्प्यूटिंग सम्मेलन, बार्सिलोना, स्पेन, 2010।


एक छोटी टिप्पणी: CQT आपकी चिंताओं के बिंदु 1 और 2 को हल करने में मदद कर सकता है, लेकिन बिंदु 3 नहीं। बिंदु 3 के अनुसार, समय और आवृत्ति संकल्प के बीच हमेशा एक व्यापार बंद रहता है, और यदि आप कम आवृत्ति में एक अच्छा आवृत्ति संकल्प चाहते हैं आवृत्ति घटकों, आपको समय संकल्प खोने के लिए स्वीकार करने की आवश्यकता है। अब, पिच के आकलन के लिए, कुछ अन्य उपाय हो सकते हैं, आप मेरी पीएचडी थीसिस में पढ़ सकते हैं यदि आप रुचि रखते हैं: डी
जीन-लुइस ड्यूरिउ

मैं काफी नहीं समझता। मुझे पता है कि आपको मुफ्त में कुछ भी नहीं मिलता है - मैं एक एल्गोरिथ्म की अपेक्षा नहीं कर सकता हूँ ताकि कम से कम एक जोड़ी अवधि के लिए एक अच्छे रिज़ॉल्यूशन पर सही आवृत्ति वाले नमूने का पता लगाया जा सके। लेकिन 44kHz पर 0.1s का एक नमूना आवृत्तियों की एक विशाल श्रृंखला को शामिल करने के लिए पर्याप्त है, जो एक मानव सटीक रूप से भेद कर सकता है (सापेक्ष शब्दों में - "यहां एक 5 वीं", "वहाँ एक फ्लैट कम हो गया है 4", आदि), जानकारी को साबित करना कहीं है। FFT कम और उच्च आवृत्तियों के लिए इसका पता नहीं लगा सकता है, लेकिन आप कहते हैं कि अन्य एल्गोरिदम कर सकते हैं: व्यापार क्या है?
bryhoyt

ऊपर दिए गए सभी उत्कृष्ट उत्तरों में से, CQT उस प्रश्न के लिए सबसे सटीक लगता है जो मैं पूछ रहा था। ट्रेडऑफ क्या हैं? अधिक विशेष रूप से, मैं किस स्तर की आवृत्ति सटीकता की उम्मीद कर सकता हूं कि यह काफी कम खिड़की है? (मैं समझता हूं कि CQT में विंडो का आकार परिवर्तनशील है - कितना है?) इससे भी अधिक विशेष रूप से, मैं अपने लगभग कैसे प्राप्त कर पाऊंगा। 0.005 s की खिड़की के साथ 0.5% आवृत्ति अंतर का लक्ष्य? (यह मेरा मोटा अनुमान है कि जब कोई व्यक्ति किसी चीज की धुन या ऑफ-बीट सुनना शुरू कर सकता है)
bryhoyt

5

सबसे पहले, क्लासिक शॉर्ट-टर्म फूरियर ट्रांसफॉर्म दृष्टिकोण के साथ, प्रक्षेप के विकल्प हैं - विशेष तकनीक में तात्कालिक आवृत्ति ( इस प्रश्न को देखें ) को पुनर्प्राप्त करने के लिए चरण की जानकारी का उपयोग करना जो आपको वर्णक्रमीय शिखर की स्थिति के बिना बहुत सटीक रूप से दे सकता है एफएफटी आकार में वृद्धि। खामी, जैसा कि आपने सही कहा, यह है कि आप आसन्न चोटियों में भेदभाव करने के लिए सिस्टम की क्षमता में वृद्धि नहीं कर रहे हैं - लेकिन यह एफएफटी बिन इंडेक्स की केंद्रीय आवृत्ति का उपयोग करने की तुलना में पहले से ही एक महान सुधार है।

अपने जानवर बल दृष्टिकोण के बारे में ... एफएफटी में यह रिज़ॉल्यूशन लिमिटेशन है ( पर डिब्बे के साथ)रोंआरएफएफटी_रोंमैंz

एक और जानवर-बल दृष्टिकोण है जो काम करता है: खिड़की के जटिल घातीय (गैबर तरंगों) के साथ अपने संकेतों को "जांच"। ये एक केंद्र आवृत्ति, एक केंद्र समय और एक बैंडविड्थ (जो मापता है कि तरंग कैसे समय या आवृत्ति पर फैली हुई है) की विशेषता है। आपको अपने सिग्नल और इन वेवलेट्स के बीच कई, कई, बहुत से सहसंबंधों का मूल्यांकन करना होगा जो आप चाहते हैं कि कई ऑफ़सेट्स, फ़्रीक्वेंसीज़ और बैंडविंड्स। परिणाम एक बहुत ही लचीले "टाइल वाले" एसटीएफटी के समान होगा जिसमें प्रत्येक समय-सीमा और प्रत्येक आवृत्ति-बैंड के लिए एक इष्टतम खिड़की का आकार चुना जाता है। कम्प्यूटेशनल लागत के अलावा, नकारात्मक पक्ष यह है कि कोई कुशल एल्गोरिथ्म नहीं है, और कोई कारण एल्गोरिथ्म नहीं है (आपको अपने शब्दकोश में सबसे लंबे तरंग के रूप में अग्रिम में कई नमूनों को जानना होगा)। यदि आप इन तकनीकों के साथ प्रयोग करना चाहते हैं,MPTK

  • वे सफेद शोर की उपस्थिति में अच्छा प्रदर्शन करते हैं - इसके लिए विश्लेषण से पहले संकेत को सफेद करने की आवश्यकता होती है; फ़िल्टर बैंक के अलग-अलग चैनलों में विश्लेषण करने से भी मदद मिलती है।

ये कम्प्यूटेशनल रूप से महंगे हैं, लेकिन वे छोटी खिड़कियों के साथ ऑनलाइन काम कर सकते हैं यदि मॉडल ऑर्डर और / या शोर कम है।


4

आवृत्ति या पिच? मानव पिच धारणा पर पहले से ही कई शोध पत्र और पुस्तकें मौजूद हैं। लेकिन, IIRC, जब तक वे पिच मौलिक नहीं हो जाते, तब तक मनुष्य "आवृत्तियों" को सही ढंग से खराब करते हैं। और एक "महत्वपूर्ण बैंड" के भीतर कई आवृत्ति चोटियों को शोर के रूप में माना जाता है। तो "मानव सटीकता के पास" के साथ किसी भी विधि को कुछ मानवीय अवधारणात्मक अनुमान विफलताओं को भी शामिल करना पड़ सकता है।

एक एफएफटी सिर्फ एक फिल्टर बैंक है जो कई उद्देश्यों के लिए इष्टतम नहीं है जब तक कि ऑर्थोगोनलिटी और इनवर्टबिलिटी आवश्यकताएं नहीं हैं। अन्य फ़िल्टर बैंक संभव हैं यदि आपको उन दोनों की आवश्यकता नहीं है (और मानव धारणा स्पष्ट रूप से नहीं है), जैसे कि एमईएल आवृत्ति फ़िल्टर बैंक। एक बार एक आवृत्ति शिखर की पहचान एक MEL आवृत्ति फ़िल्टर बैंक द्वारा की जाती है, FFT प्रक्षेप या चरण विकोडक तकनीकों द्वारा आगे का विश्लेषण किसी भी पृथक वर्णक्रमीय आवृत्ति चोटी के आवृत्ति अनुमान को परिष्कृत करने के लिए उपयोगी हो सकता है।

ध्यान दें कि एफएफटी की तुलना में समय-डोमेन डेटा की समान अवधि में उपयोग की जाने वाली इन फ़िल्टरिंग तकनीकों में से कोई भी अधिक जानकारी वास्तव में एकत्रित नहीं होती है। जो हो रहा है वह वास्तव में "अशुद्धि" या मानव श्रवण प्रणाली की विसंगतियों से बेहतर मेल खाने वाली जानकारी का नुकसान हो सकता है।

और आवृत्तियों के एक सेट से पिच का अनुमान एक पूरी तरह से अलग समस्या है, फिर से ऑडिओलॉजी और इस तरह की पुस्तकों में कई शोध पत्रों और अध्याय के साथ एक विषय।

प्रदर्शन के बारे में आपके प्रश्न का अंतिम भाग एक लाल हेरिंग हो सकता है। एक इन दिनों एक सेल फोन प्रोसेसर पर वास्तविक समय में दर्जनों एफएफटी और दर्जनों विभिन्न फिल्टर बैंक कर सकते हैं। सीपीयू विक्रेताओं से उपलब्ध बहुत कुशल एफएफटी पुस्तकालयों को देखते हुए, 1000 के "अतिरिक्त" डिब्बे वाला एफएफटी काफी छोटे लेकिन अधिक अनुभवहीन फिल्टर बैंक की तुलना में अधिक कुशल हो सकता है।


बहुत जानकारीपूर्ण उत्तर, धन्यवाद। मुझे पिच और फ़्रीक्वेंसी के बीच के अंतर के बारे में पता है, लेकिन आपके जवाब ने वास्तव में यह उजागर करने में मदद की कि मानव की सटीकता कुछ आवश्यकताओं को पूरा करने वाली ध्वनि पर निर्भर करती है। यह सद्भाव के मेरे ज्ञान के लिए सच है कि मनुष्य एक पिच मौलिक नहीं हैं आवृत्तियों को निकालने में काफी खराब हैं। मैं इन-ट्यून अंतराल को एक-दूसरे से अलग कर सकता हूं, और आउट-ऑफ-ट्यून अंतराल (व्यंजन अव्यवस्था की तुलना में अधिक आसानी से) से। लेकिन मुझे दो आउट-ऑफ-ट्यून अंतराल ("फ्लैट", "बहुत सपाट", "तेज", आदि) के अलावा अंतर करने में परेशानी होगी।
bryhoyt

2

कई विकल्प हैं, लेकिन यह इस बात पर निर्भर करता है कि आप क्या कर रहे हैं। शारीरिक रूप से, मैं तर्क देता हूं कि हमारे कान एक एफएफटी की तुलना में समानांतर फिल्टर बैंक की तरह हैं, जो उन्हें अच्छा समय संकल्प देता है, और "ध्यान केंद्रित" नामक एक प्रक्रिया उन्हें अच्छी आवृत्ति संकल्प देती है। तो, कुछ मामलों में, आप सैद्धांतिक रूप से एक फ़िल्टर बैंक का उपयोग कर सकते हैं, लेकिन इसके लिए आपको बहुत से डेटा संसाधित करने के लिए बहुत सारे प्रसंस्करण की आवश्यकता होती है।

विशेष रूप से कुशल और संबंधित फ़िल्टर के एक सेट के रूप में तरंगों को देखना संभव है। संगीत और ऑडियो विश्लेषण के लिए तरंगिकाओं के साथ समस्या यह है कि वे आम तौर पर आपको केवल 1 ऑक्टेव रिज़ॉल्यूशन देते हैं (हालांकि आप इस बारे में विभिन्न चीजें कर सकते हैं, मैंने वास्तव में तरंगिकाओं को विशेष रूप से ऑडियो में उपयोगी नहीं देखा है)।

एक अन्य दृष्टिकोण एफएफटी खिड़कियों को ओवरलैपिंग का उपयोग करना है। आप एफटीएफ की आवृत्ति संकल्प को केवल परिमाण जानकारी को देखकर नहीं बल्कि चरण की जानकारी को बढ़ा सकते हैं। यह आपको बहुत छोटी खिड़कियों का उपयोग करने की अनुमति देता है जितना कि आप अन्यथा उपयोग कर सकते हैं, जिसके परिणामस्वरूप बेहतर प्रदर्शन और बेहतर समय संकल्प होता है। ओवरलैपिंग खिड़कियां सही ढंग से resynthesize के लिए कठिन हैं, और चरण के बारे में बहुत अधिक धारणाएं बनाना खतरनाक भी हो सकता है। जैसा कि हो सकता है, इस प्रकार की चालें शायद जटिल समय-आवृत्ति विश्लेषण समस्याओं को हल करने का मूल आधार हैं।

विशिष्ट अनुप्रयोगों के लिए कई अन्य उपकरण भी हैं।


1
एक्सnएक्सwn
एक्स=Σnएक्सn+wn-जे2πnएन
एनएक्सn
एक्स=Σपीएक्सपीwपी--जे2π(पी-)एन=Σपीएक्सपी-पी
n=w-nजे2πnएन

1
एक STFT एक फ़िल्टर बैंक हो सकता है, लेकिन सभी फ़िल्टरबैंक STFT नहीं हैं।
ब्योर्न रोशे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.