जैसा कि मैंने एक पिछली पोस्ट पर टिप्पणी की थी, "फ्री टर्म फूरियर ट्रांसफॉर्म" रूप में जाना जाने वाला समय-आवृत्ति विश्लेषण विधि आपके सिग्नल एक्स का विश्लेषण करते हुए, एक फिल्टर बैंक के बराबर है । किसी दिए गए विश्लेषण विंडो w n के लिए , आकार N का , आवृत्ति k / N पर फ़िल्टर है:
h n = w - nएक्सएक्सwnएनके / एन
जn= w- एनइजे 2 πएन केएन
सामान्य विश्लेषण खिड़कियों के लिए (हैन, हेमिंग, या यहां तक कि आयत), यह एक कम-पास फिल्टर के अनुरूप है, जिसमें कट-ऑफ आवृत्ति होती है , जो कि आवृत्ति बिन k (जटिल घातीय मॉड्यूलेशन के लिए धन्यवाद) के लिए"स्थानांतरित" है।, इसलिए एक बैंड-पास फिल्टर के लिए अग्रणी।1 / एनक
इस बिंदु पर, मानवीय धारणा को प्रतिबिंबित करने के बारे में आपकी चिंता का सीधे जवाब देने के लिए, कुछ लोगों ने ["स्थिरांक-क्यू परिवर्तन" (CQT)] [ब्राउन91] निकाला। यह अपने फिल्टर बैंक व्याख्या में एफटी के समान सिद्धांत पर निर्भर करता है। हालांकि, केन्द्रों रैखिक एक "सामान्य" एफटी के लिए के रूप में स्थान दिया गया है नहीं कर रहे हैं, बल्कि log2 से स्थान दिया गया। पैमाने तो बारीकी से एक पश्चिमी संगीत के पैमाने से संबंधित है: अगर एक चुन लेगा च कश्मीर + 1 = 2 1 / 12 च कश्मीर , तो हम सप्तक प्रति 12 आवृत्तियों (? एक घंटी बजाते हुए :-)) प्राप्त, और बैंडविड्थ पर सेट है , का कहना है, 2 1 / 12 - 1चकचके + १= २1 / 12चक। आप अन्य केंद्रों को भी चुन सकते हैं, क्योंकि आपकी ज़रूरत के हिसाब से यह सबसे अच्छा है।21 / 12- 12चक
आप सीक्यूटी के कार्यान्वयन को यहां और वहां देख सकते हैं, प्रो.क्लापुरी द्वारा हाल ही में एक, बल्कि एक शानदार विपरीत के साथ आने से यहां पाया जा सकता है । टेलीकॉम पैरिसटेक के ऑडियो समूह का भी प्रो। प्राडो द्वारा कार्यान्वयन है, लेकिन मैंने अभी तक इसकी कोशिश नहीं की।
[ब्राउन91] जे। ब्राउन, "एक निरंतर क्यू वर्णक्रमीय रूपांतरण की गणना", अमेरिका की ध्वनिक सोसायटी के जर्नल, 1991, 89, 425-434
EDIT 20121014: आपके (bryhoyt के) सवालों के कुछ जवाब और टिप्पणियां।
मुख्य प्रश्न के लिए आपकी अपनी टिप्पणियों पर बस सामान्य विचार: आप कई अनुप्रयोगों में रुचि रखते हैं, जो मेरे लिए, पता करने के लिए काफी तुच्छ समस्याएं नहीं हैं। "टिम्ब्रे मॉडलिंग" मुझे भाषण मान्यता या उस से अधिक संबंधित लगता है, जिसके लिए पिच या आवृत्ति संकल्प या परिशुद्धता बहुत अधिक नहीं है (विचार करें कि एमएफसीसी आमतौर पर कैसे गणना की जाती है)।
यह भी विचार करें कि कितने शीर्ष शोधकर्ता ( एफ। पैक्ट और IRCAM, फ्रांस , कुछ का हवाला देते हुए) की टीम स्वचालित सुधार और संगत के विषय पर काम कर रही है: कार्य असंभव नहीं है, लेकिन कई क्षेत्रों में विशेषज्ञता की आवश्यकता है। संक्षेप में, एक विशिष्ट प्रणाली को मानव श्रवण प्रणाली (कम से कम) की नकल करने, ध्वनि / संगीत / पिच / लय धारणा को लागू करने, संगीत सिद्धांत के बारे में जानने और पिछले सभी चरणों के अनुमानों के आधार पर निर्णय लेने की आवश्यकता है। फूरियर रूपांतरण, या कोई संकेत प्रतिनिधित्व, अंतिम लक्ष्य की ओर सिर्फ एक (छोटे) कदम है - और संभवतः, मेरी राय में, अब तक का सबसे अच्छा समझा गया।
उस ने कहा, अभी भी संभावना है कि हर कोई वास्तव में क्या होता है उससे परे देख रहा है, और आप इसे एक सरल, इस प्रकार सुरुचिपूर्ण समाधान में दरार कर सकते हैं! एक बार यह करने के बाद इसके बारे में प्रकाशित करना न भूलें! :-)
44kHz पर 0.1s का एक नमूना आवृत्तियों की एक विशाल श्रृंखला को शामिल करने के लिए पर्याप्त है
एफरों/ एन= 44100 / 4410 = 10 एचz
FFT निम्न और उच्च आवृत्तियों के लिए इसका पता नहीं लगा सकता है, लेकिन आप कहते हैं कि अन्य एल्गोरिदम कर सकते हैं: व्यापार क्या है?
संक्षिप्त उत्तर: माधुर्य अनुमान पर मेरी थीसिस पढ़ें!
थोड़ा और विस्तृत करने के लिए: कई पिच अनुमान एल्गोरिथ्म एफटी की सीमाओं से परे जाते हैं, प्रक्रिया के लिए ध्वनियों पर मान्यताओं के लिए धन्यवाद। हम प्राकृतिक ध्वनियों (मानव आवाज, ओबो, सैक्स, पियानो ...) से एकल साइनसोइड्स की तुलना में अधिक जटिल होने की उम्मीद करते हैं। अधिकांश गद्य ध्वनियां कम या ज्यादा हार्मोनिक होती हैं, जिसका अर्थ है कि उन्हें साइनसोइड्स के योग के रूप में चित्रित किया जा सकता है जिनकी आवृत्ति मौलिक आवृत्ति का एक गुण है।
इसलिए पिच का आकलन करते समय इन हार्मोनिक्स को ध्यान में रखना उपयोगी होता है, जिसमें स्पेक्ट्रल रकम, वर्णक्रमीय उत्पाद या ऑटो-सहसंबंध फ़ंक्शन जैसे डिटेक्शन फ़ंक्शन का उपयोग करने के तरीके मौजूद हैं। किसी ने हाल ही में संबंधित विषय शुरू किया है ।
ट्रेडऑफ क्या हैं? अधिक विशेष रूप से, मैं किस स्तर की आवृत्ति सटीकता की उम्मीद कर सकता हूं कि यह काफी कम खिड़की है? (मैं समझता हूं कि CQT में विंडो का आकार परिवर्तनशील है - कितना है?) इससे भी अधिक विशेष रूप से, मैं अपने लगभग कैसे प्राप्त कर पाऊंगा। 0.005 s की खिड़की के साथ 0.5% आवृत्ति अंतर का लक्ष्य?
जैसा कि पहले कहा गया था, 0.005 s की विंडो के साथ, आप "फ़्रीक्वेंसी लीक" के 200 हर्ट्ज जैसे कुछ की उम्मीद कर सकते हैं। यह वास्तव में केवल एक समस्या है जब आपके पास 2 साइनसोइड होते हैं, जो 200Hz से अधिक होती हैं, जैसे कि एफटी यह दिखाने में सक्षम नहीं होगा कि वे 2 अलग साइनसोइड हैं। ठीक है, हम आपके 0.5% से दूर हैं (वैसे, एक सेमीटोन आवृत्ति के 6% पर है!) और 0.005s वास्तव में आपके उद्देश्य के लिए थोड़ा छोटा है। हालाँकि, यदि आप प्रत्येक 0.005s को एक अनुमान प्रदान करना चाहते हैं, तो आप अभी भी लंबे समय तक ओवरलैपिंग फ्रेम की प्रक्रिया कर सकते हैं, जैसा कि आमतौर पर भाषण / संगीत प्रसंस्करण में किया जाता है। क्या आप वास्तव में वही चाहते हैं?
खिड़कियों के आकार के लिए, आप [Schoerkhuber2010] का उल्लेख कर सकते हैं, जिसमें फ्रेम की लंबाई: बराबर है
एनक= एफरोंचक( २)1 / बी- ( 1 )
बीबी = 48चक= 100 एचzलगभग 0.7s लंबी खिड़कियों की आवश्यकता है। यह कहने के लिए कुछ भी नहीं है कि हम तब थोड़ा सा अस्थायी समाधान खो देते हैं ... लेकिन जैसा कि पहले उल्लेख किया गया है, यह केवल एक समस्या है अगर हम ध्वनि की संरचना को भूल जाते हैं। इसके अतिरिक्त, मनोविश्लेषक मानते हैं कि 500 हर्ट्ज से नीचे, मानव वास्तव में साइनसोइड्स को इतनी अच्छी तरह से भेद नहीं करता है: यहां तक कि मनुष्यों को भी चुनौती दी जाती है। बेशक, हम आशा कर सकते हैं कि हमारे कंप्यूटर हमसे बेहतर कर सकते हैं, लेकिन यहाँ, हम एक कठिन मुद्दे का सामना करते हैं!
अंत में, ध्यान दें कि ध्वनि के समय-आवृत्ति प्रतिनिधित्व की गणना के अन्य तरीके मौजूद हैं, उदाहरण के लिए गैमेटोन फ़िल्टर-बैंकों पर विचार करें। पूर्व में उल्लेखित CQT का लाभ यह है कि परिवर्तन और इसके उलट दोनों के लिए सॉफ्टवेयर है। व्यक्तिगत रूप से, मैं अभी भी एसटीएफटी से जुड़ा हुआ हूं, हालांकि, इसकी सादगी के लिए और क्योंकि, अब तक, मुझे कम आवृत्तियों में बेहतर समाधान की आवश्यकता नहीं थी, यहां तक कि स्रोत पृथक्करण के लिए भी।
[Schoerkhuber2010] Schoerkhuber, C. और Klapuri, A., "लगातार प्रसंस्करण संगीत प्रसंस्करण के लिए उपकरण बॉक्स,", 7 वें ध्वनि और संगीत कम्प्यूटिंग सम्मेलन, बार्सिलोना, स्पेन, 2010।