जो मानव श्रवण प्रणाली को सबसे अधिक निकटता में बदल देते हैं?


12

फूरियर को बदलने आमतौर पर लगता है की आवृत्ति विश्लेषण के लिए प्रयोग किया जाता है। हालांकि, जब ध्वनि की मानवीय धारणा का विश्लेषण करने की बात आती है, तो इसके कुछ नुकसान हैं। उदाहरण के लिए, इसकी आवृत्ति के डिब्बे रैखिक होते हैं, जबकि मानव कान आवृत्ति पर प्रतिक्रिया करता है, रैखिक रूप से नहीं

फूरियर ट्रांसफॉर्म के विपरीत वेवलेट ट्रांसफॉर्म विभिन्न आवृत्ति रेंज के लिए रिज़ॉल्यूशन को संशोधित कर सकते हैं । परिणत तरंगिका के गुण , जबकि उच्च आवृत्तियों के लिए कम अस्थायी चौड़ाई को बनाए रखने के कम आवृत्तियों के लिए बड़े अस्थायी समर्थन करता है अनुमति देते हैं।

मोर्लेट तरंगिका बारीकी से सुनवाई के मानव धारणा से संबंधित है। यह संगीत प्रतिलेखन पर लागू किया जा सकता है और बहुत सटीक परिणाम पैदा करता है जो फूरियर रूपांतरण तकनीकों का उपयोग करना संभव नहीं है। यह प्रत्येक नोट के लिए स्पष्ट शुरुआत और समाप्ति समय के साथ दोहराए जाने वाले संगीत नोटों के छोटे फटने और बारी-बारी से कैप्चर करने में सक्षम है।

निरंतर-क्यू को बदलने (बारीकी मोर्लेट से संबंधित परिणत तरंगिका) भी है अच्छी तरह से संगीत डेटा के लिए अनुकूल । जैसा कि परिवर्तन की आउटपुट लॉग आवृत्ति के खिलाफ प्रभावी रूप से आयाम / चरण है, किसी वर्णक्रमीय सीमा को प्रभावी ढंग से कवर करने के लिए कम वर्णक्रमीय डिब्बे की आवश्यकता होती है, और यह तब उपयोगी साबित होता है जब आवृत्तियों में कई ओक्टेव्स होते हैं।

परिवर्तन उच्च आवृत्ति डिब्बे के साथ आवृत्ति संकल्प में कमी प्रदर्शित करता है, जो श्रवण अनुप्रयोगों के लिए वांछनीय है। यह मानव श्रवण प्रणाली को प्रतिबिंबित करता है, जिससे कम-आवृत्तियों पर वर्णक्रमीय रिज़ॉल्यूशन बेहतर होता है, जबकि उच्चतर आवृत्तियों पर टेम्पोरल रिज़ॉल्यूशन में सुधार होता है।

मेरा प्रश्न यह है: क्या अन्य परिवर्तन हैं जो मानव श्रवण प्रणाली की निकटता की नकल करते हैं? क्या किसी ने एक ऐसे रूपांतर को डिजाइन करने का प्रयास किया है जो शारीरिक / न्यूरोलॉजिकल रूप से मानव श्रवण प्रणाली से यथासंभव निकटता से मेल खाता हो?

उदाहरण के लिए, यह ज्ञात है कि मानव कानों में ध्वनि की तीव्रता के लिए एक लघुगणकीय प्रतिक्रिया होती है । यह भी जाना जाता है कि समान-ज़ोर वाले कंट्रोस न केवल तीव्रता के साथ, बल्कि वर्णक्रमीय घटकों की आवृत्ति में अंतर के साथ भिन्न होते हैं । कई महत्वपूर्ण बैंडों में वर्णक्रमीय घटकों वाले ध्वनियों को लाउड के रूप में माना जाता है, भले ही कुल ध्वनि दबाव स्थिर रहता हो।

अंत में, मानव कान में आवृत्ति-निर्भर सीमित अस्थायी संकल्प होता है । शायद यह भी ध्यान में रखा जा सकता है।


क्या आप "परिवर्तन" पर कोई गणितीय प्रतिबंध लगाते हैं?
ओली निमितालो

2
सभी लिंक के लिए यश!
गाइल्स

कोई भी परिवर्तन पर्याप्त रूप से मानव श्रवण प्रणाली के रूप में जटिल प्रणाली की नकल नहीं कर सकता है। मौजूदा एचएएस मॉडल जटिल सिग्नल प्रोसेसिंग आर्किटेक्चर का उपयोग करते हैं और प्रत्येक प्रत्येक मॉडलिंग को सुनने के दूसरे पहलू को बदल देता है। हो सकता है कि आप टुकड़ा मॉडलिंग द्वारा टुकड़ा पर विचार करना चाहते हैं।
फेट

जवाबों:


9

ऐसे परिवर्तनों को डिजाइन करने में, किसी को प्रतिस्पर्धा के हितों को ध्यान में रखना चाहिए:

  • मानव श्रवण प्रणाली के प्रति निष्ठा (जो लोगों के साथ बदलती है), जिसमें गैर-रैखिक या अराजक पहलू (टिनिटस) शामिल हैं
  • विश्लेषण भाग के लिए गणितीय सूत्रीकरण की सहजता
  • संभावना है कि यह विवेकाधीन हो या तेज़ कार्यान्वयन की अनुमति दे
  • एक उपयुक्त स्थिर व्युत्क्रम का अस्तित्व

दो पुनरावृत्त डिजाइनों ने हाल ही में मेरे कानों को पकड़ा है: श्रवण-प्रेरित गैमेटोन तरंगिका परिवर्तन , सिग्नल प्रोसेसिंग, 2014

निरंतर तरंगिका परिवर्तन (सीडब्ल्यूटी) की क्षमता अच्छा समय और आवृत्ति स्थानीयकरण प्रदान करने की क्षमता ने इसे संकेतों के समय-आवृत्ति विश्लेषण में एक लोकप्रिय उपकरण बना दिया है। वेवलेट्स निरंतर-क्यू संपत्ति को प्रदर्शित करते हैं, जो परिधीय श्रवण प्रणाली में बेसिलर झिल्ली फिल्टर द्वारा भी होती है। बेसिलर झिल्ली फिल्टर या श्रवण फिल्टर अक्सर एक गैमेटोन फ़ंक्शन द्वारा तैयार किए जाते हैं, जो प्रयोगात्मक रूप से निर्धारित प्रतिक्रियाओं के लिए एक अच्छा सन्निकटन प्रदान करता है। इन फिल्टर से निकले फिल्टरबैंक को गैमेटोन फिल्टरबैंक के रूप में जाना जाता है। सामान्य तौर पर, तरंग विश्लेषण की तुलना एक फ़िल्टरबैंक विश्लेषण से की जा सकती है और इसलिए मानक तरंगिका विश्लेषण और गैमेटोन फ़िल्टरबैंक के बीच दिलचस्प लिंक है। हालाँकि, गैमेटोन फ़ंक्शन एक तरंगिका के रूप में बिल्कुल योग्य नहीं है क्योंकि इसका समय औसत शून्य नहीं है। हम दिखाते हैं कि कैसे गोम्मटोन कार्यों के लिए बोना फाइड वेवलेट्स का निर्माण किया जा सकता है। हम गुणों जैसे विश्लेषण, समय-बैंडविड्थ उत्पाद, लुप्त होने वाले क्षणों का विश्लेषण करते हैं, जो तरंगों के संदर्भ में विशेष रूप से प्रासंगिक हैं। हम यह भी दिखाते हैं कि प्रस्तावित श्रवण तरंगें किस प्रकार एक रैखिक के आवेग प्रतिक्रिया के रूप में उत्पन्न होती हैं, शिफ्ट-इनवेरिएंट सिस्टम जो निरंतर गुणांक वाले रैखिक अंतर समीकरण द्वारा शासित होता है। हम प्रस्तावित CWT के अनुरूप सर्किट कार्यान्वयन का प्रस्ताव करते हैं। हम यह भी दिखाते हैं कि गैमेटोन-व्युत्पन्न वेवलेट्स का उपयोग कैसे किया जा सकता है जो कि विलक्षणता का पता लगाने और क्षणिक संकेतों के समय-आवृत्ति विश्लेषण के लिए है। हम यह भी दिखाते हैं कि प्रस्तावित श्रवण तरंगें किस प्रकार एक रैखिक के आवेग प्रतिक्रिया के रूप में उत्पन्न होती हैं, शिफ्ट-इनवेरिएंट सिस्टम जो निरंतर गुणांक वाले रैखिक अंतर समीकरण द्वारा शासित होता है। हम प्रस्तावित CWT के अनुरूप सर्किट कार्यान्वयन का प्रस्ताव करते हैं। हम यह भी दिखाते हैं कि गैमेटोन-व्युत्पन्न वेवलेट्स का उपयोग कैसे किया जा सकता है जो कि विलक्षणता का पता लगाने और क्षणिक संकेतों के समय-आवृत्ति विश्लेषण के लिए है। हम यह भी दिखाते हैं कि प्रस्तावित श्रवण तरंगें किस प्रकार एक रैखिक के आवेग प्रतिक्रिया के रूप में उत्पन्न होती हैं, शिफ्ट-इनवेरिएंट सिस्टम जो निरंतर गुणांक वाले रैखिक अंतर समीकरण द्वारा शासित होता है। हम प्रस्तावित CWT के अनुरूप सर्किट कार्यान्वयन का प्रस्ताव करते हैं। हम यह भी दिखाते हैं कि गैमेटोन-व्युत्पन्न वेवलेट्स का उपयोग कैसे किया जा सकता है जो कि विलक्षणता का पता लगाने और क्षणिक संकेतों के समय-आवृत्ति विश्लेषण के लिए है।

ERBlet रूपांतरण: सही पुनर्निर्माण के साथ एक श्रवण-आधारित समय-आवृत्ति प्रतिनिधित्व , ICASSP 2013

यह पेपर एक ध्वनि संकेत के एक अवधारणात्मक रूप से प्रेरित और पूरी तरह से उल्टे समय-आवृत्ति प्रतिनिधित्व प्राप्त करने के लिए एक विधि का वर्णन करता है। फ्रेम सिद्धांत और हाल ही में गैर-स्थिर गैबोर परिवर्तन के आधार पर, आवृत्ति के पार विकसित होने वाले रिज़ॉल्यूशन के साथ एक रैखिक प्रतिनिधित्व एक गैर-समान फ़िल्टरबैंक के रूप में तैयार और कार्यान्वित किया जाता है। मानव श्रवण समय-आवृत्ति संकल्प से मेल खाने के लिए, परिवर्तन समान रूप से मनोचिकित्सा "ईआरबी" आवृत्ति पैमाने पर गौसियन खिड़कियों का उपयोग करता है। इसके अतिरिक्त, परिवर्तन अनुकूली संकल्प और अतिरेक सुविधाएँ। सिमुलेशन से पता चला कि सही पुनर्संरचना तेजी से पुनरावृत्त तरीकों का उपयोग करके प्राप्त किया जा सकता है और यहां तक ​​कि ईआरबी प्रति एक फिल्टर और बहुत कम अतिरेक (1.08) का उपयोग करके भी।

और मैं यह भी उल्लेख करूंगा:

ऑडियो सिग्नल प्रोसेसिंग के लिए एक श्रवण-आधारित रूपांतरण , WASPAA 2009

इस पत्र में एक श्रवण-आधारित परिवर्तन प्रस्तुत किया गया है। एक विश्लेषण प्रक्रिया के माध्यम से, परिवर्तन समय-डोमेन संकेतों को फ़िल्टर बैंक आउटपुट के सेट में बदल देता है। फिल्टर बैंक की आवृत्ति प्रतिक्रियाएं और वितरण कोक्लीअ के बेसिलर झिल्ली के समान हैं। सिग्नल प्रोसेसिंग विघटित सिग्नल डोमेन में किया जा सकता है। एक संश्लेषण प्रक्रिया के माध्यम से, विघटित संकेतों को एक साधारण संगणना के माध्यम से मूल सिग्नल में वापस संश्लेषित किया जा सकता है। इसके अलावा, असतत-समय संकेतों के लिए तेज एल्गोरिदम आगे और उलटा दोनों रूपांतरों के लिए प्रस्तुत किए जाते हैं। सिद्धांत में परिवर्तन को मंजूरी दे दी गई है और प्रयोगों में मान्य किया गया है। शोर में कमी के आवेदन पर एक उदाहरण प्रस्तुत किया गया है। प्रस्तावित परिवर्तन पृष्ठभूमि और कम्प्यूटेशनल शोर के लिए मजबूत है और पिच हार्मोनिक्स से मुक्त है।


1
यही वह है जिसकी तलाश में मैं हूं। धन्यवाद।
user76284
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.