ऑडियो का कौन सा गणितीय मॉडल पॉलीफोनी (व्यक्तिगत रूप से जटिल) में व्यक्तिगत नोट्स के स्थानांतरण को संभव बना सकता है?


24

मेरा सवाल है: पॉलीफोनिक ध्वनि का कौन सा गणितीय मॉडल पॉलीफोनिक ध्वनिक संगीत वाद्ययंत्र के मल्टी-वॉयस-इन-सिंगल-चैनल ऑडियो रिकॉर्डिंग में व्यक्तिगत संगीत नोटों के परिवर्तन (यानी पिच शिफ्टिंग) को संभव बना सकता है? 'पॉलीफोनिक ऑडियो में नोट बदलकर' से मेरा मतलब है कि सेलेनी के मेलोडी सॉफ्टवेयर में तथाकथित ' डायरेक्ट नोट एक्सेस ' फीचर के साथ साउंड को एडिट करना।

विकिपीडिया के अनुसार , मेलोडाइन एक ध्वनिक (और इस प्रकार समयबद्ध रूप से जटिल) वाद्य यंत्र के ऑडियो सिग्नल का उपयोग करने के लिए संगीत वाद्ययंत्र का उपयोग करता है, जो हेनिंग थिएलेमैन ने अपने पेपर में ' अनटंग्लिंग चरण और मोनोफोनिक ध्वनियों में समय ' शीर्षक का वर्णन किया है । मुझे पॉलीफोनिक संगीत वाद्ययंत्र के ऑडियो सिग्नल के मॉडल का कोई संदर्भ नहीं मिल सकता है; के अनुसार यूट्यूब पर एक साक्षात्कार (नीचे लिखित) पीटर Neubacker की, संपादन पॉलीफोनिक ऑडियो से निपटने के लिए Melodyne की सुविधा Thielemann द्वारा वर्णित एक के विपरीत एक दृष्टिकोण की आवश्यकता है।

एक अन्य यूट्यूब क्लिप से एक सुराग यह है कि न्युबैकर का मॉडल केवल एक साधन (यानी केवल पियानो, केवल गिटार, केवल तार, केवल हवाएं, आदि) के ऑडियो रिकॉर्ड के साथ बेहतर काम करता है। एक अन्य सुराग अभी तक एक और क्लिप है जिसमें न केवल एक नोट की पिच को शिफ्ट करने की क्षमता है, बल्कि इसकी (शुरू और समाप्त) समय भी है।


नीचे यूट्यूब वीडियो का ट्रांसक्रिप्ट है जिसमें उल्लेख किया गया है कि 'पॉलीफोनिक सामग्री एक अलग दृष्टिकोण के लिए कॉल करती है' (यदि आपके पास इसे 22:00 बजे से देखने का समय नहीं है)।

  • यह प्रश्न, जिसमें से मेलोडेन उत्पन्न हुआ: मैं इस तरह से 3 आयामी रूप से एक ध्वनि कैसे प्राप्त कर सकता हूं [हाथ में पत्थर के साथ इशारा करना]? किस माध्यम से, ध्वनि को निरंतर समय पर अपनी निर्भरता से मुक्त किया जा सकता है? यह मूर्तिकला वास्तव में इस से उभरा है ... यह प्लास्टिक का एक टुकड़ा है .... यह सीधे संगीत डेटा से लिया गया था। यह वस्तु है [लुट पर एक नोट लूटना] यह नोट। इसे बाएं से दाएं के रूप में सबसे अच्छा माना जाता है। इस दिशा में समय चलता है [बाएं से दाएं इशारे करना]। और वह आयाम है [अंगुली का विरोध करने वाले अंगूठे के साथ बड़ा और छोटा होना]। यदि मैं इसे चालू करता हूं, तो यह ... किसी भी उदाहरण में इस ध्वनि के समय का प्रतिनिधित्व करता है। आप यहां बहुत स्पष्ट रूप से देख सकते हैं कि एक संरचना [मूर्तिकला के निचले भाग में क्रॉस सेक्शन की ओर इशारा करते हुए] जो कुछ हद तक त्रिकोणीय है; क्योंकि यह इस ध्वनि में है,

    चूंकि मेलोडी अभी तक मौजूद नहीं था और मैं बस इस आकार में ध्वनि के अनुवाद के साथ प्रयोग कर रहा था, मैंने लगभग एक वर्ष तक एक ध्वनि के साथ काम किया। ... मैं इस ध्वनि को अंदर और बाहर और हृदय से जानता हूं। यह स्थानीय ध्वनि का अच्छा चित्रण भी प्रदान करता है। मैं न केवल ध्वनि [क्लिक करने वाले माउस] को वापस चला सकता हूं, बल्कि मैं किसी भी बिंदु की ध्वनि भी दर्ज कर सकता हूं, और इसे धीरे-धीरे या जल्दी से आगे बढ़ा सकता हूं। मैं ध्वनि में भी झूम सकता हूं, या आगे और पीछे की ओर बढ़ सकता हूं, इसलिए अगर मैं यहां एक जगह की जांच करता हूं ... तो इसके आसपास जाएं। ... दस साल पहले यह नया था।

    हाल ही में dna (डायरेक्ट नोट एक्सेस) को जोड़ा गया था। इसके साथ, मैं पॉलीफोनिक संगीत भी संपादित कर सकता हूं। दूसरे शब्दों में, मैं व्यक्तिगत रूप से नोटों को संपादित कर सकता हूं जो एक साथ लगता है, जैसे कि एक गिटार रिकॉर्डिंग। अगर मैं अब एक छोटा कॉर्ड [स्क्रीन पर पॉली -> अलग नोट्स का चयन] खेलता हूं, तो हम यहां उन 3 नोटों को देखते हैं जिन्हें मैंने अलग-अलग संस्थाओं के रूप में खेला है। चलिए फिर से सुनते हैं [कंप्यूटर माइनर कॉर्ड खेलता है]। और अब, जैसे कि मेरी उंगली को एक उच्च झल्लाहट में ले जाकर, मैं इसे एक नोट उठा सकता हूं [नोट को स्क्रीन पर खींचकर; कंप्यूटर प्रमुख राग बजाता है]। विभाजित ऑडियो के लिए, मैं इस एक नोट को अलग कर सकता हूं, और अब इसे ऊपर या नीचे ले जा सकता हूं, कृपया मुझे किसी भी पिच पर।

    इस तरह से जटिल सामग्री के भीतर अलग-अलग टन को अलग करने में पहले कोई सक्षम क्यों नहीं था? मैं ईमानदारी से नहीं जानता। विज्ञान में, प्राकृतिक प्रवृत्ति कुछ सरल से शुरू होती है, उदाहरण के लिए एक साइन लहर, या व्यक्तिगत नोट्स, और विश्लेषण करते हैं कि पहले, केवल यह पता लगाने के लिए कि सामग्री कब अधिक जटिल हो जाती है, या इसकी संपूर्णता में इलाज किया जाना है, जो कि सिस्टम काम नहीं करता है। मेरा दृष्टिकोण अलग है। मैं वास्तव में जटिल संकेतों के साथ शुरू करता हूं, और यह केवल तब होता है जब मैं किसी चीज की विस्तार से जांच करना चाहता हूं कि मैं सरल लोगों पर वापस जाऊं, लेकिन सबसे पहले, मुझे वास्तव में जो हो रहा है उसका समग्र आभास होना चाहिए।

    क्या रहस्य शायद इस रोल में निहित है? हेह, यह वास्तव में एक लो रोल है। प्रश्न मूल रूप से पत्थर द्वारा उठाया गया था कि मैं किसी दिए गए ध्वनि को त्रि-आयामी रूप में कैसे अनुवाद कर सकता हूं। यहां, मैंने ध्वनि के व्यक्तियों के नमूने के मूल्यों को व्यवस्थित किया है, यहां एक दो तीन द्वारा इंगित किया गया है और इसलिए, एक सर्पिल में। और यह पता चला है, कि अगर आप [सर्पिल के पार इशारा] के बीच में अंतर करते हैं, तो एक परिदृश्य उभरता है जो ध्वनि में व्यक्तिगत क्रॉस-सेक्शन का प्रतिनिधित्व करता है [मूर्तिकला के पार अनुभाग]।

    रोल कितना पुराना है? बारह साल। तो यह विचार मेलोडी की अच्छी तरह से बसंत है, जो हमने आज देखा है ...? हां, लेकिन ध्वनि को समेटने का यह तरीका अब पॉलीफोनिक सामग्रियों के लिए उपयोग नहीं होगा, जो एक अलग दृष्टिकोण के लिए कहता है।


अब समय नहीं है, लेकिन हो सकता है कि आप Consonance पर कुछ Bill Sethares के काम को पढ़ना चाहें । मैं आपके पोस्ट को पचाने और अगले कुछ दिनों में पूरी तरह से जवाब देने की कोशिश करूंगा।
पीटर के.एच.

मुझे यकीन नहीं है कि सवाल क्या है। अलग-अलग नोटों को अलग करना और "ध्वनि को समेटना " मुझे एक सर्पिल में एक स्पेक्ट्रम लपेटने के बारे में सोचता है ताकि एक नोट लाइन के हार्मोनिक्स एक दूसरे के साथ मिलें : nastechservices.com/Spectrograms.html nastechs.in.inSpectratune.html
endolith

जवाबों:


12

टी एल; डॉ? हार्मोनिक आंशिक पृथक्करण के लिए Google विद्वान ।


एक अच्छा प्रारंभिक बिंदु साइनसोइडल मॉडलिंग तकनीक होगा जो सिग्नल को साइन + शोर (नियतात्मक और स्टोकेस्टिक) घटकों में अलग करता है। नियतात्मक घटक, जो साइन से बना होता है, को ठोस रूप से पुनर्जीवित किया जा सकता है:

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

साइन से सिग्नल निकाले जाते हैं और शोर / स्टोकेस्टिक भाग बना रहता है।

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

स्टोचैस्टिक भाग को शोर-शराबा फिल्टर के माध्यम से शोर डालकर संश्लेषित किया जाता है। कुछ अन्य लोगों ने इसे साइन्स + शोर + ट्रांसजेंडर्स मॉडल तक बढ़ाया है जो समय में स्ट्रेचिंग में क्षणिक स्टोकेस्टिक सुविधाओं को संरक्षित करने में मदद करता है।

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

एक बार जब आपके पास सिग्नल का साइनसोइडल पैरामीटर होता है, तो हार्मोनिक अनुपात और शुरुआत के आधार पर ग्रुपिंग द्वारा ओवरलैपिंग नोटों की सीन्स को अलग करना संभव है, आदि। आंशिक ट्रैकिंग Google स्कॉलर पर बहुत सारे परिणाम देती है।

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

छिपे हुए मार्कोव मॉडल , बहुपद , और मैकाले-क्वाटिएरी कुछ तरीके हैं। स्टोचस्टिक बचे हुए को दो नोटों में अलग करने के बारे में मैं स्तब्ध हूं। मुझे नहीं पता कि मेलोडी इसे कैसे संबोधित करता है।


5

मेलोडीन में उपयोग किए जाने वाले दृष्टिकोण के लिए 2 अलग-अलग आवृत्ति डोमेन संचालन की आवश्यकता होती है। सबसे पहले, पॉलीफोनिक ट्रांसक्रिप्शन तकनीकों का उपयोग पॉलीफोनिक ऑडियो के समूह आवृत्ति घटकों (एक मानक आवृत्ति परिवर्तन से) को नोट सक्रियण में किया जाता है। दूसरे शब्दों में, समूह हार्मोनिक सबसे अधिक संभावना नोट गतिविधियों के अनुसार सबसेट है। संदर्भ और गणितीय मॉडल के लिए इस मंच पर "उलटा पॉलीफोनिक कॉर्ड मान्यता" पोस्ट के लिए मेरी प्रतिक्रिया देखें।

दूसरा ऑपरेशन आवृत्ति डोमेन पिच के ऊपर से निकाले गए हार्मोनिक सबसेट का स्थानांतरण है। मुझे यकीन नहीं है, लेकिन मैं लगभग इस बात की गारंटी दूंगा कि मेलोडीन ने इसे प्राप्त करने के लिए एक चरण स्वरोदय दृष्टिकोण का उपयोग किया है। आप इस तकनीक का उपयोग करके समय बढ़ा सकते हैं । हम Riffstation में इन के समान तकनीकों का उपयोग करते हैं और वे काफी अच्छी तरह से काम करते हैं।


3

एक संभावना एक सांख्यिकीय पैटर्न मिलान दृष्टिकोण का उपयोग कर विश्लेषण / पुनः संश्लेषण हो सकता है। यदि आप जानते हैं या उचित रूप से शामिल किए गए उपकरणों के मिश्रण का अनुमान लगा सकते हैं और सभी अपेक्षित नोटों के लिए वाद्ययंत्र ध्वनियों के लिए टेम्पलेट (प्रारंभिक ट्रांज़िस्टर, स्पेक्ट्रम प्लस वर्णक्रमीय विकास आदि सहित) हैं, तो आप बड़ी संख्या में सॉन कॉर्ड के सांख्यिकीय मिलान की कोशिश कर सकते हैं। सबसे संभावित पॉलीफोनिक संयोजन (अनुमानों) का अनुमान लगाने के लिए टेम्पलेट साउंड पैटर्न का उपयोग करके संयोजन। यह वैश्विक minima's के लिए एक बहुत ही कम्प्यूटेशनल रूप से गहन खोज होगी, जहाँ विभिन्न "AI" जैसी खोज तकनीक उपयोगी हो सकती है। तब आप विभिन्न व्यक्तिगत कॉर्ड संभावनाओं को ले सकते हैं और फिर समय में सबसे अधिक संभावना पॉलीफोनिक अनुक्रम लेने के लिए निर्णय सिद्धांतों का उपयोग कर सकते हैं।

फिर अनुमानित नोट लें और उन्हें अपने चुने हुए कुंजी पिच और अवधि पर फिर से संश्लेषित करें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.