गानों के भीतर गणित के कार्यों को पहचानना


12

मैं डीएसपी के लिए नया हूं, और बस इस StackExchange की खोज की है, इसलिए अगर यह सवाल पोस्ट करने के लिए सही जगह नहीं है तो माफी मांगें।

क्या एक संसाधन है जो अधिक गणितीय शब्दों में शैलियों का वर्णन करता है? उदाहरण के लिए, अगर मैंने गाने के इस खंड पर सिग्नल पर एक एफएफटी का प्रदर्शन किया है (2:09 यदि लिंक वहां शुरू नहीं होता है), तो क्या मुझे पता लगाने में सक्षम होने का कोई तरीका है कि इस खंड में कोई ऐसा क्रम है की आवाज़? क्या ऐसा लगता है कि कुछ गणितीय फ़ंक्शन का पालन करें जिसके साथ मैं तुलना कर सकता हूं? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (लिंक सीधे ध्वनि बजाना शुरू करता है)

पर्यवेक्षित शिक्षण तकनीकों का उपयोग करने का एकमात्र तरीका है, या क्या एक अलग दृष्टिकोण है (जो अधिमानतः पर्यवेक्षण की आवश्यकता नहीं है)?

किसी भी सलाह के लिए धन्यवाद।


आप एक ड्रम बीट बनाम एक बांसुरी का पता लगाने के लिए एफएफटी का उपयोग कर सकते हैं, लेकिन शैली का पता लगाने के लिए नहीं। ध्वनि के बारे में बहुत स्थानीय सामान, निश्चित, लेकिन कुल फ़ाइल का संगीत चरित्र नहीं।
एंडोलिथ

क्या ध्वनि की "खुरदरापन" को पहचानना संभव है? क्या यह वह जगह है जहाँ MFCC खेल में आती है?
XSL

जवाबों:


10

मुझे लगता है कि आप जिस अंतर की तलाश कर रहे हैं वह अनुभवजन्य बनाम सैद्धांतिक (पर्यवेक्षण के विपरीत बनाम अनुपयोगी) के समान है, लेकिन मैं इसके बारे में गलत हो सकता हूं। दूसरे शब्दों में, आदर्श बात के लिए विभिन्न विधाओं की सैद्धांतिक परिभाषा होनी चाहिए, न कि केवल अपारदर्शी डेटा का एक गुच्छा, जिसका उपयोग किसी गीत को वर्गीकृत करने के लिए किया जा सकता है [बिना किसी वास्तविक समझ के]।

हालांकि, सामान्य शैली के वर्गीकरण के लिए, आप शायद उदाहरणों से प्रशिक्षण के साथ कम से कम फंस गए हैं, भले ही पहले स्थान पर शैलियों की परिभाषा बनाने के लिए। अपने उदाहरण के संबंध में, इस बात पर विचार करें कि लोग कितनी बार बहस करेंगे [YouTube पर] कि क्या एक दिया गया ट्रैक वास्तव में डबस्टेप है (उदाहरण के लिए कोई भी ट्रैक जो अधिक डब्बी है और कम wobbly है , भले ही शैली बिना किसी वास्तविक छेड़छाड़ के शुरू हुई हो)। लोग उदाहरणों के माध्यम से समय के साथ शैलियों को परिभाषित करते हैं, इसलिए यह उम्मीद करना उचित है कि एल्गोरिदम जो उस व्यवहार को दोहराते हैं, उन्हें भी कुछ उदाहरणों की आवश्यकता होगी। जिस तरह से लोग शैलियों का वर्णन करते हैं वह लगभग एक फ़ीचर वेक्टर की तरह है वैसे भी - वे गीत के बारे में प्रश्नों की एक सूची पूछते हैं (जैसे कि क्या यह अधिक ब्रेकी या डगमगाने वाला है? क्या इसमें सब बेस है? कब तक है? क्या टेम्पो है? एक स्वर है? आदि)।

बेशक, आप उन विशेषताओं की एक सूची चुनने में सक्षम हो सकते हैं जो शैली की सहज समझ प्रदान करती हैं। "डायनेमिक रेंज" जैसी सुविधा एक ऐसी चीज़ है जिसे व्यक्ति कान से भी पता लगा सकता है, लेकिन "टाइम डोमेन ज़ीरो क्रॉसिंग" जैसा कुछ बहुत सहज नहीं होगा - भले ही यह वर्गीकरण के लिए अच्छा काम करता हो। निम्नलिखित पेपर में कुछ विशेषताएं हैं जो आपके लिए दिलचस्प हो सकती हैं:

जॉर्ज टेज़ेटाकिस, पेरी आर। कुक: ऑडियो संकेतों का संगीत शैली वर्गीकरण। आईईईई भाषण और ऑडियो प्रोसेसिंग 10 (5) पर लेनदेन: 293-302 (2002) लिंक

खुरदरापन मापने के लिए, मनोचिकित्सा खुरदरापन शुरू करने के लिए एक अच्छी जगह होगी, लेकिन यह उदाहरण के लिए डबस्टेप लीड और इलेक्ट्रो लीड के बीच अंतर करने के लिए पर्याप्त नहीं हो सकता है। बारीक-बारीक भेदों के लिए, एक बात पर गौर करना चाहिए मान्यता है । निम्नलिखित थीसिस में तकनीकों का एक सभ्य सर्वेक्षण है:

टीएच पार्क, "स्वचालित संगीत वाद्ययंत्र की समय पर मान्यता," पीएच.डी. शोध प्रबंध, प्रिंसटन विश्वविद्यालय, एनजे, 2004. लिंक

टिम्ब्रे, ट्यूनिंग, स्पेक्ट्रम और स्केल में अवधारणात्मक खुरदरापन से संबंधित एक मॉडल भी है जो मनमाने ढंग से लकड़ी के लिए कस्टम तराजू के निर्माण के लिए उपयोग किया जाता है। विचार यह है कि हार्मोनिक्स जो बहुत करीब हैं, बीट आवृत्तियों का उत्पादन करते हैं जिन्हें असंगति के रूप में माना जाता है। परिशिष्ट एफ और ई से Paraphrasing ,

Ff1,f2,...,fn

DF=1/2 i=1n j=1n d(|fifj|min(fi,fj))

जहाँ

d(x)=e3.5xe5.75x

प्लाम्प-लेवल कर्व का एक मॉडल है ।

इसका उपयोग यह मापने के लिए किया जाता है कि किसी दिए गए राग को किस तरह से समतल करना सम्मान के साथ है (विसंगति को कम करके)। मुझे नहीं पता कि मनोविश्लेषक किस्म की खुरदरापन, या आंतरिक असंगति, अपने स्वयं के उद्देश्यों के लिए बहुत उपयोगी होगी, लेकिन वे अन्य मैट्रिक्स के साथ संयोजन में उपयोगी हो सकते हैं।

आप शायद शैलियों की तुलना में गणितीय रूप से टाइमब्रिज को वर्गीकृत करने के लिए अधिक भाग्य होंगे। उदाहरण के लिए, स्ट्रिंग्स में सम और विषम हारमोन्स होते हैं, लेकिन एक शहनाई में केवल विषम हारमोनिक्स (cf. Sawtooth wave , Square wave ) होता है। डबस्टेप वॉबल एलएफओ-चालित फिल्टर (कम पास और / या फॉर्मेंट फिल्टर) के साथ किया जाता है, इसलिए स्पेक्ट्रल फ्लक्स (देखें [Tzanetakis], ऊपर) जैसी कुछ सुविधा के रूप में एक अच्छा प्रारंभिक बिंदु हो सकता है। हालाँकि, मुझे संदेह है कि किसी ने अभी तक वोबेल के गणितीय वर्गीकरण का अध्ययन किया है;)


2
डाटाजिस्ट से उत्कृष्ट प्रतिक्रिया। अगर आप अधिक जानकारी और स्रोत कोड के साथ एक देव मंच के लिए देख रहे हैं, तो मैं भी isophonics.net/QMVampPlugins का सुझाव दूंगा
डैन बैरी

@Dan जो भयानक लग रहा है, उस लिंक के लिए धन्यवाद।
datageist

मुझे अध्ययन करने के लिए एक आला विषय मिला है! : डी शानदार जवाब और लिंक के लिए धन्यवाद। इसने मुझे Google का उपयोग करने के बजाय एक दिशा में इंगित किया है।
XSL

मदद करने के लिए :) खुशी है कि
datageist
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.