एक गीत के हिस्सों का पता लगाना

9

उम्मीद है कि यह बहुत व्यक्तिपरक नहीं है ...

मैं संगीत शैली की परवाह किए बिना एक गीत के विभिन्न "भागों" का पता लगाने के प्रयासों में कुछ दिशा तलाश रहा हूं। मुझे नहीं पता कि कहां देखना है, लेकिन अन्य स्टैकऑवरफ्लो साइटों की शक्ति पर भरोसा करते हुए, मुझे लगा कि यहां कोई व्यक्ति दिशा को इंगित करने में मदद कर सकता है।

अधिकांश बुनियादी शब्दों में, कोई व्यक्ति लगातार दोहराए जाने वाले पैटर्न को समूहीकृत करके और उन्हें "भाग" कहकर एक गीत के विभिन्न हिस्सों का पता लगा सकता है। यह शायद इतना कठिन नहीं है - कंप्यूटर एक संकेत में पुनरावृत्ति का पता लगाने में बहुत अच्छे हैं, भले ही कुछ छोटे बदलाव हो।

लेकिन यह कठिन है जब "भाग" ओवरलैप करते हैं, जैसा कि वे अधिकांश संगीत में करते हैं।

यह कहना मुश्किल है कि इस तरह की प्रणाली के लिए किस प्रकार का संगीत सबसे अच्छी तरह से अनुकूल होगा। मुझे लगता है कि अधिकांश शास्त्रीय शैली के सिम्फोनिक संगीत को संसाधित करना सबसे आसान होगा।

इस क्षेत्र में अनुसंधान के लिए कहां देखना है?

signal-detection

— दर्पण
स्रोत

मुझे लगता है कि स्निपेट रिकॉर्डिंग से गाने को पहचानने के लिए एक iPhone ऐप है। और मुझे लगता है कि इस ऐप का वर्णन करने वाला एक लेख था। मुझे खेद है कि मेरे पास लिंक नहीं हैं, लेकिन मैं इसके साथ शुरू करूंगा।

— mpiktas

1

@mpiktas: आप शायद जैसे एप्लिकेशन संदर्भ दे रहे SoundHound या Shazam । नहीं है कोई श्वेत-पत्र कैसे Shazam काम करता है पर है, हालांकि यह विवरण में बहुत ज्यादा जाना नहीं है। हालांकि मुझे यकीन नहीं है कि ओपी की जरूरत है, यह एक अच्छा शुरुआती बिंदु हो सकता है।

— निको

शाज़म

— raegtin

6

मैं सिग्नल प्रोसेसिंग का कोई विशेषज्ञ नहीं हूं, लेकिन मैं संगीत सिद्धांत के बारे में बहुत कुछ जानता हूं। मैं कहूंगा कि, इसके विपरीत, शास्त्रीय संगीत सरल गणितीय तरीकों से विश्लेषण करने के लिए शायद सबसे कठिन संगीत होगा। आप सबसे अच्छा कुछ सरल और अधिक दोहराव के साथ शुरू करेंगे, जैसे कि पॉप या तकनीकी संगीत। पॉप में अक्सर एक कविता-कोरस-पद्य ... आदि प्रारूप होता है जो आपके लक्ष्यों के एक सरलीकृत संस्करण के लिए अनुकूल हो सकता है।

अपने डेटा पर एक फूरियर ट्रांसफॉर्म का उपयोग करके इसे इसके सबसे प्रमुख घटक आवृत्तियों में तोड़ने की कोशिश करें , हो सकता है कि अलग-अलग उपखंडों के बीच। विशेष रूप से आप विभिन्न चीजों के आधार पर देख सकते हैं कि आप अपने डेटा के "भागों" को कैसे समूह बनाना चाहते हैं।

आपके पॉप संगीत में सबसे धीमा दोलन संभवतः कविता और कोरस और वापस कविता के बीच की पाली होगी (शायद 0.75 दोलन प्रति मिनट?)।
आगे आपको अपने राग की प्रगति के बीच उच्च आवृत्ति दोलन मिल सकते हैं, अर्थात आपके गीत के प्रत्येक पूर्ण माप के बीच (शायद प्रति मिनट लगभग 6 दोलनों?)।
अगला उच्चतम आवृत्ति मुझे लगता है कि एक माप के भीतर एक बार होगा (शायद प्रति मिनट 24 दोलनों के बारे में?) जिसके भीतर झनकार पैटर्न और गीत के सिंक्रनाइज़ेशन अक्सर पॉप / लोक संगीत में दोहराते हैं।
गैरी विवरण में नीचे जाना, अगले आप धड़कता है और लय है कि अपने संगीत के प्रत्येक बार के भीतर दोहराएंगे। इनमें से किसी एक को चुनना और अलग करना (शायद प्रति मिनट 148 दोलनों / बीट्स पर?) संभवतः एक बास ड्रम किक, या एक काउबेल हिट, या इसी तरह के आदेश के साथ कुछ मिलेगा।
कहीं न कहीं धड़कनों और तानों के बीच आपको अपने संगीत के तेज़ शैलीगत तत्वों को ढूंढना पड़ सकता है जैसे कि इलेक्ट्रिक गिटार पर गति / झाडू उठाना, या तेज़ स्वर ताल। (मुझे नहीं पता कि ये कितनी तेजी से हो सकते हैं, लेकिन मैं 1000 बीट प्रति मिनट या उससे अधिक के आदेश पर कहीं अनुमान लगाऊंगा)।
अंत में, तेजी से, और शायद सबसे अधिक जटिल रूप से, टोन और टाइमबरा के तत्व हैं। मुझे पता है कि "मध्य ए" नोट 440 हर्ट्ज होने के लिए मानकीकृत है, अर्थात प्रति सेकंड 440 दोलन। मुझे यकीन है कि तानवाला गुणवत्ता और समय के आधार पर विभेद करने की तकनीकें हैं, किस प्रकार के उपकरणों का उपयोग किया जा रहा है; मानव स्वरों का पता लगाने के लिए काफी अच्छे एल्गोरिदम हैं। हालाँकि जैसे मैंने कहा, मैं कोई सिग्नल प्रोसेसिंग विशेषज्ञ नहीं हूँ।

— मशीन तड़प
स्रोत

6

म्यूजिक को आमतौर पर कुछ अतिरिक्त सामानों के साथ एमपीईजी 7 डिस्क्रिप्टर का उपयोग करके वर्णित किया जाता है , जैसे कि मूविंग विंडो एप्रोच द्वारा बनाए गए एमएफसीसी के टुकड़े पर गणना की जाती है (यानी आपके पास कुछ विंडो का आकार और हॉप है, ध्वनि की शुरुआत में रखी गई खिड़की से शुरू करें, गणना करें। विंडो पर डिस्क्रिप्टर, फिर इसे हॉप करके और अंत तक पहुंचने तक दोहराएं)।
इस तरह एक टुकड़ा एक मेज में तब्दील हो जाता है; आपके मामले में इसका उपयोग चनों पर कुछ क्लस्टरिंग लागू करने के लिए किया जा सकता है और इसलिए उन "भागों" का पता लगाएं।

अब यह अधिक अच्छा है! अच्छा तकनीकी जवाब।

— मशीन तड़पते हुए

5

इस विषय पर कई अलग-अलग विधियां और साहित्य का ढेर सारे दृष्टिकोण हैं। यहां कुछ हाइलाइट्स हैं जो आपकी खोज के लिए अच्छे शुरुआती बिंदु हो सकते हैं।

यदि आपकी पृष्ठभूमि गणितीय या कम्प्यूटेशनल की तुलना में अधिक संगीतमय है, तो आप डेविड कोप के कामों में दिलचस्पी ले सकते हैं । उनकी अधिकांश प्रकाशित रचनाएं शास्त्रीय संगीत के टुकड़ों के विश्लेषण पर केंद्रित हैं, लेकिन उनके पास एक निजी उद्यम है जिसे पुनः संयोजक कहा जाता है जो अधिक सामान्य लगता है। उनके बहुत से काम ने संगीत को एक भाषा प्रकार के मॉडल के रूप में इस्तेमाल किया, लेकिन मेरा मानना है कि कम से कम उनके सबसे हालिया काम दृष्टिकोण की तरह पूरे संगीत जीनोम की ओर अधिक स्थानांतरित हो गए हैं । उसके पास ऑनलाइन बहुत सारे सॉफ़्टवेयर उपलब्ध हैं , लेकिन यह आमतौर पर लिस्प में लिखा जाता है और कुछ केवल ऐप्पल के ओएस के विभिन्न संस्करणों में चल सकते हैं, हालांकि कुछ को लिनक्स में काम करना चाहिए या कहीं भी आप चलाने के लिए आम लिस्प प्राप्त कर सकते हैं ।

मशीन लर्निंग में संकेतों और संगीत का विश्लेषण बहुत लोकप्रिय समस्या रही है। पैटर्न रिकॉग्निशन और पैटर्न रिकॉग्निशन और मशीन लर्निंग के लिए क्रिस्टोफर बिशप टेक्स्ट न्यूरल नेटवर्क्स में अच्छी शुरुआती कवरेज है । यहां एक एमएससी पेपर का एक उदाहरण दिया गया है जिसमें संगीत वर्गीकरण भाग है, लेकिन फीचर निष्कर्षण पर अच्छा कवरेज है, यह लेखक कम से कम बिशप ग्रंथों और कई अन्य स्रोतों का हवाला देता है। वह विषयों पर अधिक वर्तमान पत्रों के लिए कई स्रोतों की भी सिफारिश करता है ।

ऐसी पुस्तकें जो अधिक गणितीय या सांख्यिकीय हैं (कम से कम उनके लेखकीय द्वारा नहीं तो उनकी सामग्री द्वारा):

चूँकि मैंने बिशप और मशीन लर्निंग के कम्प्यूटेशनल परिप्रेक्ष्य का उल्लेख किया है इसलिए मैं केवल आधी कहानी बताऊंगा अगर मैंने यह भी सुझाव नहीं दिया कि आप हाल ही में सांख्यिकीय लर्निंग के तत्वों (जो मुफ्त कानूनी डाउनलोड के लिए उपलब्ध है) पर एक नज़र डालें। , तिब्शीरानी, और फ्रीडमैन। मुझे याद नहीं है कि इस पाठ में विशेष रूप से एक ऑडियो प्रोसेसिंग उदाहरण है, लेकिन कवर किए गए कई तरीके इस समस्या के लिए अनुकूलित हो सकते हैं।

संगीतशास्त्र में जन बेरन के सांख्यिकी पर विचार करने लायक एक और पाठ है । यह विशेष रूप से संगीत कार्यों के विश्लेषण के लिए कई सांख्यिकीय उपकरण प्रदान करता है और इसमें कई संदर्भ भी हैं।

फिर से वहाँ कई अन्य स्रोत हैं। यह बहुत कुछ इस बात पर निर्भर करता है कि आपकी पृष्ठभूमि क्या है और उस समस्या के लिए कौन सा दृष्टिकोण है जिसके साथ आप सबसे अधिक सहज हैं। उम्मीद है कि इनमें से कम से कम कुछ उत्तर के लिए आपकी खोज में थोड़ा सा मार्गदर्शन करता है। यदि आप हमें अपनी पृष्ठभूमि के बारे में अधिक बताते हैं, तो समस्या के बारे में अतिरिक्त विवरण, या इस पोस्ट के जवाब में एक प्रश्न पूछें, मुझे यकीन है कि मैं या यहाँ के कई लोग आपको अधिक विशिष्ट जानकारी के लिए निर्देशित करने में प्रसन्न होंगे। शुभकामनाएँ!

— क्रिस सिमोकत
स्रोत

4

एक महान जवाब नहीं है लेकिन शोध के लिए दो जगह हैं:

इंटरनेशनल सोसाइटी फ़ॉर म्यूज़िक इंफ़ॉर्मेशन रिट्रीवल में इस विषय के बारे में कई प्रकाशित पत्र हैं, आश्चर्यजनक है कि www.ismir.net कितनी जानकारी है

इको नेस्ट (इसी तरह का सामान करने के लिए एपीआई के साथ एक स्टार्टअप) echonest.com

अद्यतन: उन्होंने कुछ ओपन सोर्स फिंगरप्रिंटिंग कोड भी जारी किए। http://echoprint.me/

— डेविड पिटकिन
स्रोत

0

मुझे इसी तरह की समस्या में दिलचस्पी थी। यहाँ समाधान है। यह इतना पुराना वैज्ञानिक प्रस्ताव नहीं है जिसे बलि कांड कहा जाता है । देखें यह लेख विवरण (यह अच्छा लग रहा है) के लिए।

इसके अलावा, मैं आपको लेखक की वेबसाइट पर भी जाने की सलाह दूंगा क्योंकि संगीत में आँकड़ों के समान अनुप्रयोग हैं। अन्य समान स्रोतों की खोज करते समय, मैं संगीत सूचना पुनर्प्राप्ति शब्द का उपयोग करने की सलाह देता हूं जिसमें समान क्षेत्र शामिल हैं।

— मिरोस्लाव सबो
स्रोत