विभिन्न (संगीतमय?) स्वरों के भेदभाव के लिए किस पद्धति का उपयोग करना है


12

मैं शोध करने की कोशिश कर रहा हूं और यह पता लगाऊंगा कि इस समस्या पर हमला करने के लिए कितना अच्छा है। यह संगीत प्रसंस्करण, छवि प्रसंस्करण और सिग्नल प्रोसेसिंग को बढ़ाता है, और इसलिए इसे देखने के असंख्य तरीके हैं। मैं इसे प्राप्त करने के सर्वोत्तम तरीकों के रूप में पूछताछ करना चाहता था क्योंकि जो लोग शुद्ध सिग-प्रोक डोमेन में जटिल लग सकते हैं वे छवि या संगीत प्रसंस्करण करने वाले लोगों द्वारा सरल (और पहले से हल किए गए) हो सकते हैं। वैसे भी, समस्या इस प्रकार है:यहाँ छवि विवरण दर्ज करें

यदि आप समस्या के मेरे हाथ को माफ करते हैं, तो हम निम्नलिखित देख सकते हैं:

उपरोक्त आंकड़े से, मेरे पास संकेतों के 3 अलग-अलग 'प्रकार' हैं। पहले एक एक नाड़ी है कि 'कदम' आवृत्ति में से की तरह करने के लिए 4 , और फिर दोहराता है। इसकी एक विशिष्ट नाड़ी अवधि है, और एक विशिष्ट नाड़ी-पुनरावृत्ति समय है।f1f4

दूसरा वाला केवल पर मौजूद है , लेकिन इसमें नाड़ी की लंबाई कम है और तेजी से नाड़ी पुनरावृत्ति आवृत्ति है।f1

अंत में तीसरा एक केवल पर एक टोन है ।f1

समस्या यह है कि मैं किस तरह से इस समस्या से संपर्क करता हूं, जैसे कि मैं एक क्लासिफायर लिख सकता हूं जो सिग्नल -1, सिग्नल -2 और सिग्नल -3 के बीच भेदभाव कर सकता है। यही है, यदि आप इसे संकेतों में से एक को खिलाते हैं, तो यह आपको यह बताने में सक्षम होना चाहिए कि यह संकेत ऐसा है। सबसे अच्छा क्लासिफायर मुझे एक विकर्ण भ्रम मैट्रिक्स देगा?

कुछ अतिरिक्त संदर्भ और जो मैं इस प्रकार से सोच रहा हूं:

जैसा कि मैंने कहा कि यह कई क्षेत्रों में फैला है। मैं इस बात की जाँच करना चाहता था कि मेरे बैठने से पहले क्या कार्यप्रणाली मौजूद हो सकती है और इसके साथ युद्ध करना है। मैं अनजाने में पहिया का फिर से आविष्कार नहीं करना चाहता। यहाँ कुछ विचार हैं जिन्हें मैंने अलग-अलग दृष्टिकोणों से देखा है।

सिग्नल-प्रोसेसिंग स्टैंडपॉइंट: एक चीज़ जो मैंने देखी है , वह एक सेप्स्ट्रल एनालिसिस कर रही थी , और फिर संभवतः सिग्नल -3 को अन्य 2 से अलग करने में सेस्ट्रस्ट्रम के गैबोर बैंडविड्थ का उपयोग कर रही थी , और फिर सिग्नल को भेद करते हुए सेफस्ट्रम के उच्चतम शिखर को माप रही थी- सिग्नल -2 से 1 यह मेरा वर्तमान सिग्नल-प्रोसेसिंग कार्य समाधान है।

इमेज-प्रोसेसिंग स्टैंडपॉइंट: यहां मैं सोच रहा हूं क्योंकि मैं वास्तव में छवियों को स्पेक्ट्रोग्राम बना सकता हूं, शायद मैं उस क्षेत्र से कुछ लाभ उठा सकता हूं? मैं इस भाग से गहन रूप से परिचित नहीं हूं, लेकिन Hough Transform का उपयोग करके 'लाइन' का पता लगाने के बारे में क्या है , और फिर किसी तरह लाइनों की 'गिनती' (क्या होगा अगर वे लाइनें नहीं हैं और हालांकि बूँदें?) और वहां से जा रहे हैं। निश्चित रूप से किसी भी समय जब मैं एक स्पेक्ट्रोग्राम लेता हूं, तो आप देख सकते हैं कि आपको समय अक्ष के साथ स्थानांतरित किया जा सकता है, तो क्या यह मामला होगा? निश्चित नहीं...

म्यूज़िक-प्रोसेसिंग स्टैंडपॉइंट: सिग्नल प्रोसेसिंग का एक सबसेट सुनिश्चित करने के लिए, लेकिन यह मेरे साथ होता है कि सिग्नल -1 में एक निश्चित, शायद दोहराव (संगीत) की गुणवत्ता होती है, जो म्यूज़िक-प्रोक में लोग हर समय देखते हैं और पहले ही हल कर चुके होते हैं? शायद भेदभाव करने वाले यंत्र? यकीन नहीं हो रहा था, लेकिन मेरे साथ ऐसा हुआ। शायद यह स्टैंड पॉइंट, इसे देखने का सबसे अच्छा तरीका है, टाइम डोमेन का एक हिस्सा लेना और उन स्टेप-रेट्स को छेड़ना? फिर से, यह मेरा क्षेत्र नहीं है, लेकिन मुझे बहुत संदेह है कि यह कुछ ऐसा है जो पहले देखा गया है ... क्या हम सभी 3 संकेतों को विभिन्न प्रकार के संगीत वाद्ययंत्रों के रूप में देख सकते हैं?

मुझे यह भी जोड़ना चाहिए कि मेरे पास प्रशिक्षण डेटा की एक अच्छी मात्रा है, इसलिए शायद उन तरीकों में से कुछ का उपयोग करने से मुझे कुछ सुविधा निष्कर्षण करने की अनुमति मिल सकती है, जिसके साथ मैं के-नियस्ट पड़ोसी का उपयोग कर सकता हूं , लेकिन यह सिर्फ एक विचार है।

वैसे भी यह वह जगह है जहाँ मैं अभी खड़ा हूँ, किसी भी मदद की सराहना की है।

धन्यवाद!

टिप्पणियाँ पर आधारित कड़ियाँ:

  • f1f2f3f4f1f2f2

  • पल्स पुनरावृत्ति दर और संकेतों के सभी तीन वर्गों की नाड़ी लंबाई भी सभी पहले से ज्ञात हैं। (फिर से कुछ विचरण लेकिन बहुत कम)। हालांकि कुछ कैविटीज़, नाड़ी पुनरावृत्ति दर और संकेतों 1 और 2 की लंबाई लंबाई हमेशा ज्ञात होती है, लेकिन वे एक सीमा होती हैं। सौभाग्य से, हालांकि, उन सीमाओं को ओवरलैप नहीं है।

  • इनपुट वास्तविक समय में आने वाली एक निरंतर समय श्रृंखला है, लेकिन हम यह मान सकते हैं कि संकेत 1, 2 और 3 परस्पर अनन्य हैं, उनमें से केवल एक ही समय में किसी भी बिंदु पर मौजूद है। समय के किसी भी बिंदु पर प्रक्रिया करने के लिए आप कितना समय लेते हैं, इस बारे में हमारे पास बहुत अधिक लचीलापन है।

  • f1f2f3f4


आपका इनपुट क्या होगा? 1 / एक सतत स्ट्रीम जिसमें आप सिग्नल 1/2/3 (सेगमेंटेशन + वर्गीकरण समस्या) या 2 / अलग-अलग नमूनों को केवल एक प्रकार के सिग्नल के साथ अलग करना चाहते हैं जिसे आपको 1/2/3 श्रेणियों में वर्गीकृत करना होगा? आप संकेतों की कई विशेषताओं का वर्णन करते हैं: संकेत 1 का PRT; संकेत 2 की पुनरावृत्ति आवृत्ति; संकेत 3 की आवृत्ति; f1 / f2 / f3 / f4 के मान। क्या इन मापदंडों को पहले से या चर में जाना जाता है? अंत में, यदि आपके इनपुट में सेगमेंट में उन सिग्नलों की कई घटनाएं होती हैं, तो एक सेगमेंट की विशिष्ट अवधि क्या है?
pichenettes

एक और सवाल: आपके ड्रॉइंग से ऐसा लगता है कि आप शुद्ध स्वर (कोई हारमोंस और कोई शोर नहीं) के साथ काम कर रहे हैं। क्या यह मामला है, या डेटा आपके आरेखण की तुलना में बहुत अधिक गंदा है?
14

@pichenettes धन्यवाद, मैंने आपके द्वारा संपादित की गई जानकारी को जोड़ा है।
स्पेसी

इस प्रश्न पर आपकी प्रगति और समाधान पर अनुवर्ती कार्रवाई की सराहना की जाएगी। विश्लेषण ज्यादातर ध्वनियों के अध्ययन की समय परिवर्तनशीलता पर निर्भर करता है। यदि वे एक फफूंद खिड़की से तेज हैं, तो कहिए कि 256 नमूनों के तहत आपको उच्च रेस स्पेक्ट्रोग्राम की आवश्यकता होगी। स्पेक्ट्रोग्राम जितना सटीक होगा, उतना ही आप अपनी ध्वनियों में छोटी विस्तार से जानकारी देख सकते हैं। एफएफटी शायद ठीक है, उसके बाद सवाल केवल साधारण पैटर्न विश्लेषण दिनचर्या का उपयोग करके ध्वनियों को वर्गीकृत करने के लिए तर्क ऑपरेटरों को जोड़ने का मामला है। दालों की अवधि का विश्लेषण, उनके बीच की दूरी, संपूर्ण प्रकृति की प्रकृति, इत्यादि।
com.prehensible

प्रत्येक एक्स लाइन के शिखर मूल्य की जांच करके मुख्य हार्मोनिक को खोजने के लिए सरल है, और फिर आप सिर्फ पैटर्न सिग्नेचर विश्लेषण प्रोग्रामिंग का उपयोग करके विश्लेषण करने के लिए एक ग्राफ के साथ समाप्त होते हैं, जो उसी तरह से प्रगति करता है जैसे कि आप उन्हें बयानबाजी में विश्लेषण कर रहे थे, बस संख्या प्रगति की तुलना और वर्गीकरण करते समय आप उन सर्वश्रेष्ठ विभेदकों के नियमों को आकर्षित करते हैं जिनका आप जानबूझकर उपयोग करते हैं।
com.prehensible

जवाबों:


7

चरण 1

S(m,k)mk

चरण 2

प्रत्येक एसटीएफटी फ्रेम के लिए, यिन की तरह कुछ का उपयोग करके प्रमुख मौलिक आवृत्ति की गणना करें, साथ ही "पिच आत्मविश्वास" सूचक, जैसे कि डीआईएफ की गहराई यिन द्वारा गणना की गई।

f(m)mv(m)m

r0

e(m)m

चरण 3

MMM=50

निम्नलिखित विशेषताएं निकालें:

  • σf(k)(f(m))m[kM,k+M],v(m)>τ
  • σv(k)(v(m))m[kM,k+M]
  • σe(k)(e(m))m[kM,k+M]

σfσvσe

σfσvσeσfσvσeσfσvσe

अपने प्रशिक्षण डेटा पर इन 3 विशेषताओं की गणना करें और एक भोले बेसेसियन क्लासिफायरियर (सिर्फ गाऊसी वितरण का एक गुच्छा) को प्रशिक्षित करें। आपका डेटा कितना अच्छा है, इस पर निर्भर करता है कि आप क्लासिफायर के साथ भाग भी सकते हैं और सुविधाओं पर हाथ से परिभाषित थ्रेसहोल्ड का उपयोग कर सकते हैं, हालांकि मैं इसकी सलाह नहीं देता।

चरण 4

M

यदि आपका डेटा और क्लासिफायर अच्छा है, तो आपको कुछ इस तरह दिखाई देगा:

1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3 ३, ३, ३

यह शुरुआत और अंत समय, और प्रत्येक संकेत के प्रकार को बहुत अच्छी तरह से चित्रित करता है।

यदि आपका डेटा शोर है, तो नकली गर्भनिरोधक फ्रेम होना चाहिए:

1, 1, 1, 1, 1, 2, 1, 1, 1, 2, 2, 3, 2, 2, 1, 1, 1, 1, 3, 1, 1, 3, 3, 2, ३, ३, ३

यदि आप दूसरे मामले में बहुत अधिक बकवास देखते हैं, तो 3 या 5 डिटेक्शन के पड़ोस के डेटा पर एक मोड फ़िल्टर का उपयोग करें; या HMMs का उपयोग करें।

घर संदेश ले

आप अपनी पहचान को आधार बनाना चाहते हैं, जो वर्णक्रमीय विशेषता नहीं है, लेकिन खिड़कियों पर वर्णक्रमीय विशेषताओं के एकत्र किए गए अस्थायी आंकड़े जो आपके संकेत अवधि के समान पैमाने पर हैं। यह समस्या वास्तव में दो समय के पैमाने पर एक प्रसंस्करण के लिए कॉल करती है: एसटीएफटी फ्रेम जिस पर आप बहुत स्थानीय सिग्नल गुणों (आयाम, प्रमुख पिच, पिच ताकत), और बड़ी खिड़कियों की गणना करते हैं, जिन पर आप उन सिग्नल गुणों की अस्थायी परिवर्तनशीलता को देखते हैं।


ध्यान दें कि आप इसे वाक् पहचान शैली भी कर सकते हैं यदि आप HTK या इसके जैसे लाभ उठाना चाहते हैं ... ध्वनिक मॉडल: 4 फोन P1, P2, P3, P4 (f1 पर टोन, f2 पर टोन, f3 पर टोन, f4 पर टोन) ) + 1 प्रतीक एस मौन के लिए। प्रति फोन 1 या 2 गॉसियन। सिग्नल 1 के लिए वर्ड मॉडल W1: (P1 S P2 S P3 S P4 S) +। सिग्नल 2 के लिए वर्ड मॉडल W2: (P1 S) +। संकेत 3 के लिए वर्ड मॉडल डब्ल्यू 3: (पी 1) +। वाक्य मॉडल: (W1 | W2 | W3) *। एकमात्र चेतावनी यह है कि यदि आप एक भाषण मान्यता टूलबॉक्स का उपयोग करते हैं, तो आपको इसकी सुविधा निष्कर्षण फ्रंट-एंड को ट्विक करना होगा क्योंकि एमएफसीसी बहुत कम रिज़ॉल्यूशन और पिच-एग्नोस्टिक के अलावा f1 / f2 / f3 / f4 को बताने के लिए है।
pichenettes

@pichenettes आपको धन्यवाद देता है, कि एक बहुत अच्छा जवाब है - मेरे पास कुछ फॉलोवर्स हैं हालांकि: 1) 'यिन' क्या है जिसका आप उल्लेख करते हैं, और 'डीएमएफ' क्या है? मुझे Google के माध्यम से उन पर कुछ भी नहीं मिला। 2) एक उपाय के रूप में वास्तव में 'पिच आत्मविश्वास' क्या है? 3) आपने उल्लेख किया है कि आप पिच-आत्मविश्वास को खोजने के लिए ऑटो-सहसंबंध का उपयोग कर सकते हैं - क्या, समय डोमेन फ्रेम या फ्रेम के एसटीएफटी का स्वत: संबंध? (मुझे शायद यह समझ में नहीं आता क्योंकि मैं नहीं जानता कि आप पिच आत्मविश्वास का क्या मतलब है)। (contd ...)
स्पेसी

@pichenettes (contd) 4) उन सुविधाओं के बारे में जो प्रति वर्ष केवल हां में मौजूद हैं? तो आप प्रति खिड़की (इस मामले में) 101 फ्रेम में तीन स्टड की गणना कर रहे हैं? इस मामले में, जब प्रशिक्षण का समय आता है, तो मेरे 3-डी 'बिंदु' को 101 FRAMES से अधिक 3 सीढ़ियों से बनाया गया था, सही है? 5) आपके चरण 4 में, जब आपके पास 1,1,1,2,2 आदि की संख्या है, तो प्रत्येक संख्या इस बात से मेल खाती है कि आपने THAT विंडो को कैसे वर्गीकृत किया है? पहला '1' फ्रेम -50 से 50 तक बनी खिड़की का वर्गीकरण था, और दूसरा '1' फ्रेम -49 ​​से 51 तक खिड़की से बना, सही? (विंडो 1 फ्रेम द्वारा हर बार फिसल रही है) ...
स्पेसी

@pichenettes 6) अंत में, मुझे यह उल्लेख करना चाहिए कि इसका उपयोग 'अलार्म' के रूप में किया जाना है, ताकि यदि सिग्नल -1 या सिग्नल -2 मौजूद हों, तो मुझे रिंग करने के लिए अलार्म मिल जाए, लेकिन तब कुछ भी बंद नहीं होना चाहिए वहाँ कुछ भी नहीं है - इससे पहले कि यह भी कोशिश करने और वर्गीकृत करने के लिए शुरू करने के लिए कुछ सीमा नहीं होनी चाहिए ताकि आपको कुछ भी नहीं पर झूठी सकारात्मक न मिले? (उदाहरण के लिए सिर्फ पृष्ठभूमि शोर)। (मैं अभी Naive Bayes Classifier के बारे में सीख रहा हूं, इसलिए यह न जानें कि क्या इसका बहु-वर्ग है)। 7) अग्रिम में रास्ता और धन्यवाद से बहुत कम! एक हजार और आप के लिए एक UPVOTES! :-)
स्पेसी

1
1 / YIN भाषण और संगीत संकेतों के लिए एक क्लासिक पिच डिटेक्शन एल्गोरिदम है। recherche.ircam.fr/equipes/pcm/cheveign/pss/2002_JASA_YIN.pdf । DMF "अंतर परिमाण फ़ंक्शन" है, पिच आकलन के लिए यिन जैसे एल्गोरिदम द्वारा गणना की गई मात्रा। 2 / YIN की तरह एक पिच का पता लगाने वाला एल्गोरिथ्म मौलिक आवृत्ति के अनुमान का उत्पादन करेगा, और एक "आत्मविश्वास स्कोर" यह दर्शाता है कि यह संभावना है कि रिटर्न की गई पिच सही उत्तर है। शोर संकेतों या संकेतों पर कई पिचों का प्रदर्शन, यह कम होगा, शुद्ध साइन लहर पर यह बहुत अधिक होगा।
pichenettes

3

एक वैकल्पिक दृष्टिकोण चार हेटेरोडाइन डिटेक्टर हो सकता है: 4 आवृत्तियों के स्थानीय ऑसिलेटर के साथ इनपुट सिग्नल को गुणा करें और परिणामस्वरूप आउटपुट को कम पास फ़िल्टर करें। प्रत्येक आउटपुट आपके चित्र में एक ऊर्ध्वाधर रेखा का प्रतिनिधित्व करता है। आप समय के एक समारोह के रूप में 4 आवृत्तियों में से प्रत्येक में आउटपुट प्राप्त करते हैं। कम पास फिल्टर के साथ आप डायल कर सकते हैं कि आप कितनी आवृत्ति विचलन के लिए अनुमति देना चाहते हैं और यह भी कि आप कितनी तेजी से आउटपुट को बदलना चाहते हैं, यानी किनारों को कितना तेज है।

यह तब भी अच्छी तरह से काम करेगा जब सिग्नल काफी शोर हो।


मैं इस पद्धति के बारे में सोच रहा था - क्या आप इस विधि के किसी भी फायदे (नीचे और एलपीएफिंग को मिलाकर) को पास से गुजरने में सीधे काम कर रहे हैं।
अन्तरिक्ष
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.