क्या MFCC एक पुनर्प्राप्ति प्रणाली के लिए संगीत का प्रतिनिधित्व करने का इष्टतम तरीका है?


10

एक सिग्नल प्रोसेसिंग तकनीक, मेल फ़्रीक्वेंसी सेफस्ट्रम , का उपयोग अक्सर मशीन लर्निंग कार्य में उपयोग के लिए एक संगीत टुकड़े से जानकारी निकालने के लिए किया जाता है। यह विधि एक अल्पकालिक बिजली स्पेक्ट्रम देती है, और गुणांक इनपुट के रूप में उपयोग किया जाता है।

म्यूजिक रिट्रीवल सिस्टम डिजाइन करने में, इस तरह के गुणांक को एक टुकड़े की विशेषता माना जाता है (जाहिर है कि यह अद्वितीय नहीं है, लेकिन विशिष्ट है)। क्या ऐसी कोई विशेषताएँ हैं जो किसी नेटवर्क के साथ सीखने में बेहतर होंगी? क्या समय की भिन्न-भिन्न विशेषताएं, जैसे कि एल्मन नेटवर्क जैसी किसी चीज़ में उपयोग की जाने वाली टुकड़ा की बास प्रगति अधिक प्रभावी ढंग से काम करती है?

कौन सी विशेषताएँ एक व्यापक पर्याप्त सेट बनाती हैं, जिस पर वर्गीकरण हो सकता है?


क्या आप पुनर्प्राप्ति पर काम कर रहे हैं, जहां आप एक विशेष ऑडियो क्लिप के अद्वितीय गुणों की तलाश कर रहे हैं? या क्या आप समान संगीत की पहचान करना चाहते हैं?
एंड्रयू रोसेनबर्ग

@AndrewRosenberg इसी तरह के संगीत की पहचान की तर्ज पर।
जोंस्का

(वर्षों बाद), एमएफसीसी के साथ छेड़छाड़ करने के कई तरीके हैं; Kinunnen et al।, फ़्रीक्वेंसी वारपिंग और रोबस्ट स्पीकर वेरिफिकेशन: ए कम्पेरिसन ऑफ़ अल्टरनेटिव मेल-स्केल रिप्रेजेंटेशन २०१३, ५ पी, ६० गुणांक का उपयोग करें। और, अनुकूलन क्या? किस गैर-खुले डेटाबेस पर? तो मैं कहूंगा (गैर-विशेषज्ञ) कि सवाल जवाबदेह होने के लिए बहुत व्यापक है।
डेनिस

@denis जानकारी के लिए धन्यवाद। यह बदकिस्मत मशीन लर्निंग बीटा (पहली बार के आसपास) से आया था। मैं सराहना करता हूं कि यह थोड़ा अस्पष्ट है।
जोंसा

जवाबों:


8

हमने एक बिंदु पर इस पर थोड़ा काम किया। हमारे द्वारा निकाली गई सुविधाओं का सेट इस NIPS कार्यशाला के पेपर में दिया गया है । मुझे स्वीकार करना होगा कि हम इस क्षेत्र के कुछ अन्य लेखकों के परिणामों को दोहरा नहीं सकते हैं, हालाँकि इनमें इस्तेमाल किए गए डेटासेट के बारे में कुछ संदेह थे (ध्यान दें कि इस क्षेत्र में लेखकों द्वारा उपयोग किए जाने वाले डेटा हाथ से लिए जाते हैं और जारी नहीं किए जाते हैं जनता के लिए, कॉपीराइट कारणों से, हालांकि यह हमेशा मामला नहीं है)। मूलतः वे सभी अल्पकालिक वर्णक्रमीय विशेषताएं थींसाथ में फेंका गया ऑटोरेजियन गुणांक भी। हम शैली के वर्गीकरण को देख रहे थे, जिसे हम जानते हैं कि हम मनुष्यों द्वारा किया जा सकता है (हालांकि अद्भुत सटीकता के साथ नहीं, और लगातार समझौते के साथ नहीं ....) बहुत ही कम समय (<1s) में, जो अल्पकालिक विशेषताओं के उपयोग को मान्य करता है । यदि आप विशिष्ट शैली / कलाकार / एल्बम / निर्माता वर्गीकरण की तुलना में अधिक जटिल चीजें करने में रुचि रखते हैं, तो आपको अधिक लंबी दूरी की विशेषताओं की आवश्यकता हो सकती है, अन्यथा ये अल्पकालिक वर्णक्रमीय विशेषताएं सर्वश्रेष्ठ प्रदर्शन करती हैं।


एआर गुणांक में फेंकने का उद्देश्य क्या था?
जोंस्का

1
@ जोंस्का चूंकि हम बूस्टिंग विधियों का उपयोग कर रहे थे, जो कई "कमजोर" शिक्षार्थियों को जोड़कर काम करते हैं, हमने किसी भी ऐसे फीचर का उपयोग करने का फैसला किया, जिसे आसानी से गणना की जा सकती है जो कुछ लाभ प्रदान कर सकता है। इसके उपयोगी होने के लिए एक कमजोर शिक्षार्थी की आवश्यकता होती है, यह मौका स्तर से अधिक पर वर्गीकृत कर सकता है। एआर गुणांक वर्णक्रमीय लिफाफे के एक संपीड़न के बराबर है, जो उस खिड़की के भीतर संगीत की अल्पकालिक जानकारी जटिलता की कुछ धारणा देता है, हालांकि केवल बहुत ही शिथिल।
tdc

@dc, "डेटासेट को जनता के लिए जारी नहीं किया जाता है ...": क्या आप किसी भी मुफ्त ऑनलाइन डेटासेट के बारे में जानते हैं, जिसमें फोननेम लेबल हैं?
डेनिस

: केवल एक ही मैं के बारे में पता यह एक है @denis orange.biolab.si/datasets/phoneme.htm
टीडीसी

@tdc, धन्यवाद, लेकिन स्टेट्स ऑफ़ स्टेटमेंट लर्निंग के केवल 11 स्वर हैं, ~ 1000 x 11 विशेषताएँ (प्राचीन LPC)।
डेनिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.