मेरे एक सप्ताहांत प्रोजेक्ट ने मुझे सिग्नल प्रोसेसिंग के गहरे पानी में ला दिया है। जैसा कि मेरे सभी कोड प्रोजेक्ट्स के लिए कुछ भारी-शुल्क गणित की आवश्यकता होती है, मैं सैद्धांतिक ग्राउंडिंग की कमी के बावजूद समाधान के लिए अपने तरीके से छेड़छाड़ करने से अधिक खुश हूं, लेकिन इस मामले में मेरे पास कोई नहीं है, और मेरी समस्या पर कुछ सलाह पसंद करेंगे , अर्थात्: मैं यह जानने की कोशिश कर रहा हूं कि टीवी शो के दौरान लाइव ऑडियंस कैसे हंसती है।
मैंने हँसी का पता लगाने के लिए मशीन सीखने के दृष्टिकोण पर पढ़ने में काफी समय बिताया, लेकिन महसूस किया कि व्यक्तिगत हँसी का पता लगाने के लिए अधिक करना है। एक साथ हँसने वाले दो सौ लोगों के पास बहुत अलग ध्वन्यात्मक गुण होंगे, और मेरी अंतर्ज्ञान यह है कि उन्हें तंत्रिका नेटवर्क की तुलना में बहुत क्रूड तकनीकों के माध्यम से अलग-अलग होना चाहिए। मैं पूरी तरह से गलत हो सकता है, हालांकि! मामले पर विचारों की सराहना करेंगे।
यहाँ मैंने अब तक क्या कोशिश की है: मैंने शनिवार की रात के हाल के एपिसोड से पांच सेकंड के अंश को दो दूसरी क्लिप में काट दिया। मैंने फिर इन "लफ़्ज़ों" या "नो-लफ़्स" को लेबल किया। लिब्रोसा के एमएफसीसी फ़ीचर एक्सट्रक्टर का उपयोग करते हुए, मैंने तब डेटा पर एक के-मीन्स क्लस्टरिंग को चलाया, और अच्छे परिणाम मिले - दो क्लस्टर्स ने मेरे लेबल पर बहुत करीने से मैप किया। लेकिन जब मैंने लंबे फ़ाइल के माध्यम से पुनरावृति करने की कोशिश की तो भविष्यवाणियों ने पानी नहीं रखा।
मैं अब क्या करने जा रहा हूं: मैं इन हंसी क्लिपों को बनाने के बारे में अधिक सटीक होने जा रहा हूं। एक अंधा विभाजन और क्रमबद्ध करने के बजाय, मैं उन्हें मैन्युअल रूप से निकालने जा रहा हूं, ताकि कोई भी संवाद सिग्नल को प्रदूषित नहीं कर रहा है। फिर मैं उन्हें दूसरी तिमाही में विभाजित करूँगा, इनमें से MFCC की गणना करूँगा और एक SVM को प्रशिक्षित करने के लिए उनका उपयोग करूँगा।
इस बिंदु पर मेरे प्रश्न:
क्या इसका कोई मतलब है?
क्या आंकड़े यहां मदद कर सकते हैं? मैं ऑडेसिटी के स्पेक्ट्रोग्राम व्यू मोड में चारों ओर स्क्रॉल कर रहा हूं और मैं बहुत स्पष्ट रूप से देख सकता हूं जहां हंसी आती है। एक लॉग पावर स्पेक्ट्रोग्राम में, भाषण में एक बहुत विशिष्ट, "फ्रॉरोइड" उपस्थिति है। इसके विपरीत, हँसी आवृत्ति के एक व्यापक स्पेक्ट्रम को समान रूप से कवर करती है, लगभग एक सामान्य वितरण की तरह। तालियों में प्रतिनिधित्व की गई आवृत्तियों के अधिक सीमित सेट द्वारा हंसी से तालियों को अलग करना संभव है। यह मुझे मानक विचलन के बारे में सोचता है। मुझे लगता है कि कोलमोगोरोव-स्मिर्नोव परीक्षण नामक कुछ है, जो यहां सहायक हो सकता है? (आप ऊपर की छवि में हंसी को नारंगी की एक दीवार के रूप में देख सकते हैं जिस तरह से 45% अंदर है।)
रैखिक स्पेक्ट्रोग्राम यह दर्शाता है कि हँसी कम आवृत्तियों में अधिक ऊर्जावान होती है और उच्च आवृत्तियों की ओर बढ़ती है - इसका मतलब यह है कि यह गुलाबी शोर के रूप में योग्य है? यदि हां, तो क्या यह समस्या का एक पैर हो सकता है?
अगर मैंने किसी शब्दजाल का दुरुपयोग किया है तो मैं माफी मांगता हूं, मैं विकिपीडिया पर इस एक के लिए काफी कुछ कर रहा हूं और अगर मुझे कुछ गड़बड़ लगी तो आश्चर्य नहीं होगा।