हंसी ट्रैक में किक कब होती है?


14

मेरे एक सप्ताहांत प्रोजेक्ट ने मुझे सिग्नल प्रोसेसिंग के गहरे पानी में ला दिया है। जैसा कि मेरे सभी कोड प्रोजेक्ट्स के लिए कुछ भारी-शुल्क गणित की आवश्यकता होती है, मैं सैद्धांतिक ग्राउंडिंग की कमी के बावजूद समाधान के लिए अपने तरीके से छेड़छाड़ करने से अधिक खुश हूं, लेकिन इस मामले में मेरे पास कोई नहीं है, और मेरी समस्या पर कुछ सलाह पसंद करेंगे , अर्थात्: मैं यह जानने की कोशिश कर रहा हूं कि टीवी शो के दौरान लाइव ऑडियंस कैसे हंसती है।

मैंने हँसी का पता लगाने के लिए मशीन सीखने के दृष्टिकोण पर पढ़ने में काफी समय बिताया, लेकिन महसूस किया कि व्यक्तिगत हँसी का पता लगाने के लिए अधिक करना है। एक साथ हँसने वाले दो सौ लोगों के पास बहुत अलग ध्वन्यात्मक गुण होंगे, और मेरी अंतर्ज्ञान यह है कि उन्हें तंत्रिका नेटवर्क की तुलना में बहुत क्रूड तकनीकों के माध्यम से अलग-अलग होना चाहिए। मैं पूरी तरह से गलत हो सकता है, हालांकि! मामले पर विचारों की सराहना करेंगे।

यहाँ मैंने अब तक क्या कोशिश की है: मैंने शनिवार की रात के हाल के एपिसोड से पांच सेकंड के अंश को दो दूसरी क्लिप में काट दिया। मैंने फिर इन "लफ़्ज़ों" या "नो-लफ़्स" को लेबल किया। लिब्रोसा के एमएफसीसी फ़ीचर एक्सट्रक्टर का उपयोग करते हुए, मैंने तब डेटा पर एक के-मीन्स क्लस्टरिंग को चलाया, और अच्छे परिणाम मिले - दो क्लस्टर्स ने मेरे लेबल पर बहुत करीने से मैप किया। लेकिन जब मैंने लंबे फ़ाइल के माध्यम से पुनरावृति करने की कोशिश की तो भविष्यवाणियों ने पानी नहीं रखा।

मैं अब क्या करने जा रहा हूं: मैं इन हंसी क्लिपों को बनाने के बारे में अधिक सटीक होने जा रहा हूं। एक अंधा विभाजन और क्रमबद्ध करने के बजाय, मैं उन्हें मैन्युअल रूप से निकालने जा रहा हूं, ताकि कोई भी संवाद सिग्नल को प्रदूषित नहीं कर रहा है। फिर मैं उन्हें दूसरी तिमाही में विभाजित करूँगा, इनमें से MFCC की गणना करूँगा और एक SVM को प्रशिक्षित करने के लिए उनका उपयोग करूँगा।

इस बिंदु पर मेरे प्रश्न:

  1. क्या इसका कोई मतलब है?

  2. क्या आंकड़े यहां मदद कर सकते हैं? मैं ऑडेसिटी के स्पेक्ट्रोग्राम व्यू मोड में चारों ओर स्क्रॉल कर रहा हूं और मैं बहुत स्पष्ट रूप से देख सकता हूं जहां हंसी आती है। एक लॉग पावर स्पेक्ट्रोग्राम में, भाषण में एक बहुत विशिष्ट, "फ्रॉरोइड" उपस्थिति है। इसके विपरीत, हँसी आवृत्ति के एक व्यापक स्पेक्ट्रम को समान रूप से कवर करती है, लगभग एक सामान्य वितरण की तरह। तालियों में प्रतिनिधित्व की गई आवृत्तियों के अधिक सीमित सेट द्वारा हंसी से तालियों को अलग करना संभव है। यह मुझे मानक विचलन के बारे में सोचता है। मुझे लगता है कि कोलमोगोरोव-स्मिर्नोव परीक्षण नामक कुछ है, जो यहां सहायक हो सकता है? लॉग-पावर स्पेक्ट्रोग्राम (आप ऊपर की छवि में हंसी को नारंगी की एक दीवार के रूप में देख सकते हैं जिस तरह से 45% अंदर है।)

  3. रैखिक स्पेक्ट्रोग्राम यह दर्शाता है कि हँसी कम आवृत्तियों में अधिक ऊर्जावान होती है और उच्च आवृत्तियों की ओर बढ़ती है - इसका मतलब यह है कि यह गुलाबी शोर के रूप में योग्य है? यदि हां, तो क्या यह समस्या का एक पैर हो सकता है? spectrogram

अगर मैंने किसी शब्दजाल का दुरुपयोग किया है तो मैं माफी मांगता हूं, मैं विकिपीडिया पर इस एक के लिए काफी कुछ कर रहा हूं और अगर मुझे कुछ गड़बड़ लगी तो आश्चर्य नहीं होगा।


1
मैं सहमत हूं "हंसी की पटरियों के लिए एक ठोस डिटेक्टर प्राप्त करने के लिए एक तंत्रिका नेटवर्क की आवश्यकता नहीं होगी"। मैं आपको संकेत पर कोलमोगोरोव को फेंकने पर भी सहमत हूं, यह देखते हुए कि यदि आप सही हैं, और हंसी ट्रैक आईआईडी हंसी का (भारित) योग है, तो आपको किसी तरह की सामान्य विशेषताएं मिलनी चाहिए । शायद आप अभी भी आवृत्ति संकल्प को बढ़ाना चाहते हैं। वैसे, किसी के लिए जो "डीएसपी में नहीं" है, आपका शब्दजाल काफी ठीक है :) दुख की बात है कि, मैं ऑडियो आदमी नहीं हूं, इसलिए मैं शायद बहुत मददगार नहीं हूं।
मार्कस मुलर

मदद करके मुझे खुशी होगी। क्या आपके पास प्रशिक्षण के लिए कोई डेटा है? सबसे महत्वपूर्ण चीजों में से एक डेटा लेबलिंग है। कचरा अंदर कचरा बाहर। सबसे सरल और सबसे प्रभावी तरीकों में से एक बैग-ऑफ-फ्रेम जीएमएम को प्रशिक्षित करना और संभावना का मूल्यांकन करना होगा।
jojek

यदि आप दिए गए समय पर अपने सिग्नल की शक्ति / आयाम की जांच करके मौन से हंसी को अलग कर सकते हैं, तो आप पहले जांच करना चाहते हैं। आपको उन क्षणों को देने की संभावना है जहां "कुछ" हो रहा है। फिर आप आवृत्ति के वितरण को देखने की कोशिश कर सकते हैं। उदाहरण के लिए, भाषण में कुछ विशिष्ट तीखे शिखर हो सकते हैं (परवाह न करें कि ये चोटियाँ कहाँ हैं, बस वे मौजूद हैं), जबकि हँसी एक समान है जैसा कि आपने कहा। इस पर नज़र रखने से यह तय हो सकता है कि यह हँसी है। (आप मात्रा की जानकारी की जरूरत है, यह सुनिश्चित करने के लिए कि आपके पास सिर्फ एक समान चुप्पी नहीं है)
user6522399

जवाबों:


0

आपके अवलोकन के आधार पर, संकेत का स्पेक्ट्रम पर्याप्त रूप से अलग-अलग है, आप इसे भाषण से हँसी को वर्गीकृत करने के लिए एक सुविधा के रूप में उपयोग कर सकते हैं।

ऐसे कई तरीके हैं जिनसे आप समस्या को देख सकते हैं।

दृष्टिकोण # १

एक बार मामले में, आप केवल MFCC के वेक्टर को देख सकते हैं । और इसे किसी भी क्लासिफायरियर पर लागू करें। चूंकि आपके पास फ़्रीक्वेंसी डोमेन में कई सह-कुशल हैं, इसलिए आप एल्गोरिदम को बढ़ावा देने के साथ कैस्केड क्लासिफ़ायर संरचना को देखना चाहते हैं। क्लासिफ़ायर एडॉबॉस्ट इसके आधार पर आप भाषण वर्ग बनाम हंसी क्लास के बीच तुलना कर सकते हैं।

दृष्टिकोण # 2

आपको एहसास होता है कि आप भाषण अनिवार्य रूप से एक अलग संकेत है। तो यह करने के लिए प्रभावी तरीकों में से एक संकेत के समय भिन्नता को ही देखना है। इसके लिए, आप नमूनों के बैचों में संकेतों को विभाजित कर सकते हैं, और उस समय के लिए स्पेक्ट्रम को देख सकते हैं। अब, आप महसूस कर सकते हैं कि हंसी का एक निर्धारित अवधि के लिए अधिक दोहराव वाला पैटर्न हो सकता है जहां भाषण स्वाभाविक रूप से अधिक जानकारी रखता है और इसलिए स्पेक्ट्रम भिन्नता अधिक बड़ी होगी। आप इसे एचएमएम को लागू कर सकते हैं प्रकार के मॉडल पर देखने के लिए कि क्या आप लगातार कुछ आवृत्ति स्पेक्ट्रम के लिए उसी स्थिति में रहते हैं या आप लगातार बदलते रहते हैं। यहां, यहां तक ​​कि अगर कभी-कभी भाषण का स्पेक्ट्रम हंसी के समान होता है, तो इसे बदलने में अधिक समय लगेगा।

दृष्टिकोण # 3

सिग्नल पर एलपीसी / सीईएलपी प्रकार कोडिंग लागू करने के लिए बल और अवशेषों का निरीक्षण करें। CELP कोडिंग भाषण उत्पादन का बहुत सटीक मॉडल बनाता है।

यहाँ संदर्भ से: CELP CODING का सिद्धांत

भाषण संकेत में अतिरेक को अल्पकालिक भविष्यवाणी और भाषण संकेत की दीर्घकालिक भविष्यवाणी के बाद लगभग हटा दिया जाता है और अवशिष्ट में बहुत कम सहसंबंध होता है। फिर एक उत्तेजना की खोज की जाती है जो भाषण को संश्लेषित करती है और कोडबुक सूचकांक और लाभ को निश्चित कोडबुक से खोजा जाता है। इष्टतम कोडबुक इंडेक्स चयन मानदंड स्थानीय रूप से संश्लेषित भाषण और मूल भाषण सिग्नल के बीच एमएमएसई पर आधारित है।

इसे सीधे शब्दों में कहें, सभी भाषण के बाद जो विश्लेषक से भविष्यवाणी की जाती है, हटा दिया जाता है - जो बचा है वह अवशेष है जो सटीक तरंग को फिर से बनाने के लिए प्रेषित होता है।

यह आपकी समस्या के साथ कैसे मदद करता है? मूल रूप से, यदि आप CELP कोडिंग लागू करते हैं, तो संकेत में भाषण को ज्यादातर हटा दिया जाता है, जो अवशेष रहता है। हँसी के मामले में सिग्नल के बहुमत को बनाए रखा जा सकता है क्योंकि CELP मुखर ट्रैक्ट मॉडलिंग के साथ ऐसे सिग्नल की भविष्यवाणी करने में विफल हो जाएगा, जहां व्यक्तिगत भाषण में बहुत कम अवशेष होंगे। आप इस अवशेष का विश्लेषण फ़्रीक्वेंसी डोमेन में भी कर सकते हैं, यह देखने के लिए कि क्या यह हँसी या भाषण है।


0

अधिकांश भाषण पहचानकर्ता न केवल एमएफसीसी गुणांक का उपयोग करते हैं, बल्कि एमएफसीसी स्तरों के पहले और दूसरे डेरिवेटिव भी। मैं अनुमान लगा रहा हूं कि इस मामले में ऑनसेट बहुत उपयोगी होंगे और आपको एक हंस बनाम अन्य ध्वनियों को अलग करने में मदद करेंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.