यह निर्धारित करना कि मानव भाषण के समान ऑडियो कैसा है


12

इस समस्या के उत्तर की तलाश करते हुए, मैंने पाया कि यह बोर्ड स्टैक ओवरफ्लो से मेरा इस प्रश्न को पार करने का फैसला करता है ।


मैं एक ऑडियो सेगमेंट और एक मानवीय आवाज के बीच समानता का निर्धारण करने की एक विधि खोज रहा हूं, जो संख्यात्मक रूप से व्यक्त की जाती है।

मैंने काफी खोज की है, लेकिन मैंने अब तक जो भी पाया है (नीचे विस्तृत रूप से) वह वास्तव में फिट नहीं है जिसकी मुझे आवश्यकता है:

  • एक विधि एक ऑडियो सेगमेंट से शब्द प्राप्त करने के लिए स्पीच रिकग्निशन सॉफ़्टवेयर का उपयोग करना है। हालाँकि, यह विधि इस तरह नहीं आ पा रही है कि मानव भाषण में "समान" ऑडियो कैसा है; यह अक्सर यह बता सकता है कि ऑडियो में शब्द हैं या नहीं, लेकिन अगर कोई निश्चित शब्द नहीं हैं, तो यह नहीं बता सकता है कि ऑडियो ऐसे शब्द है।
    उदाहरण: सीएमयू स्फिंक्स , ड्रैगनफ़्लू , शूट

  • अधिक आशाजनक विधि को वॉइस एक्टिविटी डिटेक्शन (VAD) कहा जाता है । हालाँकि, इसमें समान समस्याएं हैं: VAD का उपयोग करने वाले एल्गोरिदम / कार्यक्रम केवल वापस लौटते हैं या नहीं कि गतिविधि थ्रेशोल्ड तक पहुँच गई है या नहीं और इस तरह के थ्रेशोल्ड के पहले या बाद में कोई "समानता" मूल्य नहीं है। वैकल्पिक रूप से, कई लोग केवल मात्रा की तलाश करते हैं, मानव भाषण की समानता नहीं।
    उदाहरण: Speex , श्रोता , FreeSWITCH


कोई विचार?


1
आपके प्रश्न से यह स्पष्ट नहीं है कि क्या आपको समस्या है / A ऑडियो रिकॉर्डिंग ले और कहे कि इसमें मानवीय भाषण है या नहीं (अनुप्रयोग का उदाहरण: एक रेडियो शो की रिकॉर्डिंग से डीजे टॉक का पता लगाएं और हटाएं); या बी / भाषण इनपुट लेते हैं और कहते हैं कि यह संदर्भ ऑडियो सेगमेंट के लिए कैसा लगता है। यदि यह B है, तो आप किस मापदंड पर समानता को मापना चाहते हैं। माधुर्य समोच्च पर? (उदाहरण: एक गीत के लिए एक आवाज गाया)। लय और क्लस्टर कक्षाओं पर? (जैसे: एक ड्रम लूप से बीटबॉक्सिंग / ओनोमेटोपोइया का मिलान)। समय पर? (साउंड इफेक्ट के लिए एक आवाज का मिलान)। कृपया हमें अपना आवेदन बताएं।
पिंचनेट्स

क्षमा करें, मेरी समस्या वह है जो आप ए में विस्तृत हैं। मैं यह निर्धारित करना चाहता हूं कि एक ऑडियो खंड मानव भाषण है या नहीं।
जेफ गोर्टमेकर

1
मैं एक संबंधित समस्या पर काम कर रहा हूं - यह निर्धारित करने की कोशिश कर रहा है कि भाषण या संगीत द्वारा खर्राटों / श्वास की आवाज़ "प्रदूषित" हो गई है। किसी भी विश्वसनीयता के साथ करना मुश्किल है, और "उन्नत" भाषण मान्यता एल्गोरिदम का सहारा लिए बिना (यदि वे, वास्तव में, यहां तक ​​कि काम भी करेंगे)। मेरा एक अवलोकन यह होगा कि भाषण में अनियमित लय होती है, जबकि संगीत नियमित रूप से होता है। वह और शायद "वर्णक्रमीय सपाटता" में जाँच के लायक है (मैं अभी भी अपने उद्देश्यों के लिए इसकी खूबियों का मूल्यांकन कर रहा हूँ)।
डेनियल आर हिक्स

(एक बाल अधिक विस्तार से: मुझे लगता है कि ऑडियो के FFT से गणना की गई वर्णक्रमीय सपाटता का सामान्यीकृत मानक विचलन कुछ ऑडियो गुणवत्ता को प्रतिबिंबित करता है।)
डैनियल आर हिक्स

जवाबों:


6

मशीन सीखने की तकनीक का उपयोग करके इस तरह की समस्या को आमतौर पर हल किया जाता है।

20ms या 50ms फ़्रेम के अनुक्रम में सिग्नल को तोड़ दें। प्रत्येक फ्रेम पर सुविधाएँ निकालें। एमएफसीसी आम तौर पर इस तरह के अनुप्रयोग के लिए अच्छे होते हैं, हालांकि इसमें वॉयस डिटेक्शन (4 हर्ट्ज मॉड्यूलेशन एनर्जी - जो मोटे तौर पर वह दर होती है, जिस पर लोग बोलते हैं; शून्य-क्रॉसिंग दर) के लिए और अधिक विशिष्ट हैं।

फिर, ऑडियो के एक प्रशिक्षण सेट का उपयोग करते हुए आपको मैन्युअल रूप से भाषण / भाषण नहीं होने के रूप में लेबल किया जाता है, फ़्रेम सुविधाओं पर एक क्लासिफायरियर (गाऊसी मिश्रण मॉडल, एसवीएम ...) को प्रशिक्षित करें।

यह आपको भाषण / गैर-भाषण कक्षाओं में बिना फ़्रेम वाले फ़्रेमों को वर्गीकृत करने की अनुमति देगा। अंतिम चरण में निर्णयों को सुचारू करना शामिल है (एक फ्रेम जिसे गैर-भाषण के रूप में वर्गीकृत किया गया है, सैकड़ों वाक् फ्रेम से घिरा हुआ है, वर्गीकरण त्रुटि होने की संभावना है), उदाहरण के लिए एचएमएम या सिर्फ एक मध्य फ़िल्टर का उपयोग करना।

कुछ संदर्भ:

ऑडियो दस्तावेज़ों में जोरदार भाषण / संगीत वर्गीकरण ( मल्टीमीडिया अनुप्रयोगों के लिए भाषण / संगीत ) भाषण / संगीत भेदभाव (एल-मालेह और अल) भाषण / संगीत भेदभाव (केरी और अल) के लिए सुविधाओं की तुलना

ध्यान दें कि वे जिन विशेषताओं और वर्गीकरण तकनीकों का वर्णन करते हैं, वे भाषण का पता लगाने की 1-वर्ग की समस्या (भाषण के बदले भेदभाव बनाम कुछ और) के लिए भी प्रासंगिक हैं। इस मामले में, आप 1-श्रेणी की मॉडलिंग तकनीकों का उपयोग कर सकते हैं, जैसे 1-वर्ग एसवीएम, या "स्पीचनेस" माप के रूप में भाषण डेटा पर प्रशिक्षित जीएमएम से संभावना स्कोर प्राप्त करें।

यदि, दूसरी ओर, आपकी समस्या वास्तव में भेदभावपूर्ण भाषण बनाम कुछ और है (संगीत कहें), तो आप भी बहुत अच्छी तरह से अनपेक्षित दृष्टिकोण का उपयोग कर सकते हैं, जो समान ऑडियो सामग्री के बीच सीमाओं का पता लगाने पर केंद्रित हैं - बजाय इस सामग्री को पहचानने के।


धन्यवाद, यह एक टन में मदद करता है! छोटी खिड़कियों में सिग्नल टूटने से क्या लाभ है? क्योंकि मैं जिस आउटपुट की तलाश कर रहा हूं वह एक संख्यात्मक मान है जो पूरे ऑडियो सेगमेंट का वर्णन करता है, क्या पूरे सिग्नल के लिए सुविधाओं को निकालना बेहतर होगा और न केवल विशिष्ट विंडोज़?
जेफ गोर्टमेकर

बहुत लंबी खिड़कियों पर सुविधाओं (विशेष रूप से वर्णक्रमीय या सेफस्ट्राल वाले) को कम्प्यूट करना भाषण को बाहर करने वाले कुछ गुणों को औसत या रद्द कर देगा। आप भाषण के कई छोटे टुकड़ों को एक साथ मिलाकर खुद को सत्यापित कर सकते हैं - परिणाम को भाषण के रूप में पहचानना कठिन होगा। इस प्रकार छोटे खंडों पर वर्गीकरण करना बेहतर है; और, आपके मामले में, अंकों को एकत्रित करें (उदाहरण के लिए जीएमएम द्वारा दिए गए संभावना स्कोर के औसत की गणना करें; या बाइनरी क्लासिफायर द्वारा भाषण के रूप में वर्गीकृत फ्रेम के% की गणना करें)।
pichenettes

अधिक सटीक होने के लिए, ध्यान रखें कि जब आप किसी स्पेक्ट्रम को देखते हैं तो अस्थायी आयाम "ढह" जाता है। उदाहरण के लिए, एक 1 हर्ट्ज टोन के समय में 500 हर्ट्ज टोन का पावर स्पेक्ट्रम एक साथ खेले जाने वाले दो टोन के पावर स्पेक्ट्रम के समान है; इतनी शक्ति स्पेक्ट्रम, एक लंबी खिड़की पर, एक संकेत है कि बहुत कुछ बदल जाता है संकेत की सामग्री के बहुत प्रतिनिधि नहीं लग सकता है।
विचित्र
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.