वॉयस एक्टिविटी डिटेक्शन के लिए लाइब्रेरी (भाषण मान्यता नहीं)


18

जैसा कि मेरे पिछले प्रश्न का पालन कर रहा था, मैं सोच रहा था कि क्या अस्तित्व में कोई भाषण पहचान पुस्तकालय हैं। भाषण का पता लगाने से मेरा मतलब है कि एक ऑडियो बफर में पास होना और जहां भाषण शुरू होता है और रुक जाता है, उसका एक सूचकांक वापस प्राप्त करना। इसलिए यदि मेरे पास 44kHz पर 10 सेकंड के ऑडियो सैंपलिंग हैं, तो मुझे संख्याओं की एक श्रेणी की उम्मीद होगी:

44000
88000
123000
190334
...

यह उदाहरण के लिए इंगित करेगा कि भाषण एक सेकंड में शुरू होता है और फिर दो दूसरे बिंदु पर समाप्त होता है, आदि।

मैं जो नहीं खोज रहा हूं वह भाषण मान्यता है जो बोले गए शब्द से पाठ लिखता है। यह दुर्भाग्य है कि जब मैं 'भाषण का पता लगाता हूँ' तो मुझे बहुत कुछ दिखाई देता है।

यह बहुत अच्छा होगा यदि लाइब्रेरी सी, सी ++ या यहां तक ​​कि ऑब्जेक्टिव-सी के रूप में हो, क्योंकि मैं आईफोन के लिए एक ऐप लिख रहा हूं।

धन्यवाद!


1
आप इनमें से किसी एक उत्तर में अपना उत्तर पा सकते हैं: dsp.stackexchange.com/questions/912/…
गीर्टेन

1
यह बहुत समान है, केवल भाषण के बजाय गायन को छोड़कर: dsp.stackexchange.com/q/2367/29
endolith

1
प्रासंगिक: dsp.stackexchange.com/a/1543/29 "वॉयस एक्टिविटी डिटेक्शन"
एंडोलिथ

1
आपको शुरुआत / ऑफसेट का पता लगाना चाहिए। यह संगीत, भाषण और रडार सिग्नल प्रोसेसिंग में कई अनुप्रयोगों के साथ एक सक्रिय क्षेत्र है।
साइबरमेन

जवाबों:


13

मेरे में जवाब आपके इस प्रश्न का, मैंने कहा था कि आवाज गतिविधि का पता लगाने G.729 और इस तरह दूसरों की तरह कोडेक के लिए एक मानक सुविधा है।

आपको इसे लागू करने वाले एल्गोरिदम के लिए संदर्भ एनकोडर और डिकोडर की तलाश करनी चाहिए।

ऐसा ही एक उदाहरण है - http://www.voiceage.com/openinit_g729.php

एक अन्य संभावित स्रोत Speex कोडेक है। कौन सा VAD लागू करता है

BTW: आपको "स्पीच डिटेक्शन" के बजाय "वॉयस एक्टिविटी डिटेक्शन" या "टॉक स्पर्ट" गूगल करना चाहिए।


6

स्फिंक्स और फ्रिस्विच परियोजनाओं में खुले स्रोत कार्यान्वयन हैं। मुझे लगता है कि वे सभी ऊर्जा आधारित डिटेक्टर हैं जिन्हें किसी भी प्रकार के मॉडल की आवश्यकता नहीं होगी।

स्फिंक्स 4 (जावा लेकिन इसे C / C ++ में पोर्ट करना आसान होना चाहिए)

PocketSphinx

Freeswitch

Stackoverflow प्रश्न से लिया गया उत्तर ।


4

एडेप्टिव थ्रेशोल्ड का उपयोग करके वॉयस एक्टिविटी डिटेक्शन किसी भी प्लेटफॉर्म पर लागू करना बहुत आसान और आसान है

यहां आपके पास एक एल्गोरिथ्म हो सकता है जो अनुकूली ऊर्जा आधारित है

जब आप पहली बार गणना कर रहे हैं, तो उपरोक्त एल्गोरिथ्म के लिए छोटा सा अतिरिक्त ऊर्जा का साधन लेने के लिए जाएं और एमिन के रूप में चिह्नित करें

इसमें आप जो फ्रेम पास करते हैं वह सब-फ्रेम में विभाजित होता है और आगे आप इसकी गतिविधि के लिए प्रत्येक उप-फ्रेम की जांच कर सकते हैं

आप अतिव्यापी फ्रेम के साथ आगे की समस्याओं को दूर कर सकते हैं


मैं कागज में विधि को लागू करने की कोशिश कर रहा हूं, लेकिन शोर के दमन के कारण Min_E शून्य होने पर खो जाता है। उस स्थिति में, थ्रेश_ई समीकरण से -INF होगा। यहां तक ​​कि log1p (Min_E) लेते हुए, Thresh_E शून्य होगा जैसे कि शून्य-शून्य ऊर्जा के कारण आवाज वाले फ्रेम को मिसकॉल करना बहुत आसान है। कोई अच्छा सुझाव या क्या मैं इसे गलत समझ रहा हूं? समीकरण: थ्रेस _ ई एनर्जी _ पीआर इम्थरेश * लॉग (मिन _ ई)
फार्ले

3

कैसे LibVAD के बारे में?

ऐसा लगता है कि वास्तव में आप क्या वर्णन कर रहे हैं।

प्रकटीकरण: मैं LibVAD के पीछे डेवलपर हूं


कैसे एक libVAD मिलता है?
टोड

इसे खरीद कर। हालांकि, एक फॉर्म भरने के बाद वेबसाइट तब तक कीमत का खुलासा नहीं करती है।
केमिली गौडेय्यून

2
लिंक अब एक मालवेयर साइट पर जाता है जो आगंतुकों को फ्लैश अपडेट करना चाहता है।
स्टीव सेवरेंस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.