वॉयस एक्टिविटी डिटेक्शन के लिए लाइब्रेरी (भाषण मान्यता नहीं)

18

जैसा कि मेरे पिछले प्रश्न का पालन कर रहा था, मैं सोच रहा था कि क्या अस्तित्व में कोई भाषण पहचान पुस्तकालय हैं। भाषण का पता लगाने से मेरा मतलब है कि एक ऑडियो बफर में पास होना और जहां भाषण शुरू होता है और रुक जाता है, उसका एक सूचकांक वापस प्राप्त करना। इसलिए यदि मेरे पास 44kHz पर 10 सेकंड के ऑडियो सैंपलिंग हैं, तो मुझे संख्याओं की एक श्रेणी की उम्मीद होगी:

यह उदाहरण के लिए इंगित करेगा कि भाषण एक सेकंड में शुरू होता है और फिर दो दूसरे बिंदु पर समाप्त होता है, आदि।

मैं जो नहीं खोज रहा हूं वह भाषण मान्यता है जो बोले गए शब्द से पाठ लिखता है। यह दुर्भाग्य है कि जब मैं 'भाषण का पता लगाता हूँ' तो मुझे बहुत कुछ दिखाई देता है।

यह बहुत अच्छा होगा यदि लाइब्रेरी सी, सी ++ या यहां तक कि ऑब्जेक्टिव-सी के रूप में हो, क्योंकि मैं आईफोन के लिए एक ऐप लिख रहा हूं।

धन्यवाद!

audio speech

— एरिक ब्रेटो
स्रोत

1

आप इनमें से किसी एक उत्तर में अपना उत्तर पा सकते हैं: dsp.stackexchange.com/questions/912/…

— गीर्टेन

1

यह बहुत समान है, केवल भाषण के बजाय गायन को छोड़कर: dsp.stackexchange.com/q/2367/29

— endolith

1

प्रासंगिक: dsp.stackexchange.com/a/1543/29 "वॉयस एक्टिविटी डिटेक्शन"

— एंडोलिथ

1

आपको शुरुआत / ऑफसेट का पता लगाना चाहिए। यह संगीत, भाषण और रडार सिग्नल प्रोसेसिंग में कई अनुप्रयोगों के साथ एक सक्रिय क्षेत्र है।

— साइबरमेन

13

मेरे में जवाब आपके इस प्रश्न का, मैंने कहा था कि आवाज गतिविधि का पता लगाने G.729 और इस तरह दूसरों की तरह कोडेक के लिए एक मानक सुविधा है।

आपको इसे लागू करने वाले एल्गोरिदम के लिए संदर्भ एनकोडर और डिकोडर की तलाश करनी चाहिए।

ऐसा ही एक उदाहरण है - http://www.voiceage.com/openinit_g729.php

एक अन्य संभावित स्रोत Speex कोडेक है। कौन सा VAD लागू करता है

BTW: आपको "स्पीच डिटेक्शन" के बजाय "वॉयस एक्टिविटी डिटेक्शन" या "टॉक स्पर्ट" गूगल करना चाहिए।

— दीपन मेहता
स्रोत

6

स्फिंक्स और फ्रिस्विच परियोजनाओं में खुले स्रोत कार्यान्वयन हैं। मुझे लगता है कि वे सभी ऊर्जा आधारित डिटेक्टर हैं जिन्हें किसी भी प्रकार के मॉडल की आवश्यकता नहीं होगी।

स्फिंक्स 4 (जावा लेकिन इसे C / C ++ में पोर्ट करना आसान होना चाहिए)

PocketSphinx

Freeswitch

Stackoverflow प्रश्न से लिया गया उत्तर ।

— Geerten
स्रोत

4

एडेप्टिव थ्रेशोल्ड का उपयोग करके वॉयस एक्टिविटी डिटेक्शन किसी भी प्लेटफॉर्म पर लागू करना बहुत आसान और आसान है

यहां आपके पास एक एल्गोरिथ्म हो सकता है जो अनुकूली ऊर्जा आधारित है

जब आप पहली बार गणना कर रहे हैं, तो उपरोक्त एल्गोरिथ्म के लिए छोटा सा अतिरिक्त ऊर्जा का साधन लेने के लिए जाएं और एमिन के रूप में चिह्नित करें

इसमें आप जो फ्रेम पास करते हैं वह सब-फ्रेम में विभाजित होता है और आगे आप इसकी गतिविधि के लिए प्रत्येक उप-फ्रेम की जांच कर सकते हैं

आप अतिव्यापी फ्रेम के साथ आगे की समस्याओं को दूर कर सकते हैं

— kakeh
स्रोत

मैं कागज में विधि को लागू करने की कोशिश कर रहा हूं, लेकिन शोर के दमन के कारण Min_E शून्य होने पर खो जाता है। उस स्थिति में, थ्रेश_ई समीकरण से -INF होगा। यहां तक कि log1p (Min_E) लेते हुए, Thresh_E शून्य होगा जैसे कि शून्य-शून्य ऊर्जा के कारण आवाज वाले फ्रेम को मिसकॉल करना बहुत आसान है। कोई अच्छा सुझाव या क्या मैं इसे गलत समझ रहा हूं? समीकरण: थ्रेस _ ई एनर्जी _ पीआर इम्थरेश * लॉग (मिन _ ई)

— फार्ले

3

कैसे LibVAD के बारे में?

ऐसा लगता है कि वास्तव में आप क्या वर्णन कर रहे हैं।

प्रकटीकरण: मैं LibVAD के पीछे डेवलपर हूं

— चार्ल्स
स्रोत

कैसे एक libVAD मिलता है?

— टोड

इसे खरीद कर। हालांकि, एक फॉर्म भरने के बाद वेबसाइट तब तक कीमत का खुलासा नहीं करती है।

— केमिली गौडेय्यून

2

लिंक अब एक मालवेयर साइट पर जाता है जो आगंतुकों को फ्लैश अपडेट करना चाहता है।

— स्टीव सेवरेंस