जैसा कि मेरे पिछले प्रश्न का पालन कर रहा था, मैं सोच रहा था कि क्या अस्तित्व में कोई भाषण पहचान पुस्तकालय हैं। भाषण का पता लगाने से मेरा मतलब है कि एक ऑडियो बफर में पास होना और जहां भाषण शुरू होता है और रुक जाता है, उसका एक सूचकांक वापस प्राप्त करना। इसलिए यदि मेरे पास 44kHz पर 10 सेकंड के ऑडियो सैंपलिंग हैं, तो मुझे संख्याओं की एक श्रेणी की उम्मीद होगी:
44000
88000
123000
190334
...
यह उदाहरण के लिए इंगित करेगा कि भाषण एक सेकंड में शुरू होता है और फिर दो दूसरे बिंदु पर समाप्त होता है, आदि।
मैं जो नहीं खोज रहा हूं वह भाषण मान्यता है जो बोले गए शब्द से पाठ लिखता है। यह दुर्भाग्य है कि जब मैं 'भाषण का पता लगाता हूँ' तो मुझे बहुत कुछ दिखाई देता है।
यह बहुत अच्छा होगा यदि लाइब्रेरी सी, सी ++ या यहां तक कि ऑब्जेक्टिव-सी के रूप में हो, क्योंकि मैं आईफोन के लिए एक ऐप लिख रहा हूं।
धन्यवाद!