प्रश्न का संक्षिप्त संस्करण: मैं एक भाषण मान्यता सॉफ्टवेयर की तलाश कर रहा हूं जो लिनक्स पर चलता है और इसमें सभ्य सटीकता और प्रयोज्य है। कोई भी लाइसेंस और कीमत ठीक है। यह वॉयस कमांड तक ही सीमित नहीं होना चाहिए, क्योंकि मैं टेक्स्ट को डिक्टेट करने में सक्षम होना चाहता हूं।
अधिक जानकारी:
मैंने असंतोषजनक रूप से निम्नलिखित की कोशिश की है:
- CMU स्फिंक्स
- CVoiceControl
- कान
- जूलियस
- Kaldi (जैसे, Kaldi GStreamer सर्वर )
- IBM ViaVoice (लिनक्स पर चलने के लिए इस्तेमाल किया गया था लेकिन सालों पहले बंद कर दिया गया था)
- NICO ANN टूलकिट
- OpenMindSpeech
- RWTH ASR
- चिल्लाना
- सिल्वियस ( कलड़ी भाषण मान्यता टूलकिट पर निर्मित)
- साइमन सुनता है
- ViaVoice / Xvoice
- शराब + ड्रैगन NaturallySpeaking + NatLink + ड्रैगनफ्लाई + damselfly
- https://github.com/DragonComputer/Dragonfire : केवल वॉइस कमांड को स्वीकार करता है
सभी उपर्युक्त देशी लिनक्स समाधानों में खराब सटीकता और उपयोगिता दोनों हैं (या कुछ मुफ्त-पाठ श्रुतलेख की अनुमति नहीं देते हैं लेकिन केवल आवाज आदेश हैं)। खराब सटीकता से, मेरा मतलब है एक भाषण पहचान सॉफ़्टवेयर के नीचे एक सटीकता जो मैंने अन्य प्लेटफार्मों के लिए नीचे उल्लेख किया है। जैसा कि वाइन + ड्रैगन नेचुरलीस्पीकिंग के लिए, मेरे अनुभव में यह दुर्घटनाग्रस्त रहता है, और दुर्भाग्यवश मुझे इस तरह के मुद्दे नहीं आते हैं।
Microsoft विंडोज पर मैं ड्रैगन नैचुरलीस्पीकिंग का उपयोग करता हूं, एप्पल मैक ओएस इलेवन पर एप्पल डिक्टेशन और ड्रैगनडिक्टेट का उपयोग करता हूं, एंड्रॉइड पर मैं Google भाषण मान्यता का उपयोग करता हूं, और आईओएस पर मैं बिल्ट-इन एप्पल भाषण मान्यता का उपयोग करता हूं।
Baidu अनुसंधान जारी की कल कोड का उपयोग कर अपने भाषण मान्यता पुस्तकालय के लिए Connectionist टेम्पोरल वर्गीकरण मशाल के साथ लागू किया। नीचे दिए गए स्क्रीनशॉट में दिखाए गए अनुसार Gigaom के बेंचमार्क उत्साहवर्धक हैं, लेकिन मुझे कुछ अच्छे कोडर के बारे में पता नहीं है, जो इसे कुछ कोडिंग (और एक बड़े प्रशिक्षण डेटा सेट) के बिना उपयोग करने योग्य बनाते हैं:
कुछ बहुत ही अल्फा ओपन-सोर्स प्रोजेक्ट मौजूद हैं:
- https://github.com/mozilla/DeepSpeech (मोज़िला की वाणी परियोजना का हिस्सा: http://vaani.io ( दर्पण ))
- https://github.com/pannous/tensorflow-speech-recognition
- वोक्स, ड्रैगन नेचुरलीस्पीकिंग का उपयोग करके लिनक्स सिस्टम को नियंत्रित करने के लिए एक प्रणाली: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vit_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (Google द्वारा जारी किया जाने वाला, Interspeech 2018 में उल्लेख किया गया है)
मैं भाषण की मान्यता पर कला के ट्रैकिंग राज्यों और हाल के परिणामों (ग्रंथ सूची) के इस प्रयास से भी अवगत हूं । मौजूदा भाषण मान्यता एपीआई के इस बेंचमार्क के साथ-साथ ।
मैं एनीया से अवगत हूं , जो एक कंप्यूटर पर ड्रैगनफ्लाई के माध्यम से भाषण मान्यता को दूसरे को घटनाओं को भेजने की अनुमति देता है, लेकिन इसकी कुछ विलंब लागत है:
मैं वाक् पहचान के लिए लिनक्स विकल्प तलाशने वाली इन दो वार्ताओं से भी अवगत हूँ:
- २०१६ - ग्यारहवीं आशा: ओपन सोर्स स्पीच रिकग्निशन (डेविड विलियम्स-किंग) के साथ आवाज द्वारा कोडिंग
- 2014 - पायकोन: पायथन टू कोड टू वॉयस (तवीस रुड) का उपयोग करना