क्या लिनक्स के लिए कोई सभ्य भाषण मान्यता सॉफ्टवेयर है?

49

प्रश्न का संक्षिप्त संस्करण: मैं एक भाषण मान्यता सॉफ्टवेयर की तलाश कर रहा हूं जो लिनक्स पर चलता है और इसमें सभ्य सटीकता और प्रयोज्य है। कोई भी लाइसेंस और कीमत ठीक है। यह वॉयस कमांड तक ही सीमित नहीं होना चाहिए, क्योंकि मैं टेक्स्ट को डिक्टेट करने में सक्षम होना चाहता हूं।

अधिक जानकारी:

मैंने असंतोषजनक रूप से निम्नलिखित की कोशिश की है:

CMU स्फिंक्स
CVoiceControl
कान
जूलियस
Kaldi (जैसे, Kaldi GStreamer सर्वर )
IBM ViaVoice (लिनक्स पर चलने के लिए इस्तेमाल किया गया था लेकिन सालों पहले बंद कर दिया गया था)
NICO ANN टूलकिट
OpenMindSpeech
RWTH ASR
चिल्लाना
सिल्वियस ( कलड़ी भाषण मान्यता टूलकिट पर निर्मित)
साइमन सुनता है
ViaVoice / Xvoice
शराब + ड्रैगन NaturallySpeaking + NatLink + ड्रैगनफ्लाई + damselfly
https://github.com/DragonComputer/Dragonfire : केवल वॉइस कमांड को स्वीकार करता है

सभी उपर्युक्त देशी लिनक्स समाधानों में खराब सटीकता और उपयोगिता दोनों हैं (या कुछ मुफ्त-पाठ श्रुतलेख की अनुमति नहीं देते हैं लेकिन केवल आवाज आदेश हैं)। खराब सटीकता से, मेरा मतलब है एक भाषण पहचान सॉफ़्टवेयर के नीचे एक सटीकता जो मैंने अन्य प्लेटफार्मों के लिए नीचे उल्लेख किया है। जैसा कि वाइन + ड्रैगन नेचुरलीस्पीकिंग के लिए, मेरे अनुभव में यह दुर्घटनाग्रस्त रहता है, और दुर्भाग्यवश मुझे इस तरह के मुद्दे नहीं आते हैं।

Microsoft विंडोज पर मैं ड्रैगन नैचुरलीस्पीकिंग का उपयोग करता हूं, एप्पल मैक ओएस इलेवन पर एप्पल डिक्टेशन और ड्रैगनडिक्टेट का उपयोग करता हूं, एंड्रॉइड पर मैं Google भाषण मान्यता का उपयोग करता हूं, और आईओएस पर मैं बिल्ट-इन एप्पल भाषण मान्यता का उपयोग करता हूं।

Baidu अनुसंधान जारी की कल कोड का उपयोग कर अपने भाषण मान्यता पुस्तकालय के लिए Connectionist टेम्पोरल वर्गीकरण मशाल के साथ लागू किया। नीचे दिए गए स्क्रीनशॉट में दिखाए गए अनुसार Gigaom के बेंचमार्क उत्साहवर्धक हैं, लेकिन मुझे कुछ अच्छे कोडर के बारे में पता नहीं है, जो इसे कुछ कोडिंग (और एक बड़े प्रशिक्षण डेटा सेट) के बिना उपयोग करने योग्य बनाते हैं:

कुछ बहुत ही अल्फा ओपन-सोर्स प्रोजेक्ट मौजूद हैं:

https://github.com/mozilla/DeepSpeech (मोज़िला की वाणी परियोजना का हिस्सा: http://vaani.io ( दर्पण ))
https://github.com/pannous/tensorflow-speech-recognition
वोक्स, ड्रैगन नेचुरलीस्पीकिंग का उपयोग करके लिनक्स सिस्टम को नियंत्रित करने के लिए एक प्रणाली: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vit_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (Google द्वारा जारी किया जाने वाला, Interspeech 2018 में उल्लेख किया गया है)

मैं भाषण की मान्यता पर कला के ट्रैकिंग राज्यों और हाल के परिणामों (ग्रंथ सूची) के इस प्रयास से भी अवगत हूं । मौजूदा भाषण मान्यता एपीआई के इस बेंचमार्क के साथ-साथ ।

मैं एनीया से अवगत हूं , जो एक कंप्यूटर पर ड्रैगनफ्लाई के माध्यम से भाषण मान्यता को दूसरे को घटनाओं को भेजने की अनुमति देता है, लेकिन इसकी कुछ विलंब लागत है:

मैं वाक् पहचान के लिए लिनक्स विकल्प तलाशने वाली इन दो वार्ताओं से भी अवगत हूँ:

२०१६ - ग्यारहवीं आशा: ओपन सोर्स स्पीच रिकग्निशन (डेविड विलियम्स-किंग) के साथ आवाज द्वारा कोडिंग
2014 - पायकोन: पायथन टू कोड टू वॉयस (तवीस रुड) का उपयोग करना

software-rec speech-recognition

— फ्रेंक डर्नोनकोर्ट
स्रोत

2

"असंतोषजनक" जो आपने पाया, उसके बारे में कुछ विवरण आपके अन्यथा दिलचस्प लेकिन सामान्य पोस्टिंग विषय को आगे बढ़ा सकते हैं। उदाहरण के लिए: आपने विशेष रूप से "वाइन + ड्रैगन नेचुरलीस्पीकिंग" संयोजन के बारे में क्या असंतोषजनक पाया? (यह आपके विंडोज अनुभव को दोहराने में कैसे विफल रहा?)

— थियोफ्रेस्टस

1

@ Theophrastus मूल रूप से सभी देशी लिनक्स समाधानों में खराब सटीकता और प्रयोज्य दोनों हैं। खराब सटीकता से, मेरा मतलब एक सटीकता है जो एक भाषण मान्यता सॉफ्टवेयर के नीचे है जिसे मैंने अन्य प्लेटफार्मों के लिए उल्लेख किया है। जैसा कि वाइन + ड्रैगन नेचुरलस्पाइकिंग के लिए, मेरे अनुभव में यह दुर्घटनाग्रस्त रहता है, और मुझे दुर्भाग्य से इस तरह के मुद्दों के लिए केवल एक ही प्रतीत नहीं होता है ( appdb.winehq.org/… )

— फ्रेंक डर्नोनकोर्ट

1

: मैं इन की कोशिश की है नहीं है, लेकिन इस मामले में किसी को यह उपयोगी पाता github.com/Uberi/speech_recognition और jasperproject.github.io और github.com/benoitfragit/google2ubuntu

— हत्शेपसट

क्या इन सॉफ्टवेयरों में से एक है जिसमें कमांड-लाइन टूल है? वाक् पहचान को xpressool ( github.com/jordansissel/xdotool ) या xsendkey ( github.com/kyoto/sendkeys ) की तरह एक कीपर और मूसमव टूल से जोड़ना बहुत दिलचस्प होगा ।

— बैपटक्स

13

अभी मैं अपने Android स्मार्टफोन पर Google भाषण मान्यता के साथ संयोजन में KDE कनेक्ट का उपयोग कर रहा हूं।

केडीई कनेक्ट आपको अपने एंड्रॉइड डिवाइस को अपने लिनक्स कंप्यूटर के लिए इनपुट डिवाइस के रूप में उपयोग करने की अनुमति देता है (कुछ अन्य विशेषताएं भी हैं)। आपको अपने स्मार्टफोन / टैबलेट पर Google play store से KDE कनेक्ट ऐप इंस्टॉल करने और अपने लिनक्स कंप्यूटर पर kdeconnect और सूचक-kdeconnect दोनों को स्थापित करने की आवश्यकता है। उबंटू सिस्टम के लिए इंस्टॉल निम्नानुसार है:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

इस स्थापना का नकारात्मक पक्ष यह है कि यह केडीई संकुल का एक समूह स्थापित करता है जिसकी आपको केडीई डेस्कटॉप वातावरण का उपयोग नहीं करने की आवश्यकता नहीं है।

एक बार जब आप अपने एंड्रॉइड डिवाइस को अपने कंप्यूटर के साथ जोड़ देते हैं (उन्हें उसी नेटवर्क पर होना पड़ता है) तो आप एंड्रॉइड कीबोर्ड का उपयोग कर सकते हैं और फिर Google भाषण मान्यता का उपयोग करने के लिए माइक पर क्लिक / दबा सकते हैं। जैसा कि आप बात करते हैं, पाठ आपके लिनक्स कंप्यूटर पर सक्रिय है जहां कभी भी कर्सर दिखाई देना शुरू हो जाएगा।

परिणामों के लिए, वे मेरे लिए थोड़े मिश्रित हैं क्योंकि मैं वर्तमान में कुछ तकनीकी एस्ट्रोफिज़िक्स दस्तावेज़ लिख रहा हूं और Google भाषण मान्यता शब्दजाल से जूझ रही है जिसे आप आमतौर पर नहीं पढ़ते हैं। यह भी विस्मयादिबोधक या उचित पूंजीकरण के बारे में भूल जाओ।

— shockburner
स्रोत

4

अभी के लिए, लिनक्स में केवल वॉयस नोटबुक काम करता है।

— अलेक्सई
स्रोत

2

धन्यवाद, यह केवल क्रोम ब्राउज़र में काम करता है।

— फ्रेंक डेर्नोनकोर्ट

3

उपयोगी भाषण-से-पाठ (डिक्टेशन) कार्यक्रम के लिए खोज करने वाले एक और लिनक्स के रूप में, मैंने स्पीचपैड पर ध्यान दिया।

यह मेरी मातृभाषा को अच्छी तरह से पहचानता है
यह तेजी से और बहुत विश्वसनीय काम करता है

downsides:

बेशक यह Google का स्वामित्व और बंद सॉफ़्टवेयर है
Google सेवा आपके द्वारा बोले जाने वाले प्रत्येक शब्द को सुनेगी, संसाधित करेगी और माना जाएगा
ऑडियो और टेक्स्ट को संसाधित किया जाएगा और स्पष्ट रूप से Google द्वारा संग्रहीत किया जाएगा
speechpad.pw को मासिक / चतुर्थांश / वार्षिक सदस्यता शुल्क की आवश्यकता होती है
speechpad.pw केवल Google Chrome ब्राउज़र के लिए एक ऐडऑन के रूप में चलता है - कोई अन्य ब्राउज़र नहीं

तो, speechpad.pw बहुत मालिकाना है और यह भी बंद स्रोत है और Google से भी जुड़ा हुआ है जिसे हम सभी एक नींद-रहित मेटा डेटा, व्यक्तिगत जानकारी और व्यक्तिगत सामग्री कलेक्टर के रूप में जानते हैं।

ये डाउनसाइड इसे मेरे लिए एक नो-गो एप्लिकेशन बनाते हैं, हालांकि स्पीच रिकग्निशन खुद बहुत अच्छी तरह से काम करता है - मैंने अब तक जो कुछ भी देखा है उससे बहुत बेहतर।

— बहुत
स्रोत

धन्यवाद, हां महत्वपूर्ण डाउनसाइड्स, विशेष रूप से यह केवल क्रोम ब्राउज़र में काम करता है।

— फ्रेंक डर्नोनकोर्ट

1

आप क्रोम पर Google डॉक्स का उपयोग कर सकते हैं और उनके "टूल्स" »" आवाज़ टाइपिंग ... "विकल्प का उपयोग कर सकते हैं। शायद एक ही भाषण मान्यता सॉफ्टवेयर, लेकिन यह मुफ़्त है। फिर अपने डॉक से परिणाम को कॉपी पेस्ट करें जहाँ भी आपको पाठ की आवश्यकता हो।

— एलेक्सिस विल्के

2

Chrome ऐप "VoiceNote II" ( http://voicenote.in/ ) मेरे Xubuntu 16.04 मशीन पर बहुत अच्छा काम कर रहा है। कोई आवाज-प्रशिक्षण की आवश्यकता नहीं थी, और सेट-अप सरल था। इसे खोजने के लिए एक खोज, इंस्टॉल करने के लिए एक क्लिक, शॉर्टकट बनाने के लिए एक क्लिक और डेस्कटॉप इसे बांधता है।

— इंडी टेक फिक्स
स्रोत

धन्यवाद, केवल Google Chrome में ही काम करता है

— फ्रेंक डर्नोनकोर्ट

0

मैं आपके फोन या टैबलेट पर ड्रैगन का उपयोग करने का सुझाव दूंगा, फिर अपने आप को टेक्स्ट ईमेल करूंगा। इसका ड्रैग लेकिन यह काम करता है और बहुत सटीक है। यदि आप इसके लिए लिनक्स का उपयोग करने पर जोर देते हैं, तो दूसरा प्रदर्शन प्राप्त करने से जीवन को कॉपी और पेस्ट करने में बहुत आसान हो जाएगा।

मैंने यह कोशिश नहीं की है लेकिन आप अपने टेबलेट / फोन पर अजगर के साथ अजगर ब्लूटूथ चैट प्रोग्राम का उपयोग या अनुकूलन करने में सक्षम हो सकते हैं। मोबाइल उपकरणों के लिए रिमोट-कीबोर्ड ऐप भी हो सकते हैं जो डिक्टेशन इनपुट का समर्थन कर सकते हैं।

मैं प्रयोग करूँगा और आपके साथ कुछ और निश्चित करने की कोशिश करूँगा।

— user273470
स्रोत

0

मैं केडी कनेक्ट ऐप का उपयोग कर रहा हूं। यह काफी प्रभावी ढंग से काम कर रहा है! मैं डेस्क पर फोन के साथ बात करते समय अपनी नजरें रखने में सक्षम हूं। केवल नकारात्मक पक्ष यह है कि यह Google कीबोर्ड के माध्यम से किया जा रहा है। यह न तो स्वतंत्र, मूल, और न ही खुला स्रोत है। इस टिप्पणी को बिना किसी प्रकार और सुधार के पोस्ट किया गया है

— जोश लेवाइन
स्रोत

-2

आप लिनक्स एप्लिकेशन में टेक्स्ट के लिए भाषण का उपयोग कर सकते हैं। यह एप्लिकेशन 32 या 64 बिट लिनक्स के लिए Google स्पीच एपि और बाइनरी इंटीग्रेशन मॉड्यूल का उपयोग करता है। आप उबंटू में स्पीपैडपैड.पवा टूल का उपयोग करने की एक छोटी प्रस्तुति देख सकते हैं

— पावेल पोपोव
स्रोत

1

ओपी स्पीच-टू-टेक्स्ट इंजन की तलाश में है। यह एक एसटीटी इंजन के चारों ओर सिर्फ एक वेब-यूआई आवरण (और उस पर एक बुरा) है ।

— सेरिन