क्या लिनक्स के लिए कोई सभ्य भाषण मान्यता सॉफ्टवेयर है?


49

प्रश्न का संक्षिप्त संस्करण: मैं एक भाषण मान्यता सॉफ्टवेयर की तलाश कर रहा हूं जो लिनक्स पर चलता है और इसमें सभ्य सटीकता और प्रयोज्य है। कोई भी लाइसेंस और कीमत ठीक है। यह वॉयस कमांड तक ही सीमित नहीं होना चाहिए, क्योंकि मैं टेक्स्ट को डिक्टेट करने में सक्षम होना चाहता हूं।


अधिक जानकारी:

मैंने असंतोषजनक रूप से निम्नलिखित की कोशिश की है:

सभी उपर्युक्त देशी लिनक्स समाधानों में खराब सटीकता और उपयोगिता दोनों हैं (या कुछ मुफ्त-पाठ श्रुतलेख की अनुमति नहीं देते हैं लेकिन केवल आवाज आदेश हैं)। खराब सटीकता से, मेरा मतलब है एक भाषण पहचान सॉफ़्टवेयर के नीचे एक सटीकता जो मैंने अन्य प्लेटफार्मों के लिए नीचे उल्लेख किया है। जैसा कि वाइन + ड्रैगन नेचुरलीस्पीकिंग के लिए, मेरे अनुभव में यह दुर्घटनाग्रस्त रहता है, और दुर्भाग्यवश मुझे इस तरह के मुद्दे नहीं आते हैं।

Microsoft विंडोज पर मैं ड्रैगन नैचुरलीस्पीकिंग का उपयोग करता हूं, एप्पल मैक ओएस इलेवन पर एप्पल डिक्टेशन और ड्रैगनडिक्टेट का उपयोग करता हूं, एंड्रॉइड पर मैं Google भाषण मान्यता का उपयोग करता हूं, और आईओएस पर मैं बिल्ट-इन एप्पल भाषण मान्यता का उपयोग करता हूं।

Baidu अनुसंधान जारी की कल कोड का उपयोग कर अपने भाषण मान्यता पुस्तकालय के लिए Connectionist टेम्पोरल वर्गीकरण मशाल के साथ लागू किया। नीचे दिए गए स्क्रीनशॉट में दिखाए गए अनुसार Gigaom के बेंचमार्क उत्साहवर्धक हैं, लेकिन मुझे कुछ अच्छे कोडर के बारे में पता नहीं है, जो इसे कुछ कोडिंग (और एक बड़े प्रशिक्षण डेटा सेट) के बिना उपयोग करने योग्य बनाते हैं:

यहाँ छवि विवरण दर्ज करें

कुछ बहुत ही अल्फा ओपन-सोर्स प्रोजेक्ट मौजूद हैं:

मैं भाषण की मान्यता पर कला के ट्रैकिंग राज्यों और हाल के परिणामों (ग्रंथ सूची) के इस प्रयास से भी अवगत हूं मौजूदा भाषण मान्यता एपीआई के इस बेंचमार्क के साथ-साथ ।


मैं एनीया से अवगत हूं , जो एक कंप्यूटर पर ड्रैगनफ्लाई के माध्यम से भाषण मान्यता को दूसरे को घटनाओं को भेजने की अनुमति देता है, लेकिन इसकी कुछ विलंब लागत है:

यहाँ छवि विवरण दर्ज करें

मैं वाक् पहचान के लिए लिनक्स विकल्प तलाशने वाली इन दो वार्ताओं से भी अवगत हूँ:


2
"असंतोषजनक" जो आपने पाया, उसके बारे में कुछ विवरण आपके अन्यथा दिलचस्प लेकिन सामान्य पोस्टिंग विषय को आगे बढ़ा सकते हैं। उदाहरण के लिए: आपने विशेष रूप से "वाइन + ड्रैगन नेचुरलीस्पीकिंग" संयोजन के बारे में क्या असंतोषजनक पाया? (यह आपके विंडोज अनुभव को दोहराने में कैसे विफल रहा?)
थियोफ्रेस्टस

1
@ Theophrastus मूल रूप से सभी देशी लिनक्स समाधानों में खराब सटीकता और प्रयोज्य दोनों हैं। खराब सटीकता से, मेरा मतलब एक सटीकता है जो एक भाषण मान्यता सॉफ्टवेयर के नीचे है जिसे मैंने अन्य प्लेटफार्मों के लिए उल्लेख किया है। जैसा कि वाइन + ड्रैगन नेचुरलस्पाइकिंग के लिए, मेरे अनुभव में यह दुर्घटनाग्रस्त रहता है, और मुझे दुर्भाग्य से इस तरह के मुद्दों के लिए केवल एक ही प्रतीत नहीं होता है ( appdb.winehq.org/… )
फ्रेंक डर्नोनकोर्ट

1
: मैं इन की कोशिश की है नहीं है, लेकिन इस मामले में किसी को यह उपयोगी पाता github.com/Uberi/speech_recognition और jasperproject.github.io और github.com/benoitfragit/google2ubuntu
हत्शेपसट

क्या इन सॉफ्टवेयरों में से एक है जिसमें कमांड-लाइन टूल है? वाक् पहचान को xpressool ( github.com/jordansissel/xdotool ) या xsendkey ( github.com/kyoto/sendkeys ) की तरह एक कीपर और मूसमव टूल से जोड़ना बहुत दिलचस्प होगा ।
बैपटक्स

जवाबों:


13

अभी मैं अपने Android स्मार्टफोन पर Google भाषण मान्यता के साथ संयोजन में KDE कनेक्ट का उपयोग कर रहा हूं।

केडीई कनेक्ट आपको अपने एंड्रॉइड डिवाइस को अपने लिनक्स कंप्यूटर के लिए इनपुट डिवाइस के रूप में उपयोग करने की अनुमति देता है (कुछ अन्य विशेषताएं भी हैं)। आपको अपने स्मार्टफोन / टैबलेट पर Google play store से KDE कनेक्ट ऐप इंस्टॉल करने और अपने लिनक्स कंप्यूटर पर kdeconnect और सूचक-kdeconnect दोनों को स्थापित करने की आवश्यकता है। उबंटू सिस्टम के लिए इंस्टॉल निम्नानुसार है:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

इस स्थापना का नकारात्मक पक्ष यह है कि यह केडीई संकुल का एक समूह स्थापित करता है जिसकी आपको केडीई डेस्कटॉप वातावरण का उपयोग नहीं करने की आवश्यकता नहीं है।

एक बार जब आप अपने एंड्रॉइड डिवाइस को अपने कंप्यूटर के साथ जोड़ देते हैं (उन्हें उसी नेटवर्क पर होना पड़ता है) तो आप एंड्रॉइड कीबोर्ड का उपयोग कर सकते हैं और फिर Google भाषण मान्यता का उपयोग करने के लिए माइक पर क्लिक / दबा सकते हैं। जैसा कि आप बात करते हैं, पाठ आपके लिनक्स कंप्यूटर पर सक्रिय है जहां कभी भी कर्सर दिखाई देना शुरू हो जाएगा।

परिणामों के लिए, वे मेरे लिए थोड़े मिश्रित हैं क्योंकि मैं वर्तमान में कुछ तकनीकी एस्ट्रोफिज़िक्स दस्तावेज़ लिख रहा हूं और Google भाषण मान्यता शब्दजाल से जूझ रही है जिसे आप आमतौर पर नहीं पढ़ते हैं। यह भी विस्मयादिबोधक या उचित पूंजीकरण के बारे में भूल जाओ।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें



3

उपयोगी भाषण-से-पाठ (डिक्टेशन) कार्यक्रम के लिए खोज करने वाले एक और लिनक्स के रूप में, मैंने स्पीचपैड पर ध्यान दिया।

  • यह मेरी मातृभाषा को अच्छी तरह से पहचानता है
  • यह तेजी से और बहुत विश्वसनीय काम करता है

downsides:

  • बेशक यह Google का स्वामित्व और बंद सॉफ़्टवेयर है
  • Google सेवा आपके द्वारा बोले जाने वाले प्रत्येक शब्द को सुनेगी, संसाधित करेगी और माना जाएगा
  • ऑडियो और टेक्स्ट को संसाधित किया जाएगा और स्पष्ट रूप से Google द्वारा संग्रहीत किया जाएगा
  • speechpad.pw को मासिक / चतुर्थांश / वार्षिक सदस्यता शुल्क की आवश्यकता होती है
  • speechpad.pw केवल Google Chrome ब्राउज़र के लिए एक ऐडऑन के रूप में चलता है - कोई अन्य ब्राउज़र नहीं

तो, speechpad.pw बहुत मालिकाना है और यह भी बंद स्रोत है और Google से भी जुड़ा हुआ है जिसे हम सभी एक नींद-रहित मेटा डेटा, व्यक्तिगत जानकारी और व्यक्तिगत सामग्री कलेक्टर के रूप में जानते हैं।

ये डाउनसाइड इसे मेरे लिए एक नो-गो एप्लिकेशन बनाते हैं, हालांकि स्पीच रिकग्निशन खुद बहुत अच्छी तरह से काम करता है - मैंने अब तक जो कुछ भी देखा है उससे बहुत बेहतर।


धन्यवाद, हां महत्वपूर्ण डाउनसाइड्स, विशेष रूप से यह केवल क्रोम ब्राउज़र में काम करता है।
फ्रेंक डर्नोनकोर्ट

1
आप क्रोम पर Google डॉक्स का उपयोग कर सकते हैं और उनके "टूल्स" »" आवाज़ टाइपिंग ... "विकल्प का उपयोग कर सकते हैं। शायद एक ही भाषण मान्यता सॉफ्टवेयर, लेकिन यह मुफ़्त है। फिर अपने डॉक से परिणाम को कॉपी पेस्ट करें जहाँ भी आपको पाठ की आवश्यकता हो।
एलेक्सिस विल्के

2

Chrome ऐप "VoiceNote II" ( http://voicenote.in/ ) मेरे Xubuntu 16.04 मशीन पर बहुत अच्छा काम कर रहा है। कोई आवाज-प्रशिक्षण की आवश्यकता नहीं थी, और सेट-अप सरल था। इसे खोजने के लिए एक खोज, इंस्टॉल करने के लिए एक क्लिक, शॉर्टकट बनाने के लिए एक क्लिक और डेस्कटॉप इसे बांधता है।


धन्यवाद, केवल Google Chrome में ही काम करता है
फ्रेंक डर्नोनकोर्ट

0

मैं आपके फोन या टैबलेट पर ड्रैगन का उपयोग करने का सुझाव दूंगा, फिर अपने आप को टेक्स्ट ईमेल करूंगा। इसका ड्रैग लेकिन यह काम करता है और बहुत सटीक है। यदि आप इसके लिए लिनक्स का उपयोग करने पर जोर देते हैं, तो दूसरा प्रदर्शन प्राप्त करने से जीवन को कॉपी और पेस्ट करने में बहुत आसान हो जाएगा।

मैंने यह कोशिश नहीं की है लेकिन आप अपने टेबलेट / फोन पर अजगर के साथ अजगर ब्लूटूथ चैट प्रोग्राम का उपयोग या अनुकूलन करने में सक्षम हो सकते हैं। मोबाइल उपकरणों के लिए रिमोट-कीबोर्ड ऐप भी हो सकते हैं जो डिक्टेशन इनपुट का समर्थन कर सकते हैं।

मैं प्रयोग करूँगा और आपके साथ कुछ और निश्चित करने की कोशिश करूँगा।


0

मैं केडी कनेक्ट ऐप का उपयोग कर रहा हूं। यह काफी प्रभावी ढंग से काम कर रहा है! मैं डेस्क पर फोन के साथ बात करते समय अपनी नजरें रखने में सक्षम हूं। केवल नकारात्मक पक्ष यह है कि यह Google कीबोर्ड के माध्यम से किया जा रहा है। यह न तो स्वतंत्र, मूल, और न ही खुला स्रोत है। इस टिप्पणी को बिना किसी प्रकार और सुधार के पोस्ट किया गया है


-2

आप लिनक्स एप्लिकेशन में टेक्स्ट के लिए भाषण का उपयोग कर सकते हैं। यह एप्लिकेशन 32 या 64 बिट लिनक्स के लिए Google स्पीच एपि और बाइनरी इंटीग्रेशन मॉड्यूल का उपयोग करता है। आप उबंटू में स्पीपैडपैड.पवा टूल का उपयोग करने की एक छोटी प्रस्तुति देख सकते हैं


1
ओपी स्पीच-टू-टेक्स्ट इंजन की तलाश में है। यह एक एसटीटी इंजन के चारों ओर सिर्फ एक वेब-यूआई आवरण (और उस पर एक बुरा) है ।
सेरिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.