कमांड-लाइन का उपयोग करके टेक्स्ट-टू-स्पीच आउटपुट कैसे करें?


84

कमांड-लाइन का उपयोग करके दर्ज किए गए पाठ से भाषण आउटपुट कैसे प्राप्त करें ?

सरल कमांड का उपयोग करके भाषण दर, पिच, वॉल्यूम आदि को बदलने की सुविधा भी ।


जवाबों:


125

अवरोही लोकप्रियता के क्रम में :

  • कहते हैं श्रव्य भाषण GNUstep भाषण इंजन का उपयोग करने के लिए पाठ धर्मान्तरित।

    sudo apt-get install gnustep-gui-runtime
    say "hello"
    
  • त्योहार सामान्य बहुभाषी भाषण संश्लेषण प्रणाली।

    sudo apt-get install festival
    echo "hello" | festival --tts
    
  • spd-say, वाक्-प्रेषण के लिए पाठ से वाक् आउटपुट अनुरोध भेजता है

    sudo apt-get install speech-dispatcher
    spd-say "hello"
    
  • जासूसी एक बहुभाषी सॉफ्टवेयर भाषण सिंथेसाइज़र है।

    sudo apt-get install espeak
    espeak "hello"
    

13
spd-say14.04 में पहले से स्थापित प्रकट होता है करने के लिए जा और बाद में: releases.ubuntu.com/trusty/...
सिरो Santilli新疆改造中心法轮功六四事件

3
इसके अलावा sudo pip install gTTS, (भाषण के लिए Google पाठ / github.com/pndurette/gTTS ) तो gtts-cli "hello" -o hello.mp3आप इसे भी पाइप कर सकते हैं mpg123 -gtts-cli "why, hello there" | mpg123 -
एलिय्याह लिन

दुर्भाग्य से, spd-sayएक साथ
tts

@ElijahLynn काम नहीं करता है
धुंधली हो जाती है

espeak/ spd-sayमेम के लिए सबसे अच्छा है (अन्य लोग "मेमे" शब्द का सही उच्चारण नहीं कर सकते हैं)। सबसे अच्छा मैं इसके बैकएंड के रूप में spd-sayउपयोग कर सकता हूं espeak(आवाजें एक जैसी लगती हैं)।
QwertyChouskie

18

espeak एक अच्छा सा उपकरण है।

मुझे बस इसके साथ एक कमांड लाइन में खेलना पसंद है। हो सकता है कि आपको यह पल्सीडियो के साथ टकराव लगे, इसलिए मैं एक लंबे-घुमावदार संस्करण का उपयोग कर रहा हूं जो इसे ठीक से सेट करने के लिए नकारता है।

sudo apt-get install espeak
espeak --stdout "this is a test" | paplay

espeak --help आपको पढ़ने की गति, पिच, आवाज आदि को कैलिब्रेट करने के विकल्प दिखाएंगे।

जब आप अपने नोट्स कर रहे हों, तो उन्हें टेक्स्ट फाइल के रूप में सहेजें और फिर:

echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"

फिर आप पीसीएम से एमपी 3 या ओजीजी जैसे अधिक प्रबंधनीय कुछ करने के लिए इसे नीचे करने के लिए ffmeg et al के साथ खेल सकते हैं। लेकिन यह एक अलग कहानी है।


1
बहुत अच्छा है, कोई भी जासूसी करने के लिए ग्राफिक यूजर इंटरफेस की कोशिश कर सकता है।
सबकोन

14

से man spd-say:

नाम
       spd-say - वाक्-प्रेषण के लिए पाठ-से-वाक् आउटपुट अनुरोध भेजें

SYNOPSIS
       spd-say [विकल्प] "कुछ पाठ"

विवरण
       spd-say, वाक्-प्रेषण प्रक्रिया को टेक्स्ट-टू-स्पीच आउटपुट अनुरोध भेजता है जो इसे संभालता है और आदर्श रूप से परिणाम को आउटपुट करता है
       ऑडियो सिस्टम के लिए।

विकल्प
       -आर, --रेट
              भाषण की दर निर्धारित करें (बीच -100 और +100, डिफ़ॉल्ट: 0)

       -पी, - पिच
              भाषण की पिच सेट करें (बीच -100 और +100, डिफ़ॉल्ट: 0)

       -आई, --वोल्यूम
              भाषण की मात्रा (तीव्रता) (-100 और +100 के बीच, डिफ़ॉल्ट: 0) सेट करें

इसलिए आप निम्नलिखित आदेश द्वारा पाठ से भाषण प्राप्त कर सकते हैं:

spd-say "<type text>"

उदाहरण के लिए:

spd-say "Welcome to Ubuntu Linux"

आप स्पीच रेट, पिच, वॉल्यूम आदि भी देख सकते हैं, मैन-पेज देखें।


3
spd-say -t female2 "text"इसे
बीरबल

6

Mbrola 11.10 के बाद से काम नहीं करता है।

एसवीओएक्स (पिको) उपकरण स्थापित करना आसान है, उपयोग में आसान है और उबंटू में अच्छी गुणवत्ता की आवाजें लाता है। इसे स्थापित करो:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

और भी आसान, आप एसवीओएक्स (पिको) टूल के साथ संयोजन में लिब्रेऑफिस का उपयोग "रीड टेक्स्ट" एक्सटेंशन को स्थापित करके कर सकते हैं और इस उत्कृष्ट टीटीएस सॉफ्टवेयर के लिए "जीयूआई" प्राप्त करते हैं:

उपकरण के साथ पाठ एक्सटेंशन के विकल्प सेट करें - ऐड-ऑन - चयन पढ़ें .... बाहरी प्रोग्राम के रूप में उपयोग करें / usr / bin / python। एक कमांड लाइन विकल्प चुनें जिसमें टोकन शामिल हो (PICO_READ_TEXT_PY)।


4

पायथन Google Speach:

pip install google_speech

google_speech "Test the hello world"

Android से Svox:

apt-get install svox-pico

pico2wave --wave=test.wav "Test the hello world"
play test.wav

स्वोक्स नैनोट्स:

git clone https://github.com/gmn/nanotts.git
cd nanotts
make

./nanotts -v en-US "Test the hello world"

लिंक - विकी:

भाषण सिंथेसाइज़र की तुलना


1
स्थापित करने और उपयोग करने के लिए google_speechubuntu 18.04 मैं स्थापित करने के लिए किया था पर python3-pipऔर libsox-fmt-mp3और प्रयोग pip3 install google_speech
आर्टम

3

और फिर भी एक और जासूसी गुई gespeaker:। इसमें इंजन espeakऔर mbrolaइंजन दोनों का इस्तेमाल होता है । इसके अलावा, यह की तुलना में अधिक विकल्प हैं espeak-gui


3

निम्नलिखित एक FLOSS समाधान नहीं है, लेकिन आप इसे सार्थक पा सकते हैं। (यह एक शराब समाधान है),

मैं व्यक्तिगत रूप से टीटीएस के लिए बहुत उत्सुक हूं, मैं इसे अक्सर उपयोग करता हूं ... जैसे। एक जुझारू प्रवचन सुनना, जिसे मैं कभी भी दूसरे के साथ नहीं रहना चाहूंगा (क्योंकि मुझे एक और कप कॉफी प्राप्त करने की आवश्यकता है ... :)

कुछ चीजें जो मैंने रास्ते में खोजी हैं .. या मुझे कहना चाहिए, जिन चीजों को मैंने रास्ते में नहीं खोजा है ... इसे स्पष्ट रूप से कहने के लिए: मेरे द्वारा कोशिश की गई FOSS TTS आवाज सॉफ्टवेयर का हर टुकड़ा बराबर है और इसलिए किसी भी अर्ध-विचलित सुनने के लिए अनुपयुक्त ...

मैं वर्तमान में ATnT's NaturalVoices का उपयोग करता हूं। यह केवल विंडोज (शायद मैक) के लिए उपलब्ध है, लेकिन यह wineउबंटू में चलता है .. (इसमें मामूली ग्लाइच है, जहां मुझे पाठक से दूर जाने पर कभी-कभी पैनल पर क्लिक करने की आवश्यकता होती है ... यह एक मामूली है मुद्दा जब NatualVoices से भाषण की गुणवत्ता द्वारा प्राप्त लाभ की तुलना में।

कुछ अन्य चीजें जिन्हें मैंने लगभग आधा-समझदार सुनने के अनुभव के लिए आवश्यक पाया है, वे हैं; ...

  1. ये टीटीएस प्रोगाम बुद्धिमान नहीं हैं (अच्छी तरह से शायद एक युवा बबून के रूप में बुद्धिमान हैं) .. इसलिए उन्हें हर संभव मदद की आवश्यकता है जो वे प्राप्त कर सकते हैं। और एक (और केवल एक रीडर प्रोग्राम है जो मैंने पाया है जो इस में बहुत मदद करता है। ऐप को कहा जाता है ReadPlease (2003 Pro)... यह आपको विशेष रूप से शब्दों और समूहों के शब्दों को संशोधित करने की अनुमति देता है जैसा कि आप उन्हें चाहते हैं ... किसी भी तरह से सही नहीं है, लेकिन मेरे लिए, इसने पूरी प्रक्रिया के बीच अंतर किया और प्रयोग करने योग्य नहीं है ...

  2. प्राकृतिक आवाज़ों में भाषण "ठीक है", लेकिन यह थोड़ा उबाऊ है। अन्य अच्छे उत्पाद भी हैं, लेकिन वे सभी विंडोज़ के लिए हैं, दुर्भाग्य से) ..
    यह कभी-कभी आश्चर्यचकित करता है .. लेकिन OMG, शुरू में यह एक दर्द है! .. इसलिए # 2 * धैर्य है ... और आपके "विशेष शब्दों" की सूची के बहुत सारे अद्यतन ... धैर्य से, मेरा मतलब है कि आप (मैं) वास्तव में मेरे विशेष बबून के भाषण पैटर्न के आदी हो गए:) ... और द्वारा जिस तरह से, मेरे पास वर्तमान में लगभग 3000 शब्द हैं जो अब "ह्यूमन" को पर्याप्त रूप से ध्वनि देते हैं कि जब मैं उन्हें सुनता हूं तो मुझे कोई परेशानी नहीं होती है।

    3 .. "बाउंसिंग बॉल का अनुसरण करें" ... फिर से क्योंकि आवाज कभी भी एक वास्तविक वक्ता के रूप में अच्छी नहीं होती है, चीजों को कभी-कभी स्पष्ट करने की आवश्यकता होती है .. मेरे द्वारा उपयोग किए जाने वाले रीडर प्रोग्राम की एक विशेषता है जिसके लिए मैंने इसके क्लंकी दिखने वाले इंटरफ़ेस के साथ भी लगाया है .... एक "वर्तमान में पढ़ा जा रहा है" शब्द विकल्प है .. कई पाठकों के पास यह है, लेकिन ReadPlease वर्तमान लाइन धमाके को चालू रखता है स्क्रीन का केंद्र .. यह आगे और पीछे देखने में सक्षम होने के लिए अमूल्य है जो आपने अभी-अभी याद किया था (इसलिए ऑटो-सेंटरिंग क्यूरेंट लाइन अच्छी है) ...

खैर यह मेरा अनुभव है .. मैं अब एक कॉफी बनाने जा रहा हूं, और जब मैं इसे कर रहा हूं, तो मैं यह सुन रहा हूं, यह देखने के लिए कि यह "कैसे पढ़ता है" .... टीटीएस को आश्चर्यजनक रूप से अच्छा लगता है typos (मैं टाइपो के बहुत सारे बनाते हैं) ...

यदि ATnT NaturalVoices उबंटू रिपॉजिटरी में बदल जाता है तो कुछ अच्छा है, मैं इस पर कूदूंगा।

यहाँ प्राकृतिक आवाज़ों के कुछ नमूनों की एक कड़ी दी गई है : मैं "MIke" का उपयोग करता हूं


3

SVOX pico2wave

कि मैं क्या उपयोग करता हूं। और यह स्वाभाविक लगता है, यह समझना आसान है, यह इकाइयों (मीटर, डिग्री सेल्सियस, किलो, ...) को पहचानता है

यहाँ pico2wave के लिए मेरी पहली पोस्ट है

भाषण के लिए प्राकृतिक ध्वनि पाठ?

तुमको बस यह करना है:

Ubuntu सॉफ्टवेयर सेंटर पर जाएं और "पिको" खोजें। आपको "छोटे पदचिह्न लिंग ..." के साथ 4 या 5 प्रविष्टियाँ मिलेंगी। उन्हें स्थापित करें।

Pico2wave का एक संभावित उपयोग मेरी पहली पोस्टिंग में वर्णित है (ऊपर दिए गए लिंक का अनुसरण करें)।

अलविदा


मैंने अपना तरीका इस्तेमाल किया है क्या आप मुझे बता सकते हैं कि कैसे अपने तरीके का उपयोग करके एक नटखट मीठी महिला आवाज प्राप्त करें
user49557

3

के लिए festival(आवाज मुझे अधिक स्वाभाविक लगती है):

sudo apt-get install festival

echo "hello" | festival --tts

पिच और गति विन्यास:

बनाएं ~/.festivalrc:

(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100") (Parameter.set 'Audio_Method 'Audio_Command)

Http://www.solomonson.com/content/ubuntu-linux-text-speech भी देखें

अद्यतन: एक और ubuntu कंप्यूटर पर कोशिश की। त्योहार के साथ ठीक से काम करने के लिए अंग्रेजी भाषण इंजन पैकेज स्थापित करना था:

sudo apt-get install festvox-kallpc16k

यह playभी एक cli कमांड है जो soxपैकेज के साथ आती है:

sudo apt-get install sox


2

हालांकि आप पहले से ही एक जवाब स्वीकार कर चुके हैं, मैं उल्लेख करना चाहता था festival, जो मुझे काफी पसंद है। उबंटू मंचों पर इस पोस्ट में इसके लिए बहुत अच्छी आवाजें प्राप्त करने पर बहुत सारी जानकारी है।


2

मिलो espeak-ng- एक बहुभाषी सॉफ्टवेयर भाषण सिंथेसाइज़र:

espeak-ng "text to read"
espeak-ng -f "~/file to read"

यह एक डिफ़ॉल्ट अंग्रेजी आवाज का उपयोग करता है, लेकिन अन्य भाषाओं और यहां तक ​​कि बोलियों के लिए कई अन्य आवाजें उपलब्ध हैं और espeak-ng --voices(सभी के लिए) या जैसे espeak-ng --voices=en(अंग्रेजी के लिए ) के साथ सूचीबद्ध किया जा सकता है । उन्हें -vस्कॉटिश या स्वाहिली भाषा उदाहरण या फ़ाइल नाम के साथ सेट किया जा सकता है :

espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili

कई अन्य विकल्प उपलब्ध हैं, उदाहरण -sके लिए गति के लिए और -wएक तरंग फ़ाइल में आउटपुट लिखने के लिए, नीचे दिए गए मैनपेज को देखें।

आगे की पढाई

espeak-ng("अगली पीढ़ी" के लिए "एनजी") मूल espeakभाषण सिंथेसाइज़र सॉफ़्टवेयर का सक्रिय रूप से विकसित कांटा है , विकिपीडिया पर इतिहास अध्याय देखें । दोनों आधिकारिक स्रोतों से पैकेज के माध्यम से espeakया espeak-ngक्रमशः उपलब्ध हैं।


0

शराब के तहत बलाबोलका SAPI4 आवाजों के साथ (मेरे लिए) ठीक काम करता है (SAPI5 आवाजें मेरे लिनक्स पर नहीं पाई जाती हैं)। यह फाइलें खोल सकता है और पढ़ना शुरू कर सकता है।

यहाँ पर बालाबोल्का के लिए शराब की AppDB प्रविष्टि का लिंक दिया गया है: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859


0

टूल जीटीटीएस टेक्स्ट से ऑडियो फाइल बनाने के लिए बहुत अच्छा है। यह Google Translate के टेक्स्ट-टू-स्पीच एपीआई का उपयोग करता है, और एमपी 3 फ़ाइलों को उत्पन्न करता है।
यह देखते हुए कि यह pipस्थापना के लिए उपयोग करता है, मैं दृढ़ता से आपको मिनिकोंडा स्थापित करने की सलाह देता हूं, और फिर condaएक वातावरण बनाने के लिए उपयोग करता हूं जहां आप जीटीटीएस स्थापित कर सकते हैं। आप यहाँ से मिनिकोंडा डाउनलोड कर सकते हैं:

https://docs.conda.io/en/latest/miniconda.html

GTTS के लिए GitHub रिपॉजिटरी है:

https://github.com/pndurette/gTTS

और आप यहां जीटीटीएस के दस्तावेज पा सकते हैं:

https://gtts.readthedocs.io/en/latest/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.