जवाबों:
अवरोही लोकप्रियता के क्रम में :
कहते हैं श्रव्य भाषण GNUstep भाषण इंजन का उपयोग करने के लिए पाठ धर्मान्तरित।
sudo apt-get install gnustep-gui-runtime
say "hello"
त्योहार सामान्य बहुभाषी भाषण संश्लेषण प्रणाली।
sudo apt-get install festival
echo "hello" | festival --tts
spd-say, वाक्-प्रेषण के लिए पाठ से वाक् आउटपुट अनुरोध भेजता है
sudo apt-get install speech-dispatcher
spd-say "hello"
जासूसी एक बहुभाषी सॉफ्टवेयर भाषण सिंथेसाइज़र है।
sudo apt-get install espeak
espeak "hello"
spd-say14.04 में पहले से स्थापित प्रकट होता है करने के लिए जा और बाद में: releases.ubuntu.com/trusty/...
sudo pip install gTTS, (भाषण के लिए Google पाठ / github.com/pndurette/gTTS ) तो gtts-cli "hello" -o hello.mp3आप इसे भी पाइप कर सकते हैं mpg123 -। gtts-cli "why, hello there" | mpg123 -।
spd-sayएक साथ
espeak/ spd-sayमेम के लिए सबसे अच्छा है (अन्य लोग "मेमे" शब्द का सही उच्चारण नहीं कर सकते हैं)। सबसे अच्छा मैं इसके बैकएंड के रूप में spd-sayउपयोग कर सकता हूं espeak(आवाजें एक जैसी लगती हैं)।
espeak एक अच्छा सा उपकरण है।
मुझे बस इसके साथ एक कमांड लाइन में खेलना पसंद है। हो सकता है कि आपको यह पल्सीडियो के साथ टकराव लगे, इसलिए मैं एक लंबे-घुमावदार संस्करण का उपयोग कर रहा हूं जो इसे ठीक से सेट करने के लिए नकारता है।
sudo apt-get install espeak
espeak --stdout "this is a test" | paplay
espeak --help आपको पढ़ने की गति, पिच, आवाज आदि को कैलिब्रेट करने के विकल्प दिखाएंगे।
जब आप अपने नोट्स कर रहे हों, तो उन्हें टेक्स्ट फाइल के रूप में सहेजें और फिर:
echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"
फिर आप पीसीएम से एमपी 3 या ओजीजी जैसे अधिक प्रबंधनीय कुछ करने के लिए इसे नीचे करने के लिए ffmeg et al के साथ खेल सकते हैं। लेकिन यह एक अलग कहानी है।
से man spd-say:
नाम
spd-say - वाक्-प्रेषण के लिए पाठ-से-वाक् आउटपुट अनुरोध भेजें
SYNOPSIS
spd-say [विकल्प] "कुछ पाठ"
विवरण
spd-say, वाक्-प्रेषण प्रक्रिया को टेक्स्ट-टू-स्पीच आउटपुट अनुरोध भेजता है जो इसे संभालता है और आदर्श रूप से परिणाम को आउटपुट करता है
ऑडियो सिस्टम के लिए।
विकल्प
-आर, --रेट
भाषण की दर निर्धारित करें (बीच -100 और +100, डिफ़ॉल्ट: 0)
-पी, - पिच
भाषण की पिच सेट करें (बीच -100 और +100, डिफ़ॉल्ट: 0)
-आई, --वोल्यूम
भाषण की मात्रा (तीव्रता) (-100 और +100 के बीच, डिफ़ॉल्ट: 0) सेट करें
इसलिए आप निम्नलिखित आदेश द्वारा पाठ से भाषण प्राप्त कर सकते हैं:
spd-say "<type text>"
उदाहरण के लिए:
spd-say "Welcome to Ubuntu Linux"
आप स्पीच रेट, पिच, वॉल्यूम आदि भी देख सकते हैं, मैन-पेज देखें।
spd-say -t female2 "text"इसे
Mbrola 11.10 के बाद से काम नहीं करता है।
एसवीओएक्स (पिको) उपकरण स्थापित करना आसान है, उपयोग में आसान है और उबंटू में अच्छी गुणवत्ता की आवाजें लाता है। इसे स्थापित करो:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
और भी आसान, आप एसवीओएक्स (पिको) टूल के साथ संयोजन में लिब्रेऑफिस का उपयोग "रीड टेक्स्ट" एक्सटेंशन को स्थापित करके कर सकते हैं और इस उत्कृष्ट टीटीएस सॉफ्टवेयर के लिए "जीयूआई" प्राप्त करते हैं:
उपकरण के साथ पाठ एक्सटेंशन के विकल्प सेट करें - ऐड-ऑन - चयन पढ़ें .... बाहरी प्रोग्राम के रूप में उपयोग करें / usr / bin / python। एक कमांड लाइन विकल्प चुनें जिसमें टोकन शामिल हो (PICO_READ_TEXT_PY)।
पायथन Google Speach:
pip install google_speech
google_speech "Test the hello world"
Android से Svox:
apt-get install svox-pico
pico2wave --wave=test.wav "Test the hello world"
play test.wav
स्वोक्स नैनोट्स:
git clone https://github.com/gmn/nanotts.git
cd nanotts
make
./nanotts -v en-US "Test the hello world"
लिंक - विकी:
google_speechubuntu 18.04 मैं स्थापित करने के लिए किया था पर python3-pipऔर libsox-fmt-mp3और प्रयोग pip3 install google_speech।
निम्नलिखित एक FLOSS समाधान नहीं है, लेकिन आप इसे सार्थक पा सकते हैं। (यह एक शराब समाधान है),
मैं व्यक्तिगत रूप से टीटीएस के लिए बहुत उत्सुक हूं, मैं इसे अक्सर उपयोग करता हूं ... जैसे। एक जुझारू प्रवचन सुनना, जिसे मैं कभी भी दूसरे के साथ नहीं रहना चाहूंगा (क्योंकि मुझे एक और कप कॉफी प्राप्त करने की आवश्यकता है ... :)
कुछ चीजें जो मैंने रास्ते में खोजी हैं .. या मुझे कहना चाहिए, जिन चीजों को मैंने रास्ते में नहीं खोजा है ... इसे स्पष्ट रूप से कहने के लिए: मेरे द्वारा कोशिश की गई FOSS TTS आवाज सॉफ्टवेयर का हर टुकड़ा बराबर है और इसलिए किसी भी अर्ध-विचलित सुनने के लिए अनुपयुक्त ...
मैं वर्तमान में ATnT's NaturalVoices का उपयोग करता हूं। यह केवल विंडोज (शायद मैक) के लिए उपलब्ध है, लेकिन यह wineउबंटू में चलता है .. (इसमें मामूली ग्लाइच है, जहां मुझे पाठक से दूर जाने पर कभी-कभी पैनल पर क्लिक करने की आवश्यकता होती है ... यह एक मामूली है मुद्दा जब NatualVoices से भाषण की गुणवत्ता द्वारा प्राप्त लाभ की तुलना में।
कुछ अन्य चीजें जिन्हें मैंने लगभग आधा-समझदार सुनने के अनुभव के लिए आवश्यक पाया है, वे हैं; ...
ये टीटीएस प्रोगाम बुद्धिमान नहीं हैं (अच्छी तरह से शायद एक युवा बबून के रूप में बुद्धिमान हैं) .. इसलिए उन्हें हर संभव मदद की आवश्यकता है जो वे प्राप्त कर सकते हैं। और एक (और केवल एक रीडर प्रोग्राम है जो मैंने पाया है जो इस में बहुत मदद करता है। ऐप को कहा जाता है ReadPlease (2003 Pro)... यह आपको विशेष रूप से शब्दों और समूहों के शब्दों को संशोधित करने की अनुमति देता है जैसा कि आप उन्हें चाहते हैं ... किसी भी तरह से सही नहीं है, लेकिन मेरे लिए, इसने पूरी प्रक्रिया के बीच अंतर किया और प्रयोग करने योग्य नहीं है ...
प्राकृतिक आवाज़ों में भाषण "ठीक है", लेकिन यह थोड़ा उबाऊ है। अन्य अच्छे उत्पाद भी हैं, लेकिन वे सभी विंडोज़ के लिए हैं, दुर्भाग्य से) ..
यह कभी-कभी आश्चर्यचकित करता है .. लेकिन OMG, शुरू में यह एक दर्द है! .. इसलिए # 2 * धैर्य है ... और आपके "विशेष शब्दों" की सूची के बहुत सारे अद्यतन ... धैर्य से, मेरा मतलब है कि आप (मैं) वास्तव में मेरे विशेष बबून के भाषण पैटर्न के आदी हो गए:) ... और द्वारा जिस तरह से, मेरे पास वर्तमान में लगभग 3000 शब्द हैं जो अब "ह्यूमन" को पर्याप्त रूप से ध्वनि देते हैं कि जब मैं उन्हें सुनता हूं तो मुझे कोई परेशानी नहीं होती है।
3 .. "बाउंसिंग बॉल का अनुसरण करें" ... फिर से क्योंकि आवाज कभी भी एक वास्तविक वक्ता के रूप में अच्छी नहीं होती है, चीजों को कभी-कभी स्पष्ट करने की आवश्यकता होती है .. मेरे द्वारा उपयोग किए जाने वाले रीडर प्रोग्राम की एक विशेषता है जिसके लिए मैंने इसके क्लंकी दिखने वाले इंटरफ़ेस के साथ भी लगाया है .... एक "वर्तमान में पढ़ा जा रहा है" शब्द विकल्प है .. कई पाठकों के पास यह है, लेकिन ReadPlease वर्तमान लाइन धमाके को चालू रखता है स्क्रीन का केंद्र .. यह आगे और पीछे देखने में सक्षम होने के लिए अमूल्य है जो आपने अभी-अभी याद किया था (इसलिए ऑटो-सेंटरिंग क्यूरेंट लाइन अच्छी है) ...
खैर यह मेरा अनुभव है .. मैं अब एक कॉफी बनाने जा रहा हूं, और जब मैं इसे कर रहा हूं, तो मैं यह सुन रहा हूं, यह देखने के लिए कि यह "कैसे पढ़ता है" .... टीटीएस को आश्चर्यजनक रूप से अच्छा लगता है typos (मैं टाइपो के बहुत सारे बनाते हैं) ...
यदि ATnT NaturalVoices उबंटू रिपॉजिटरी में बदल जाता है तो कुछ अच्छा है, मैं इस पर कूदूंगा।
यहाँ प्राकृतिक आवाज़ों के कुछ नमूनों की एक कड़ी दी गई है : मैं "MIke" का उपयोग करता हूं
SVOX pico2wave
कि मैं क्या उपयोग करता हूं। और यह स्वाभाविक लगता है, यह समझना आसान है, यह इकाइयों (मीटर, डिग्री सेल्सियस, किलो, ...) को पहचानता है
यहाँ pico2wave के लिए मेरी पहली पोस्ट है
भाषण के लिए प्राकृतिक ध्वनि पाठ?
तुमको बस यह करना है:
Ubuntu सॉफ्टवेयर सेंटर पर जाएं और "पिको" खोजें। आपको "छोटे पदचिह्न लिंग ..." के साथ 4 या 5 प्रविष्टियाँ मिलेंगी। उन्हें स्थापित करें।
Pico2wave का एक संभावित उपयोग मेरी पहली पोस्टिंग में वर्णित है (ऊपर दिए गए लिंक का अनुसरण करें)।
अलविदा
के लिए festival(आवाज मुझे अधिक स्वाभाविक लगती है):
sudo apt-get install festival
echo "hello" | festival --tts
पिच और गति विन्यास:
बनाएं ~/.festivalrc:
(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100")
(Parameter.set 'Audio_Method 'Audio_Command)
Http://www.solomonson.com/content/ubuntu-linux-text-speech भी देखें
अद्यतन: एक और ubuntu कंप्यूटर पर कोशिश की। त्योहार के साथ ठीक से काम करने के लिए अंग्रेजी भाषण इंजन पैकेज स्थापित करना था:
sudo apt-get install festvox-kallpc16k
यह playभी एक cli कमांड है जो soxपैकेज के साथ आती है:
sudo apt-get install sox
हालांकि आप पहले से ही एक जवाब स्वीकार कर चुके हैं, मैं उल्लेख करना चाहता था festival, जो मुझे काफी पसंद है। उबंटू मंचों पर इस पोस्ट में इसके लिए बहुत अच्छी आवाजें प्राप्त करने पर बहुत सारी जानकारी है।
मिलो espeak-ng- एक बहुभाषी सॉफ्टवेयर भाषण सिंथेसाइज़र:
espeak-ng "text to read"
espeak-ng -f "~/file to read"
यह एक डिफ़ॉल्ट अंग्रेजी आवाज का उपयोग करता है, लेकिन अन्य भाषाओं और यहां तक कि बोलियों के लिए कई अन्य आवाजें उपलब्ध हैं और espeak-ng --voices(सभी के लिए) या जैसे espeak-ng --voices=en(अंग्रेजी के लिए ) के साथ सूचीबद्ध किया जा सकता है । उन्हें -vस्कॉटिश या स्वाहिली भाषा उदाहरण या फ़ाइल नाम के साथ सेट किया जा सकता है :
espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili
कई अन्य विकल्प उपलब्ध हैं, उदाहरण -sके लिए गति के लिए और -wएक तरंग फ़ाइल में आउटपुट लिखने के लिए, नीचे दिए गए मैनपेज को देखें।
espeak-ng("अगली पीढ़ी" के लिए "एनजी") मूल espeakभाषण सिंथेसाइज़र सॉफ़्टवेयर का सक्रिय रूप से विकसित कांटा है , विकिपीडिया पर इतिहास अध्याय देखें । दोनों आधिकारिक स्रोतों से पैकेज के माध्यम से espeakया espeak-ngक्रमशः उपलब्ध हैं।
शराब के तहत बलाबोलका SAPI4 आवाजों के साथ (मेरे लिए) ठीक काम करता है (SAPI5 आवाजें मेरे लिनक्स पर नहीं पाई जाती हैं)। यह फाइलें खोल सकता है और पढ़ना शुरू कर सकता है।
यहाँ पर बालाबोल्का के लिए शराब की AppDB प्रविष्टि का लिंक दिया गया है: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859
टूल जीटीटीएस टेक्स्ट से ऑडियो फाइल बनाने के लिए बहुत अच्छा है। यह Google Translate के टेक्स्ट-टू-स्पीच एपीआई का उपयोग करता है, और एमपी 3 फ़ाइलों को उत्पन्न करता है।
यह देखते हुए कि यह pipस्थापना के लिए उपयोग करता है, मैं दृढ़ता से आपको मिनिकोंडा स्थापित करने की सलाह देता हूं, और फिर condaएक वातावरण बनाने के लिए उपयोग करता हूं जहां आप जीटीटीएस स्थापित कर सकते हैं। आप यहाँ से मिनिकोंडा डाउनलोड कर सकते हैं:
https://docs.conda.io/en/latest/miniconda.html
GTTS के लिए GitHub रिपॉजिटरी है:
https://github.com/pndurette/gTTS
और आप यहां जीटीटीएस के दस्तावेज पा सकते हैं: