जवाबों:
अवरोही लोकप्रियता के क्रम में :
कहते हैं श्रव्य भाषण GNUstep भाषण इंजन का उपयोग करने के लिए पाठ धर्मान्तरित।
sudo apt-get install gnustep-gui-runtime
say "hello"
त्योहार सामान्य बहुभाषी भाषण संश्लेषण प्रणाली।
sudo apt-get install festival
echo "hello" | festival --tts
spd-say, वाक्-प्रेषण के लिए पाठ से वाक् आउटपुट अनुरोध भेजता है
sudo apt-get install speech-dispatcher
spd-say "hello"
जासूसी एक बहुभाषी सॉफ्टवेयर भाषण सिंथेसाइज़र है।
sudo apt-get install espeak
espeak "hello"
spd-say
14.04 में पहले से स्थापित प्रकट होता है करने के लिए जा और बाद में: releases.ubuntu.com/trusty/...
sudo pip install gTTS
, (भाषण के लिए Google पाठ / github.com/pndurette/gTTS ) तो gtts-cli "hello" -o hello.mp3
आप इसे भी पाइप कर सकते हैं mpg123 -
। gtts-cli "why, hello there" | mpg123 -
।
spd-say
एक साथ
espeak
/ spd-say
मेम के लिए सबसे अच्छा है (अन्य लोग "मेमे" शब्द का सही उच्चारण नहीं कर सकते हैं)। सबसे अच्छा मैं इसके बैकएंड के रूप में spd-say
उपयोग कर सकता हूं espeak
(आवाजें एक जैसी लगती हैं)।
espeak
एक अच्छा सा उपकरण है।
मुझे बस इसके साथ एक कमांड लाइन में खेलना पसंद है। हो सकता है कि आपको यह पल्सीडियो के साथ टकराव लगे, इसलिए मैं एक लंबे-घुमावदार संस्करण का उपयोग कर रहा हूं जो इसे ठीक से सेट करने के लिए नकारता है।
sudo apt-get install espeak
espeak --stdout "this is a test" | paplay
espeak --help
आपको पढ़ने की गति, पिच, आवाज आदि को कैलिब्रेट करने के विकल्प दिखाएंगे।
जब आप अपने नोट्स कर रहे हों, तो उन्हें टेक्स्ट फाइल के रूप में सहेजें और फिर:
echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"
फिर आप पीसीएम से एमपी 3 या ओजीजी जैसे अधिक प्रबंधनीय कुछ करने के लिए इसे नीचे करने के लिए ffmeg et al के साथ खेल सकते हैं। लेकिन यह एक अलग कहानी है।
से man spd-say
:
नाम spd-say - वाक्-प्रेषण के लिए पाठ-से-वाक् आउटपुट अनुरोध भेजें SYNOPSIS spd-say [विकल्प] "कुछ पाठ" विवरण spd-say, वाक्-प्रेषण प्रक्रिया को टेक्स्ट-टू-स्पीच आउटपुट अनुरोध भेजता है जो इसे संभालता है और आदर्श रूप से परिणाम को आउटपुट करता है ऑडियो सिस्टम के लिए। विकल्प -आर, --रेट भाषण की दर निर्धारित करें (बीच -100 और +100, डिफ़ॉल्ट: 0) -पी, - पिच भाषण की पिच सेट करें (बीच -100 और +100, डिफ़ॉल्ट: 0) -आई, --वोल्यूम भाषण की मात्रा (तीव्रता) (-100 और +100 के बीच, डिफ़ॉल्ट: 0) सेट करें
इसलिए आप निम्नलिखित आदेश द्वारा पाठ से भाषण प्राप्त कर सकते हैं:
spd-say "<type text>"
उदाहरण के लिए:
spd-say "Welcome to Ubuntu Linux"
आप स्पीच रेट, पिच, वॉल्यूम आदि भी देख सकते हैं, मैन-पेज देखें।
spd-say -t female2 "text"
इसे
Mbrola 11.10 के बाद से काम नहीं करता है।
एसवीओएक्स (पिको) उपकरण स्थापित करना आसान है, उपयोग में आसान है और उबंटू में अच्छी गुणवत्ता की आवाजें लाता है। इसे स्थापित करो:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
और भी आसान, आप एसवीओएक्स (पिको) टूल के साथ संयोजन में लिब्रेऑफिस का उपयोग "रीड टेक्स्ट" एक्सटेंशन को स्थापित करके कर सकते हैं और इस उत्कृष्ट टीटीएस सॉफ्टवेयर के लिए "जीयूआई" प्राप्त करते हैं:
उपकरण के साथ पाठ एक्सटेंशन के विकल्प सेट करें - ऐड-ऑन - चयन पढ़ें .... बाहरी प्रोग्राम के रूप में उपयोग करें / usr / bin / python। एक कमांड लाइन विकल्प चुनें जिसमें टोकन शामिल हो (PICO_READ_TEXT_PY)।
पायथन Google Speach:
pip install google_speech
google_speech "Test the hello world"
Android से Svox:
apt-get install svox-pico
pico2wave --wave=test.wav "Test the hello world"
play test.wav
स्वोक्स नैनोट्स:
git clone https://github.com/gmn/nanotts.git
cd nanotts
make
./nanotts -v en-US "Test the hello world"
लिंक - विकी:
google_speech
ubuntu 18.04 मैं स्थापित करने के लिए किया था पर python3-pip
और libsox-fmt-mp3
और प्रयोग pip3 install google_speech
।
निम्नलिखित एक FLOSS समाधान नहीं है, लेकिन आप इसे सार्थक पा सकते हैं। (यह एक शराब समाधान है),
मैं व्यक्तिगत रूप से टीटीएस के लिए बहुत उत्सुक हूं, मैं इसे अक्सर उपयोग करता हूं ... जैसे। एक जुझारू प्रवचन सुनना, जिसे मैं कभी भी दूसरे के साथ नहीं रहना चाहूंगा (क्योंकि मुझे एक और कप कॉफी प्राप्त करने की आवश्यकता है ... :)
कुछ चीजें जो मैंने रास्ते में खोजी हैं .. या मुझे कहना चाहिए, जिन चीजों को मैंने रास्ते में नहीं खोजा है ... इसे स्पष्ट रूप से कहने के लिए: मेरे द्वारा कोशिश की गई FOSS TTS आवाज सॉफ्टवेयर का हर टुकड़ा बराबर है और इसलिए किसी भी अर्ध-विचलित सुनने के लिए अनुपयुक्त ...
मैं वर्तमान में ATnT's NaturalVoices का उपयोग करता हूं। यह केवल विंडोज (शायद मैक) के लिए उपलब्ध है, लेकिन यह wine
उबंटू में चलता है .. (इसमें मामूली ग्लाइच है, जहां मुझे पाठक से दूर जाने पर कभी-कभी पैनल पर क्लिक करने की आवश्यकता होती है ... यह एक मामूली है मुद्दा जब NatualVoices से भाषण की गुणवत्ता द्वारा प्राप्त लाभ की तुलना में।
कुछ अन्य चीजें जिन्हें मैंने लगभग आधा-समझदार सुनने के अनुभव के लिए आवश्यक पाया है, वे हैं; ...
ये टीटीएस प्रोगाम बुद्धिमान नहीं हैं (अच्छी तरह से शायद एक युवा बबून के रूप में बुद्धिमान हैं) .. इसलिए उन्हें हर संभव मदद की आवश्यकता है जो वे प्राप्त कर सकते हैं। और एक (और केवल एक रीडर प्रोग्राम है जो मैंने पाया है जो इस में बहुत मदद करता है। ऐप को कहा जाता है ReadPlease (2003 Pro)
... यह आपको विशेष रूप से शब्दों और समूहों के शब्दों को संशोधित करने की अनुमति देता है जैसा कि आप उन्हें चाहते हैं ... किसी भी तरह से सही नहीं है, लेकिन मेरे लिए, इसने पूरी प्रक्रिया के बीच अंतर किया और प्रयोग करने योग्य नहीं है ...
प्राकृतिक आवाज़ों में भाषण "ठीक है", लेकिन यह थोड़ा उबाऊ है। अन्य अच्छे उत्पाद भी हैं, लेकिन वे सभी विंडोज़ के लिए हैं, दुर्भाग्य से) ..
यह कभी-कभी आश्चर्यचकित करता है .. लेकिन OMG, शुरू में यह एक दर्द है! .. इसलिए # 2 * धैर्य है ... और आपके "विशेष शब्दों" की सूची के बहुत सारे अद्यतन ... धैर्य से, मेरा मतलब है कि आप (मैं) वास्तव में मेरे विशेष बबून के भाषण पैटर्न के आदी हो गए:) ... और द्वारा जिस तरह से, मेरे पास वर्तमान में लगभग 3000 शब्द हैं जो अब "ह्यूमन" को पर्याप्त रूप से ध्वनि देते हैं कि जब मैं उन्हें सुनता हूं तो मुझे कोई परेशानी नहीं होती है।
3 .. "बाउंसिंग बॉल का अनुसरण करें" ... फिर से क्योंकि आवाज कभी भी एक वास्तविक वक्ता के रूप में अच्छी नहीं होती है, चीजों को कभी-कभी स्पष्ट करने की आवश्यकता होती है .. मेरे द्वारा उपयोग किए जाने वाले रीडर प्रोग्राम की एक विशेषता है जिसके लिए मैंने इसके क्लंकी दिखने वाले इंटरफ़ेस के साथ भी लगाया है .... एक "वर्तमान में पढ़ा जा रहा है" शब्द विकल्प है .. कई पाठकों के पास यह है, लेकिन ReadPlease वर्तमान लाइन धमाके को चालू रखता है स्क्रीन का केंद्र .. यह आगे और पीछे देखने में सक्षम होने के लिए अमूल्य है जो आपने अभी-अभी याद किया था (इसलिए ऑटो-सेंटरिंग क्यूरेंट लाइन अच्छी है) ...
खैर यह मेरा अनुभव है .. मैं अब एक कॉफी बनाने जा रहा हूं, और जब मैं इसे कर रहा हूं, तो मैं यह सुन रहा हूं, यह देखने के लिए कि यह "कैसे पढ़ता है" .... टीटीएस को आश्चर्यजनक रूप से अच्छा लगता है typos (मैं टाइपो के बहुत सारे बनाते हैं) ...
यदि ATnT NaturalVoices उबंटू रिपॉजिटरी में बदल जाता है तो कुछ अच्छा है, मैं इस पर कूदूंगा।
यहाँ प्राकृतिक आवाज़ों के कुछ नमूनों की एक कड़ी दी गई है : मैं "MIke" का उपयोग करता हूं
SVOX pico2wave
कि मैं क्या उपयोग करता हूं। और यह स्वाभाविक लगता है, यह समझना आसान है, यह इकाइयों (मीटर, डिग्री सेल्सियस, किलो, ...) को पहचानता है
यहाँ pico2wave के लिए मेरी पहली पोस्ट है
भाषण के लिए प्राकृतिक ध्वनि पाठ?
तुमको बस यह करना है:
Ubuntu सॉफ्टवेयर सेंटर पर जाएं और "पिको" खोजें। आपको "छोटे पदचिह्न लिंग ..." के साथ 4 या 5 प्रविष्टियाँ मिलेंगी। उन्हें स्थापित करें।
Pico2wave का एक संभावित उपयोग मेरी पहली पोस्टिंग में वर्णित है (ऊपर दिए गए लिंक का अनुसरण करें)।
अलविदा
के लिए festival
(आवाज मुझे अधिक स्वाभाविक लगती है):
sudo apt-get install festival
echo "hello" | festival --tts
पिच और गति विन्यास:
बनाएं ~/.festivalrc
:
(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100")
(Parameter.set 'Audio_Method 'Audio_Command)
Http://www.solomonson.com/content/ubuntu-linux-text-speech भी देखें
अद्यतन: एक और ubuntu कंप्यूटर पर कोशिश की। त्योहार के साथ ठीक से काम करने के लिए अंग्रेजी भाषण इंजन पैकेज स्थापित करना था:
sudo apt-get install festvox-kallpc16k
यह play
भी एक cli कमांड है जो sox
पैकेज के साथ आती है:
sudo apt-get install sox
हालांकि आप पहले से ही एक जवाब स्वीकार कर चुके हैं, मैं उल्लेख करना चाहता था festival
, जो मुझे काफी पसंद है। उबंटू मंचों पर इस पोस्ट में इसके लिए बहुत अच्छी आवाजें प्राप्त करने पर बहुत सारी जानकारी है।
मिलो espeak-ng
- एक बहुभाषी सॉफ्टवेयर भाषण सिंथेसाइज़र:
espeak-ng "text to read"
espeak-ng -f "~/file to read"
यह एक डिफ़ॉल्ट अंग्रेजी आवाज का उपयोग करता है, लेकिन अन्य भाषाओं और यहां तक कि बोलियों के लिए कई अन्य आवाजें उपलब्ध हैं और espeak-ng --voices
(सभी के लिए) या जैसे espeak-ng --voices=en
(अंग्रेजी के लिए ) के साथ सूचीबद्ध किया जा सकता है । उन्हें -v
स्कॉटिश या स्वाहिली भाषा उदाहरण या फ़ाइल नाम के साथ सेट किया जा सकता है :
espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili
कई अन्य विकल्प उपलब्ध हैं, उदाहरण -s
के लिए गति के लिए और -w
एक तरंग फ़ाइल में आउटपुट लिखने के लिए, नीचे दिए गए मैनपेज को देखें।
espeak-ng
("अगली पीढ़ी" के लिए "एनजी") मूल espeak
भाषण सिंथेसाइज़र सॉफ़्टवेयर का सक्रिय रूप से विकसित कांटा है , विकिपीडिया पर इतिहास अध्याय देखें । दोनों आधिकारिक स्रोतों से पैकेज के माध्यम से espeak
या espeak-ng
क्रमशः उपलब्ध हैं।
शराब के तहत बलाबोलका SAPI4 आवाजों के साथ (मेरे लिए) ठीक काम करता है (SAPI5 आवाजें मेरे लिनक्स पर नहीं पाई जाती हैं)। यह फाइलें खोल सकता है और पढ़ना शुरू कर सकता है।
यहाँ पर बालाबोल्का के लिए शराब की AppDB प्रविष्टि का लिंक दिया गया है: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859
टूल जीटीटीएस टेक्स्ट से ऑडियो फाइल बनाने के लिए बहुत अच्छा है। यह Google Translate के टेक्स्ट-टू-स्पीच एपीआई का उपयोग करता है, और एमपी 3 फ़ाइलों को उत्पन्न करता है।
यह देखते हुए कि यह pip
स्थापना के लिए उपयोग करता है, मैं दृढ़ता से आपको मिनिकोंडा स्थापित करने की सलाह देता हूं, और फिर conda
एक वातावरण बनाने के लिए उपयोग करता हूं जहां आप जीटीटीएस स्थापित कर सकते हैं। आप यहाँ से मिनिकोंडा डाउनलोड कर सकते हैं:
https://docs.conda.io/en/latest/miniconda.html
GTTS के लिए GitHub रिपॉजिटरी है:
https://github.com/pndurette/gTTS
और आप यहां जीटीटीएस के दस्तावेज पा सकते हैं: