भाषण के लिए प्राकृतिक ध्वनि पाठ?


85

मुझे लगता है कि उबंटू के लिए टेक्स्ट सॉफ़्टवेयर को स्थापित करने के लिए कुछ आसान की तलाश है जो प्राकृतिक लगता है। मैंने स्थापित किया है Festival, Gespeakerआदि, लेकिन कुछ भी बहुत स्वाभाविक नहीं लगता है। सभी बहुत ही सिंथेटिक और समझने में कठिन।

वहाँ कोई सिफारिशें?


जवाबों:


51

SVOX pico2wave

एक बहुत न्यूनतर TTS, जासूसी या mbrola की तुलना में बेहतर लग रहा है (मेरे दिमाग में)। कुछ जानकारी यहाँ

मुझे समझ में नहीं आ रहा है कि पीक 2wave क्यों जासूसी या मबरोला की तुलना में है, शायद ही कभी चर्चा की गई हो। यह छोटा है, लेकिन वास्तव में अच्छा (प्राकृतिक) लगता है। संशोधन के बिना आप एक प्राकृतिक लग रही महिला आवाज सुनेंगे।

और ... Mbrola की तुलना में, यह इकाइयों को पहचानता है और इसे सही तरीके से बोलता है!
उदाहरण के लिए:

  • 2 डिग्री सेल्सियस → दो डिग्री
  • 2 मी → दो मीटर
  • 2 किग्रा → दो किलोग्राम

स्थापना के बाद मैं इसे एक स्क्रिप्ट में उपयोग करता हूं:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

फिर इसे वांछित पाठ के साथ चलाएं:

<scriptname>.sh "hello world"

या संपूर्ण फ़ाइल की सामग्री पढ़ें:

<scriptname>.sh "$(cat <filename>)"

उबंटू में एक हल्का, स्थिर काम करने वाला टीटीएस है।


1
जहाँ तक मैं देख सकता हूँ, यह केवल इनपुट के रूप में cli पैरामीटर का उपयोग करता है। वहाँ किसी भी तरह से मैं एक फ़ाइल नाम से पाठ पढ़ने के लिए pico2wave मिल सकता है?
कार्लोस यूजेनियो थॉम्पसन पिनज़ोन

13
pico2wavelibttspico-utilsubuntu के हाल के संस्करणों में पैकेज में है। @ कार्लोसइगुएनियोहोमप्सपिनज़ोनcat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
0101

1
@ कार्लोसुगेनियोथोमसनपीनज़ोन pico2wave -w a.wav "$(input.txt)"=)। इस बात से सहमत हैं कि यह सीएलआई इंटरफेस खराब डिजाइन है: सीएलआई के विशाल बहुमत के विपरीत, और ओएस अधिकतम सीएलआई की लंबाई तक पहुंचने के लिए संभव है ।
सिरो सेंटिल्ली 新疆 改造 iro i 事件 '

1
@ मैं नहीं जानता! :-) किसी भी अन्य समस्या की तरह, एक न्यूनतम उदाहरण प्रस्तुत करने का प्रयास करें, उदाहरण के लिएecho {1..1000}
Ciro Santilli other,,, 法轮功 六四

1
@ user49557 हम दूसरों के प्रश्नों को हाईजैक करने वाले नहीं हैं, इसलिए हो सकता है कि आप एक नया प्रश्न बना सकें, यह समझाते हुए कि आपने वास्तव में क्या स्थापित किया है, और यह क्या है कि गलत हुआ, और फिर मैं हमेशा आपकी मदद कर सकता हूं (कोई गारंटी नहीं, हालांकि , मैं एक विशेषज्ञ नहीं हूं: पी)
कोएन

22

इसे बोले!

मेरा मानना ​​है कि Ive को "SpeakIt" नामक Google Chrome एक्सटेंशन का उपयोग करके मुफ्त में सबसे अच्छा टीटीएस सॉफ़्टवेयर मिला। यह केवल उबंटू पर मेरे लिए क्रोम ब्राउज़र में काम करता है। यह किसी कारण से क्रोमियम के साथ काम नहीं करता है। SpeakIt दो महिला आवाज़ों के साथ आता है, जो दोनों बाहर की बाकी चीज़ों की तुलना में बहुत यथार्थवादी लगती हैं। यदि आप Chrome वेब स्टोर पर "TTS" को अपनी क्वेरी के रूप में खोजते हैं तो कम से कम चार और पुरुष और महिलाएँ सूचीबद्ध हैं, जो Chrome एक्सटेंशन सूचीबद्ध हैं।

उपयोग : एक वेबसाइट पर उपयोग के लिए। आप उस पाठ को हाइलाइट करते हैं जिसे आप पढ़ना चाहते हैं और या तो राइट क्लिक करें और "SpeakIt" या Chrome शीर्ष बार पर डॉक इट आइकन क्लिक करें।


फ़ायरफ़ॉक्स उपयोगकर्ताओं के पास दो विकल्प भी हैं। फ़ायरफ़ॉक्स addons के भीतर, टीटीएस के लिए एक खोज करें और आपको "क्लिक स्पीक" और "टेक्स्ट टू वॉयस" भी मिलनी चाहिए। आवाजें Chrome SpeakIt की आवाज़ों जितनी अच्छी नहीं हैं, लेकिन निश्चित रूप से उपयोग करने योग्य हैं।

SpeakIt एक्सटेंशन iSpeech तकनीक का उपयोग करता है और प्रति वर्ष $ 20 की कीमत के लिए, साइट टेक्स्ट को MP3 ऑडियो फाइलों में बदल सकती है। आप पाठ, URL, RSS फ़ीड्स, साथ ही TXT, DOC और PDF जैसे दस्तावेज़ और एमपी 3 को आउटपुट कर सकते हैं। आप पॉडकास्ट कर सकते हैं, ऑडियो को एम्बेड कर सकते हैं, आदि यहां एक लिंक है , और उनके ऑडियो का एक नमूना (पता नहीं कब तक लिंक चलेगा)।


3
दुर्भाग्य से कोई भी ब्राउज़र विकल्प पीडीएफ फाइलों के लिए काम नहीं करता है। क्या आप ऐसा करते हैं? मैं एक पीडीएफ से पढ़ने के लिए पैराग्राफ का चयन करने में सक्षम होना चाहता हूं (अर्थात टर्मिनल या अन्य के लिए बिट्स पेस्ट करने की आवश्यकता नहीं है)
जेम्स ओनर्स

1
यह विस्तार डेबियन 8.4 और इसके महान का उपयोग करके क्रोमियम 50.0.2661.94 पर मेरे लिए काम करता है! मैं विशेष रूप से अंग्रेजी महिला आवाज को पसंद करता हूं। मेरी एकमात्र शिकायत यह है कि यह अल्पविराम पर बहुत लंबे समय तक रुकता है।
mulllhausen

यह अक्सर शब्दों को गलत तरीके से बताता है और पाठ को एक अलग सर्वर पर भेजने के लिए समय लेता है, बल्कि तब केवल अपने सिस्टम का उपयोग कर रहा है।
गोडार्ड

14

पिको और एस्पेक काम करने के लिए मज़ेदार और आसान हैं, लेकिन वे सभी अच्छे नहीं हैं। डिफ़ॉल्ट फेस्टिवल की आवाजें भी उतनी अच्छी नहीं हैं। हालांकि, फेस्टिवल एक योजना-आधारित भाषण ढांचा है, जहां कई शोधकर्ताओं ने बहुत बेहतर प्लग-इन आवाजें बनाई हैं। आप आसानी से स्टॉक उबंटू पर पिको 2वेव की गुणवत्ता को पार कर सकते हैं, क्योंकि उनमें से एक आवाज तैयार पैकेज के रूप में उपलब्ध है।

फेस्टिवल को स्वाभाविक बनाने के लिए, यहाँ क्या करना है:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

आप इसे कमांड लाइन से -b(या --batch) का उपयोग करके और प्रत्येक कमांड को सिंगल कोट्स में डालकर कर सकते हैं :

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

आप Nitech रिपॉजिटरी से अन्य काफी अच्छी आवाजें प्राप्त कर सकते हैं, लेकिन उन्हें स्थापित करना बहुत कठिन है, और डिफ़ॉल्ट पथ बदल गए हैं इसलिए बंडल स्कीम फ़ाइलों में फ़ाइल नाम संदर्भों को स्टॉक उबंटू पर काम करने के लिए मैन्युअल रूप से संपादित करने की आवश्यकता हो सकती है।


2
Btw, Ubuntu 16.04 में, यह पैकेज याद आ रहा है। आप डाउनलोड करने और डेबियन से देब स्थापित करने और यह ठीक काम करेंगे कर सकते हैं: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg मैं डाउनलोड / festvox-हमें-SLT-hts_0.2010.10। 25-2_all.deb
जॉन Watte

13

सरल Google ™ टीटीएस

प्रोजेक्ट पेज से अपडेट (2019-02) : यह परियोजना वर्तमान में अस्वीकार्य है और भविष्य के भविष्य के लिए इतनी ही रहेगी


एक बेहतर विकल्प की कमी के कारण मैंने एक बैश स्क्रिप्ट लिखी, जो Google अनुवाद के माध्यम से टीटीएस प्रदान करने के लिए मीकल फ़ाप्सो द्वारा एक पर्ल स्क्रिप्ट के साथ इंटरफेस करती है । परियोजना विवरण से:

आशय यह है कि Google के स्पीच सिंथेसिस सिस्टम के माध्यम से टेक्स्ट-टू-स्पीच आउटपुट के लिए इंटरफ़ेस का उपयोग करना आसान हो। कोई इंटरनेट कनेक्शन नहीं मिलने की स्थिति में pico2wave का उपयोग करने वाला फ़ॉलबैक विकल्प स्वतः ही TTS संश्लेषण प्रदान करता है।

जैसा कि यह खड़ा है, रैपर मानक इनपुट, सादे पाठ फ़ाइलों और एक्स चयन (हाइलाइट किए गए पाठ) से पढ़ने का समर्थन करता है।

मुख्य विशेषताएं हैं:

  • Google अनुवाद के माध्यम से ऑनलाइन टीटीएस संश्लेषण
  • pico2wave के माध्यम से ऑफ़लाइन टीटीएस संश्लेषण
  • विभिन्न भाषाओं का समर्थन करता है
  • सीएलआई, पाठ फ़ाइलों और हाइलाइट किए गए पाठ से पढ़ सकते हैं
  • फिक्स्ड फॉर्मेटिंग के साथ हाइलाइटेड टेक्स्ट को पढ़ने का समर्थन करता है (जैसे पीडीएफ फाइलें)

स्थापना और उपयोग परियोजना पृष्ठ पर प्रलेखित हैं ।

मुझे खुशी होगी अगर आपने इसे आज़माया। बग रिपोर्ट और किसी भी अन्य प्रतिक्रिया का स्वागत है!


यह मेरे द्वारा देखे गए सबसे अच्छे प्रोजेक्ट्स में से एक है। बस वाह। 😲

5
यह अब बनाए नहीं रखा जा रहा है।
गोड्डा

8

मैंने उबंटू के लिए उच्च गुणवत्ता वाले पाठ के लिए उच्च और निम्न देखा है। वहां कोई नहीं है। मेरे मुखर तार लकवाग्रस्त हैं इसलिए मुझे अपने उबंटू वीडियो में आवाज निर्देश जोड़ने के लिए टीटीएस की आवश्यकता थी । आप व्यावसायिक उच्च गुणवत्ता वाले लिनक्स पाठ से वाक सॉफ्टवेयर तक प्राप्त कर सकते हैं । यह वास्तव में महंगा है। मैंने $ 40 के लिए विंडोज के लिए प्राकृतिक रीडर (उबंटू में शराब के तहत काम नहीं करता) खरीदना समाप्त कर दिया। शायद बाद में मुझे लिनक्स एक मिलेगा।


यार, वहाँ है और मैं इसे पिछले हफ्ते की तरह इस्तेमाल कर रहा था कम से कम 5 या 6 हैं और मैं अपने जीवन के लिए अब उनमें से किसी को नहीं ढूंढ सकता, हमारे समुदाय को प्यार
करेगा

Textaloud में शराब के तहत अपने उत्पाद को बनाने के निर्देश हैं। अगला देखें । मैं अपने पसंदीदा सॉफ्टवेयर बालबोलका को काम करने में सक्षम नहीं कर पाया हूं। मेरे पास विंडोज़ 10 है जो ज्यादातर टीटीएस प्रसंस्करण के लिए स्थापित है। एमएस डेविड अच्छा है और cepstral david के समान है। यदि आपके पास विंडोज़ 10. है तो पूर्व नि: शुल्क है।
भिक्खु सुभूति

6

मैं सबसे अच्छा लग रहा है और आसानी से भाषण वाणी को पाठ पढ़ा पर अनुसंधान का आयोजन किया गया है। नीचे इस बात की एक सूची दी गई है कि मैंने सोचा कि ध्वनि की गुणवत्ता के क्रम में शीर्ष 5 उत्पाद कौन से हैं। इन उत्पादों से जुड़ी अधिकांश वेबसाइटों में एक इंटरैक्टिव डेमो होता है जो आपको अपना निर्धारण करने की अनुमति देगा।

  1. NeoSpeech
  2. Ivona
  3. Acapela
  4. एटी एंड टी प्राकृतिक आवाज
  5. CereProc आवाज

1
वहाँ लिनक्स के लिए उपलब्ध हैं? ऐसा
मत

5

मुझे त्योहार पर एनटेक एचटीएस की आवाजें बहुत ही स्वाभाविक लगती हैं और मैंने जो भी आवाजें सुनी हैं, उन सभी पर मुझे सुकून मिलता है। त्योहार के साथ एनटेक और अन्य ध्वनियों को कैसे सेट किया जाए, इस लिंक पर देखें । मुझे एक अच्छा गुई नहीं मिला है जिसका उपयोग मैं उन आवाज़ों को कॉन्फ़िगर करने के लिए कर सकता हूं, लेकिन उन्हें त्योहार के माध्यम से सेट करना। अभी भी काम करता है। वह पोस्ट बहुत पुरानी है और आप "फाइंड फेस्टिवल" कमांड का उपयोग करके वास्तविक इंस्टॉलेशन डायरेक्टरी ढूंढना चाहते हैं


बहुत अच्छा लगता है। यहां डेमो मिला cstr.ed.ac.uk/projects/festival/onbuildemo.html
Iacchus

2
हां, Nitech की आवाज़ें अन्य फ़ेस्टिवल वॉयस (CMU आवाज़ों को छोड़कर, जो कि बहुत अच्छी हैं, के ऊपर कंधे और कंधे होते हैं।) बहुत खराब हैं जिन्हें इंस्टॉल करना मुश्किल है। एक अच्छी सीएमयू आवाज है जिसमें उबुनुत में एक डिफ़ॉल्ट पैकेज है, इसे cmu_us_slt_arctic_hts कहा जाता है और पैकेज उत्सव-us-slt-hts में आता है। यह पिको या एस्पेक से बहुत बेहतर है!
जॉन वाट

5

लिब्रे ऑफिस के साथ SVOX टूल (पिको) को मिलाएं:

एसवीओएक्स (पिको) उपकरण स्थापित करना आसान है और उबंटू में अच्छी गुणवत्ता की आवाजें लाता है। इसे स्थापित करो:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

आप "रीड टेक्स्ट" एक्सटेंशन इंस्टॉल करके एसवीओएक्स (पिको) टूल के साथ संयोजन में लिबरऑफिस का उपयोग कर सकते हैं और आपको इस उत्कृष्ट टीटीएस सॉफ्टवेयर के लिए "जीयूआई" प्राप्त होता है:

उपकरण के साथ पाठ एक्सटेंशन के विकल्प सेट करें - ऐड-ऑन - चयन पढ़ें .... बाहरी प्रोग्राम के रूप में उपयोग करें / usr / bin / python । एक कमांड लाइन विकल्प चुनें जिसमें टोकन शामिल हो (PICO_READ_TEXT_PY) , आप उनमें से कुछ का प्रयोग करना चाह सकते हैं।

अब आपको केवल एक टूल बार (बैलून के साथ एक खुश चेहरे) के रूप में जोड़े गए आइकन पर एलओ राइटर, कैल्क, इंप्रेस या ड्रॉ और क्लिक में कुछ टेक्स्ट का चयन करना होगा।


4

यहाँ मैंने पीडीएफ और अन्य पाठ फ़ाइलों के लिए शुद्ध प्राकृतिक भाषण दिया है (अन्य समाधान प्राकृतिक नहीं हैं या वे केवल भुगतान की गई सेवाएं हैं)। यह वास्तव में क्रोमियम या क्रोम का उपयोग करने के आसपास का एक काम है, लेकिन तेज और आसान काम करता है।

  1. SpeakIt स्थापित करें ! अपने क्रोम या क्रोमियम पर विस्तार।
  2. यदि आप क्रोमियम का उपयोग कर रहे हैं तो पीडीएफ व्यूअर स्थापित करें (क्रोम में पहले से ही एक पीडीएफ दर्शक मुफ़्त है) और क्रोमियम की एक्सटेंशन सेटिंग्स में 'अनुमति दें गुप्त' और 'URL को फ़ाइल में प्रवेश की अनुमति दें' विकल्प की जाँच करें।
  3. अपने पीडीएफ को ब्राउजर में खींचें और छोड़ें।
  4. अब कुछ टेक्स्ट को हाइलाइट करें और राइट क्लिक करें और SpeakIt चुनें! तो आप शुद्ध प्राकृतिक पाठ से भाषण सुन सकते हैं।

अन्य फ़ाइलों को खोलने के तरीके भी हैं। जैसे कि क्रोम में .txt और वही करें। क्रोम के लिए अन्य एक्सटेंशन हैं जो पीडीएफ फाइलों को देखते हैं, जांचें कि क्या यह आपको बेहतर लगता है। इसके अलावा आप Google Drive में सभी प्रकार के ग्रंथ अपलोड कर सकते हैं और SpeakIt का उपयोग कर सकते हैं! आपके लिए इसे पढ़ने के लिए। एक अन्य एक्सटेंशन जिसे 'स्पीक टेक्स्ट' कहा जाता है, उसी तरह काम करता है और इसमें प्राकृतिक भाषण होता है।


क्या आप इस बारे में विस्तार से बता सकते हैं कि Google ड्राइव में सहेजी गई स्पीक पीडीएफ फाइलों को कैसे बनाया जाता है?
मार्को लैकोविक

2

नए फ़ायरफ़ॉक्स 49 कथा मोड के साथ उपयोग करने के लिए एक बेहतर टीटीएस इंजन की खोज करते समय मुझे पिको टीटीएस (svox) मिला - मेरा पसंदीदा टीटीएस इंजन।

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

डिफ़ॉल्ट भाषण संश्लेषण इंजन प्रणाली को कैसे बदलें?

मेहराब पर लोगों ने मुझे सही रास्ते पर लाया:

आपके द्वारा पसंद किए जाने वाले मॉड्यूल को रद्द करें और इसे भाषण-डिस्पैचर सेटिंग्स में डिफ़ॉल्ट बनाएं:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

डेमॉन को फिर से शुरू करें:

# sudo systemctl restart speech-dispatcher.service

लेकिन, फिर से फ़ायरफ़ॉक्स शुरू करते समय, कुछ भी नहीं होता है। ऊपर दिए गए लिंक के अनुसार (कट्टर मंच पोस्ट # 10 और # 16) त्योहार के साथ काम करता है (कोशिश नहीं की), लेकिन पिको के लिए भाषण-डिस्पैचर उपलब्ध आवाज़ों को सूचीबद्ध नहीं करता है। यह नहीं चलेगा।

किसी भी विचार वहाँ बहुत सराहना की जाएगी ;-)


1

मेरे पसंदीदा टेक्स्ट-टू-स्पीच प्रोग्राम को मैजिक इंग्लिश कहा जाता है, लेकिन जोए स्टीगर द्वारा उल्लिखित नेचुरल रीडर की तरह, यह एक विंडोज प्रोग्राम है और मुझे यकीन नहीं है कि यह वाइन के तहत चलेगा।

एटी एंड टी नेचुरल वॉयस ऑनलाइन एक डेमो के रूप में उपलब्ध है, लेकिन यह एक समाधान की तुलना में काम के आसपास अधिक है ...


1

सरल Google ™ टीटीएस

2017 में पिको, mbrola, cmu, त्योहार, flite, सभी SUCK (वे 90 के दशक में अद्भुत थे)। एटी एंड टी नेचुरल स्पीच (जो शानदार है) लिनेक्स कम्पीट नहीं है और यह फ्री नहीं है, इसलिए हम Google का उपयोग करते हैं

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

यह Glutanimate उत्तर (उस परियोजना के लेखक) का एक डुप्लिकेट है । इसके अलावा: "स्थिति अपडेट: यह परियोजना वर्तमान में अस्वीकार्य है और भविष्य के भविष्य के लिए इतनी ही रहेगी।" वह कुछ विकल्प
पाब्लो ए

1

gTTS

Google अनुवाद के टेक्स्ट-टू-स्पीच एपीआई के साथ इंटरफेस करने के लिए gTTS ( Google टेक्स्ट-टू-स्पीच ), एक पायथन लाइब्रेरी और CLI टूल। mp3किसी फ़ाइल में बोले गए डेटा, आगे की ऑडियो हेरफेर के लिए फ़ाइल जैसी वस्तु (बाइटस्ट्रिंग) या stdout

विपक्ष : सीएलआई-केवल। Google सार्वजनिक ओपन एंडपॉइंट के लिए अनुरोध करने के लिए ऑनलाइन होना आवश्यक है।

sudo -H pip install gTTS  # Install

प्रयोग

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

प्रलेखन और अधिक उदाहरण

अन्य

कुछ पहले से ही उल्लेख किया गया था


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.