उच्च गुणवत्ता (वाणिज्यिक) अंग्रेजी भाषण सॉफ्टवेयर के लिए पाठ? [बन्द है]


2

मैं एक सॉफ्टवेयर प्रोजेक्ट पर काम कर रहा हूं और मैं टेक्स्ट-टू-स्पीच उत्पादों का उपयोग करने के लिए शोध कर रहा हूं। क्या किसी को पता है कि आर्ट टेक्स्ट-टू-स्पीच सिस्टम की वर्तमान स्थिति क्या है? आदर्श रूप से भाषण एक मूल अमेरिकी या अंग्रेजी वक्ता से अप्रभेद्य होना चाहिए। मैं एसडीके या एपीआई वाले उत्पादों की तलाश कर रहा हूं जिन्हें मैं आसानी से हुक कर सकता हूं।

बस अपने प्रश्न पर स्पष्ट करने और पुनरावृत्ति करने के लिए - मैं माइक्रोसॉफ्ट के मुफ्त टेक्स्ट-टू-स्पीच सिंथेसिस प्रोग्राम जैसी चीजों की तलाश नहीं कर रहा हूं, मैं एक उच्च गुणवत्ता वाले पेशेवर उत्पाद की तलाश कर रहा हूं।


@Pycogeek मैंने एक गलती की। यह "पाठ से भाषण" है। मैं इसे अब ठीक कर रहा हूं। (अब किया - गलती सुधार ली।)
bodacydo

मुझे क्षमा करें @iglvzx और @random? आपने प्रश्न बंद क्यों किया? यह एक वैध सॉफ्टवेयर प्रश्न है।
बॉडासिडो

शॉपिंग सवालों के एसई नेटवर्क भर में विषय से दूर कर रहे हैं
यादृच्छिक

@ आयामी - मुझे खेद है, यह खरीदारी का सवाल नहीं था। मैंने केवल उस बजट का उल्लेख किया था जो मुझे समाधान के लिए आवंटित किया गया था, और यह कि मैं $ 35 विंडोज़ एपीआई रैपर शेयरवेयर की तलाश नहीं कर रहा था, बल्कि एक बहुत ही गंभीर उत्पाद के लिए। क्या मैं प्रश्न को संपादित कर सकता हूं और आप इसे फिर से उपलब्ध कराएंगे?
बॉडासिडो

1
उत्तर के लिए धन्यवाद @random। कुछ लोग मेरे प्रश्न का उत्तर देने और मुझे एक समाधान पर शोध करने के लिए विचार देने में कामयाब रहे।
बॉडासिडो

जवाबों:


4

टेक्स्ट टू स्पीच के लिए शीर्ष आवाजें जो मैंने अब तक ब्रांडिंग द्वारा सुनी हैं।
Acapela आवाज़ http://www.acapela-group.com/text-to-speech-interactive-demo.html
Cepstral http://cepstral.com/demos/
ATT प्राकृतिक http://www2.research.att.com/ ~ ttsweb / tts / Demo.php
Nuance RealSpeak Voices http://www.nuance.com/vocalizer5/flash/index.html
माइक्रोसोफ़्ट संस्करण
एल एंड एच एंड ट्रू वॉयस, सबसे निचले पायदान पर है, जब तक कि उन्होंने हाल ही में सुधार नहीं किया।

(निश्चित नहीं है कि इसे कहां रखा जाए) Cereproc http://www.cereproc.com/support/live_demo

मुझे लगता है कि "अमेरिकी" प्रकार की आवाज़ें "अमेरिकी" आवाज़ों की तुलना में मेरे अमेरिकी परिप्रेक्ष्य से "बेहतर" ध्वनि कर सकती हैं। या तो उच्चारण अधिक समस्याओं को छिपा रहा है, या मैं यूके के विभक्तियों और बारीकियों के बारे में पर्याप्त रूप से नहीं जानता कि यह कितना महत्वपूर्ण है।

SAPI 4 & 5 का उपयोग करके सभी थ्रेड विंडोज़ सिस्टम पर चलेंगे।
आवाजें वह सब नहीं हैं, जिसकी जरूरत सही आवाज के लिए है, हालांकि, शब्दकोशों, उच्चारण संपादन के साथ एक अच्छा कार्यक्रम, और विशिष्ट शब्दों के लिए आवाज की सामान्य ट्यूनिंग एक वास्तविक मानव की तरह लगने के करीब पहुंचना चाहती है।

इस स्थान http://www.nextup.com/TextAloud/SpeechEngine/voices.html में बहुत सारे नमूने हैं जिन्हें आप आवाज़ सुन सकते हैं। यह विभिन्न स्वरों का अच्छा संकलन था।

वे सबसे अच्छी आवाज़ें जो वे कहते हैं (मैंने उन्हें अभी तक नहीं सुना है) अकेले सिस्टम के साथ काम नहीं करते हैं, वे केवल आवाज के लिए अलग कार्यक्रम के माध्यम से काम करते हैं। कार्यक्रम और आवाज की जरूरत है और एक साथ काम करना है। मुझे अभी तक नहीं मिला है।


1

मैं भाषण सिंथेसाइज़र का विशेषज्ञ नहीं हूं, लेकिन मुझे लगता है कि सबसे अच्छा समाधान शायद विभिन्न कारकों पर निर्भर करता है। उदाहरण के लिए:

  • क्या आप एक हार्डवेयर या सॉफ्टवेयर समाधान की तलाश कर रहे हैं?
  • क्या स्मृति पदचिह्न या संसाधन तीव्रता पर कोई सीमा है? क्या बैंडविड्थ विचार हैं?
  • क्या आपको कस्टम एकीकरण की आवश्यकता है?
  • आप गुणवत्ता कैसे परिभाषित करते हैं? क्या स्वाभाविकता अधिक महत्वपूर्ण या समझदारी या संगति है? यानी कंसेंटेटिव सिंथेसिस आमतौर पर सबसे प्राकृतिक / मानव-आवाज़ वाली आवाज़ें पैदा करता है क्योंकि इसे वास्तविक मानव आवाज़ों के छोटे रिकॉर्ड किए गए स्निपेट्स से बनाया जाता है। हालाँकि, यह बहुत ही टेलेंटेड ग्लिच का उत्पादन करता है जहाँ विभिन्न रिकॉर्डिंग को एक साथ जोड़ा जाता है जो पूरी तरह से सिंथेटिक आवाज़ में नहीं होता है।
  • आप किस प्रकार की आवाज की तलाश कर रहे हैं? अधिकांश भाषण संश्लेषण कार्यक्रमों में महिला की तुलना में बहुत अधिक यथार्थवादी पुरुष स्वर हैं। इसके अलावा, एक अमेरिकी के रूप में, विदेशी (जैसे ऑस्ट्रियाई या ब्रिटिश) लहजे के साथ आवाजें मुझे अमेरिकी आवाज की तुलना में अधिक स्वाभाविक लगती हैं।
  • इसी तरह, कुछ भाषण इंजन विन्यास की एक सीमा में प्राकृतिक ध्वनि भाषण का उत्पादन करते हैं, जबकि अन्य में समग्र गुणवत्ता कम हो सकती है लेकिन एक विशिष्ट कॉन्फ़िगरेशन में अत्यंत यथार्थवादी भाषण का उत्पादन कर सकते हैं।
  • एक अन्य एप्लिकेशन-विशिष्ट विचार इनपुट टेक्स्ट की विविधता है जिसे आप प्राप्त करना चाहते हैं। क्योंकि डोमेन-विशिष्ट भाषण संश्लेषण कार्यक्रम सबसे यथार्थवादी हो सकते हैं क्योंकि वे पूरे शब्दों या वाक्यांशों के वास्तविक पूर्व-रिकॉर्डिंग से उत्पन्न होते हैं। लेकिन इसका उपयोग केवल तब किया जा सकता है जब इनपुट टेक्स्ट एक विशिष्ट डोमेन से आता है जिसे आसानी से लागू किया जा सकता है (उदाहरण के लिए एक सिस्टम जो मूवी बार या बस शेड्यूल आदि पढ़ता है)। यदि इनपुट डोमेन काफी छोटा है, तो सभी विभिन्न वाक्यांशों और वाक्यों को रिकॉर्ड करने के लिए एक आवाज अभिनेता को किराए पर लेना सबसे अच्छा हो सकता है।
  • क्या आप इस एप्लिकेशन के लिए किसी विशिष्ट व्यक्ति की आवाज का क्लोन बनाना चाहते हैं? CereProc एक कंपनी है जो इस प्रकार के आवाज संश्लेषण में माहिर है, और उन्होंने कुछ बहुत अविश्वसनीय रूप से परिणाम प्राप्त किए हैं जो वास्तव में लक्ष्य व्यक्ति के व्यक्तित्व पर कब्जा करते हैं।
  • जबकि पिछले सभी विचारों को मुख्य रूप से आउटपुट आवाज के साथ करना है, पाठ पार्सिंग भी भाषण संश्लेषण का एक प्रमुख घटक है, क्योंकि कई भाषण सिंथेसाइज़र के पास विभिन्न प्रकार के विराम चिह्न और अंक अभ्यावेदन (अंश, प्रतिशत, धन, व्यय) के साथ एक कठिन समय होता है। आदि।)। तो आपको यह भी विचार करना चाहिए कि आपके चुने हुए भाषण इंजन कैसे मुश्किल टोकन को संभालेंगे।

यदि आपके पास खर्च करने के लिए इस तरह का पैसा है, तो मैं कुछ शीर्ष ब्रांडों जैसे कि एकापेला, सेफेस्ट्रल, एटीएंडटी, सेरेप्रोक, रियलस्पीक इत्यादि को देखूंगा, उन्हें आपकी सटीक परियोजना आवश्यकताओं के बारे में बताएं, और उन्हें आपके लिए पिच दें। , या कम से कम उनमें से प्रत्येक को इस परियोजना के लिए प्रमुख हितधारकों के सामने कुछ वास्तविक इनपुट पाठ का उपयोग करके डेमो करें जो कि अंतिम एप्लिकेशन को संसाधित करने की आवश्यकता होगी।


बहुत बहुत धन्यवाद, मैंने इन पहलुओं के बारे में नहीं सोचा। मैं अब सभी कंपनियों के संपर्क में आ गया और कल कॉन्फ्रेंस कॉल स्थापित कर रहा हूं।
बोडासीदो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.