एक पहला नोट: अधिकांश आधुनिक टेक्स्ट-टू-स्पीच सिस्टम, जैसे एटी एंड टी से आप जुड़े हुए हैं, कॉन्टेनेटिव सिंथेसिस का उपयोग करें । यह तकनीक वाक्यों के एक लंबे संग्रह का उच्चारण करते हुए एक व्यक्ति की आवाज की रिकॉर्डिंग के एक बड़े डेटाबेस का उपयोग करती है - चयनित ताकि फ़ोनेमी संयोजनों की सबसे बड़ी संख्या मौजूद हो। वाक्य का संश्लेषण इस कॉर्पस से खंडों को एक साथ जोड़कर किया जा सकता है - चुनौतीपूर्ण बिट स्ट्रिंग को एक साथ सहज और अभिव्यंजक बना रहा है।
यदि आप इस तकनीक का उपयोग करना चाहते हैं, तो राष्ट्रपति ओबामा को शर्मनाक शब्द कहने के लिए इस तकनीक का उपयोग करना चाहिए:
- आपको लक्ष्य आवाज़ के वाक्यों के एक बड़े संग्रह तक पहुंच की आवश्यकता है, जो कि समान रूप से एक समान रिकॉर्डिंग स्थितियों और अच्छी गुणवत्ता के साथ रिकॉर्ड किया गया है। एटी एंड टी के पास एक ही स्टूडियो में एक ही स्पीकर के दर्जनों घंटे रिकॉर्ड करने के लिए एक बजट है, लेकिन अगर आप किसी की आवाज को सिर्फ 5 मिनट की रिकॉर्डिंग से नकली करना चाहते हैं तो यह मुश्किल होगा।
- कच्चे माल को रिकॉर्ड करने से पहले मैन्युअल संरेखण और प्रीप्रोसेसिंग की एक पर्याप्त मात्रा है, जो कि एक सुस्पष्ट भाषण संश्लेषण प्रणाली द्वारा शोषण किए जाने के लिए सही "प्रारूप" में है।
आपका अंतर्ज्ञान कि यह एक संभव समाधान है मान्य है - बशर्ते आपके पास इन दोनों समस्याओं से निपटने के लिए बजट हो।
सौभाग्य से, अन्य तकनीकें हैं जो कम पर्यवेक्षण और कम डेटा के साथ काम कर सकती हैं। एक रिकॉर्डिंग से "आवाज" या "नकल" में रुचि रखने वाले भाषण संश्लेषण के क्षेत्र को ध्वनि रूपांतरण के रूप में जाना जाता है । आपके पास टारगेट स्पीकर A रिकॉर्डिंग वाक्य 1 की रिकॉर्डिंग A1 है, और सोर्स स्पीकर B B रिकॉर्डिंग 2 वाक्य की रिकॉर्डिंग 2 है, आप का उद्देश्य स्पीकर A रिकॉर्डिंग 2 A रिकॉर्डिंग वाक्य 2 का उत्पादन करना है, संभवतः स्पीकर B के रिकॉर्डिंग B1 तक पहुंच के साथ पुन: प्रस्तुत करना उसकी आवाज के साथ लक्ष्य वक्ता के रूप में एक ही उच्चारण है।
आवाज रूपांतरण प्रणाली की रूपरेखा निम्नलिखित है:
- ऑडियो विशेषताओं को रिकॉर्डिंग A1 से निकाला जाता है, और उन्हें ध्वनिक कक्षाओं में क्लस्टर किया जाता है। इस स्तर पर, यह थोड़ा सा है जैसे बैग में स्पीकर A का "a", स्पीकर A का सभी "o" आदि होगा। ध्यान दें कि यह सही भाषण मान्यता की तुलना में बहुत सरल और मोटा संचालन है - हमें इसमें कोई दिलचस्पी नहीं है। सही ढंग से बने शब्दों को पहचानना - और हम यह भी नहीं जानते हैं कि किस बैग में "ओ" होता है और किस बैग में "ए" होता है - हम बस जानते हैं कि हमारे पास प्रत्येक बैग में एक ही ध्वनि के कई उदाहरण हैं।
- बी 2 पर भी यही प्रक्रिया लागू होती है।
- ए 1 और बी 2 से ध्वनिक कक्षाएं गठबंधन की जाती हैं। बैग सादृश्य के साथ जारी रखने के लिए, यह चरण 1 और 2 से बैगों को बाँधने के बराबर है, ताकि स्पीकर ए से इस बैग में हमारे पास मौजूद सभी ध्वनियाँ स्पीकर बी से उस बैग में मौजूद ध्वनियों के अनुरूप हों। यह मिलान है यदि चरण 2 में B1 का उपयोग किया जाता है तो बहुत आसान है।
- प्रत्येक जोड़ी बैग के लिए एक मैपिंग फ़ंक्शन का अनुमान लगाया जाता है। चूँकि हम जानते हैं कि इस बैग में स्पीकर A से ध्वनियाँ हैं, और उस बैग में वही ध्वनियाँ हैं लेकिन स्पीकर B द्वारा कहा गया है - हम एक ऑपरेशन (उदाहरण के लिए फीचर वैक्टर पर एक मैट्रिक्स गुणन) पा सकते हैं जो उन्हें अनुरूप बनाता है। दूसरे शब्दों में, अब हम जानते हैं कि स्पीकर 2 की "ओ" ध्वनि को स्पीकर 1 के "ओ" कैसे बनाया जाए।
- इस स्तर पर ध्वनि रूपांतरण करने के लिए हमारे पास सभी कार्ड हैं। बी 2 की रिकॉर्डिंग के प्रत्येक स्लाइस से, हम चरण 2 के परिणाम का उपयोग करते हैं। यह पता लगाने के लिए कि यह किस ध्वनिक वर्ग से मेल खाता है। हम स्लाइस को बदलने के लिए चरण 4 में अनुमानित मानचित्रण फ़ंक्शन का उपयोग करते हैं।
मैं इस तथ्य पर जोर देता हूं कि यह बी 2 पर भाषण मान्यता प्रदर्शन की तुलना में काफी निचले स्तर पर चल रहा है, और फिर ए 1 की आवाज का उपयोग एक कॉर्पस के रूप में टीटीएस कर रहा है।
विभिन्न सांख्यिकीय तकनीकों का उपयोग चरण 1 और 2 के लिए किया जाता है - जीएमएम या वीक्यू सबसे आम हैं। भाग 2 के लिए विभिन्न संरेखण एल्गोरिदम का उपयोग किया जाता है - यह सबसे कठिन हिस्सा है, और यह A1 बनाम बी 2 की तुलना में ए 1 बनाम बी 1 को संरेखित करना आसान है। सरल मामले में, संरेखण बनाने के लिए डायनामिक टाइम वारिंग जैसी विधियों का उपयोग किया जा सकता है। चरण 4 के लिए, सबसे आम परिवर्तन सुविधा वैक्टर पर रैखिक परिवर्तन (मैट्रिक्स गुणन) हैं। अधिक जटिल रूपांतरण अधिक यथार्थवादी नकल के लिए बनाते हैं लेकिन इष्टतम मैपिंग को खोजने के लिए प्रतिगमन समस्या को हल करने के लिए अधिक जटिल है। अंत में, चरण 5 के लिए, पुनरुत्थान की गुणवत्ता उपयोग की गई सुविधाओं द्वारा सीमित है। एलपीसी आम तौर पर एक साधारण परिवर्तन विधि से निपटने के लिए आसान होता है (सिग्नल फ्रेम लें -> अवशिष्ट और एलपीसी स्पेक्ट्रम का अनुमान लगाएं -> यदि आवश्यक पिच-शिफ्ट अवशिष्ट -> संशोधित एलपीसी स्पेक्ट्रम को संशोधित अवशिष्ट में लागू करें)। भाषण का एक प्रतिनिधित्व का उपयोग करना जो समय डोमेन पर वापस आ सकता है, और जो प्रोसोडी और फोनमेस के बीच अच्छा अलगाव प्रदान करता है, वह यहां की कुंजी है! अंत में, बशर्ते आपके पास स्पीकर ए और बी की संरेखित रिकॉर्डिंग तक पहुंच हो, एक ही वाक्य कह रहे हैं, सांख्यिकीय मॉडल हैं जो एक ही मॉडल अनुमान प्रक्रिया में चरण 1, 2, 3 और 4 से निपटते हैं।
मैं बाद में एक ग्रंथ सूची के साथ वापस आ सकता हूं, लेकिन समस्या को महसूस करने के लिए शुरू करने के लिए एक बहुत अच्छी जगह है और इसे हल करने के लिए उपयोग किया जाने वाला समग्र ढांचा है, स्टाइलिआनो, मौलिंस और कैप्पे की "ए सिस्टम फॉर वॉयस कन्वर्सेशन ऑन प्रोबाइस्टिक वर्गीकरण और एक हार्मोनिक। प्लस शोर मॉडल ”।
मेरे ज्ञान के लिए आवाज का प्रदर्शन करने वाले सॉफ़्टवेयर का व्यापक रूप से कोई टुकड़ा नहीं है - केवल स्रोत आवाज़ के सॉफ़्टवेयर को संशोधित करने वाले सॉफ़्टवेयर - जैसे पिच और स्वर पथ की लंबाई के पैरामीटर (उदाहरण के लिए IRCAM TRAX ट्रांसफार्मर) - जिसके साथ आपको अपना बनाने की उम्मीद में गड़बड़ करना होगा रिकॉर्डिंग ध्वनि लक्ष्य आवाज के करीब।