किसी की आवाज़ की नकल / नक़ल / नक़ल कैसे करें?


19

क्या किसी की आवाज का नमूना लेने के लिए कोई मौजूदा एप्लिकेशन है और किसी अन्य आवाज को संशोधित करने के लिए इसका उपयोग करते हैं या मूल को समान करने के लिए किसी पाठ को संश्लेषित करते हैं?

उदाहरण के लिए, एटी एंड टी द्वारा यह टेक्स्ट-टू-स्पीच डेमो आपको प्रीसेट से एक आवाज और एक भाषा चुनने देता है जो मुझे लगता है कि कुछ मानव आवाज पर आधारित है जिन्हें नमूना लिया गया है।

आप इस प्रक्रिया को कैसे कहते हैं? क्या यह वॉयस मॉड्यूलेशन है? आवाज संश्लेषण?


मुझे लगता है कि अगर आपके पास पर्याप्त प्रशिक्षण के नमूने थे, विशेष शब्दों के लिए तो यह संभव हो सकता है
फेयर

अनुसंधान समुदाय में, इसे "आवाज रूपांतरण" कहा जाता है।
16

@ user1582478 मेरे पास उनमें से बहुत कुछ है, आप कैसे आगे बढ़ेंगे?
क्लैप्स

क्या यह कहना संभव है कि एक दोस्त से आवाज पैदा करें और फिर उस फोन कॉल को लाइव करें जैसे कि एक आवाज मॉर्फ, लेकिन आपके द्वारा बनाई गई आवाज के साथ?

यह प्रश्न का उत्तर प्रदान नहीं करता है। किसी लेखक से स्पष्टीकरण मांगने या उसका स्पष्टीकरण देने के लिए, उनकी पोस्ट के नीचे एक टिप्पणी छोड़ दें - आप हमेशा अपने स्वयं के पोस्ट पर टिप्पणी कर सकते हैं, और एक बार आपके पास पर्याप्त प्रतिष्ठा होने पर आप किसी भी पोस्ट पर टिप्पणी कर पाएंगे ।
मैट एल।

जवाबों:


24

एक पहला नोट: अधिकांश आधुनिक टेक्स्ट-टू-स्पीच सिस्टम, जैसे एटी एंड टी से आप जुड़े हुए हैं, कॉन्टेनेटिव सिंथेसिस का उपयोग करें । यह तकनीक वाक्यों के एक लंबे संग्रह का उच्चारण करते हुए एक व्यक्ति की आवाज की रिकॉर्डिंग के एक बड़े डेटाबेस का उपयोग करती है - चयनित ताकि फ़ोनेमी संयोजनों की सबसे बड़ी संख्या मौजूद हो। वाक्य का संश्लेषण इस कॉर्पस से खंडों को एक साथ जोड़कर किया जा सकता है - चुनौतीपूर्ण बिट स्ट्रिंग को एक साथ सहज और अभिव्यंजक बना रहा है।

यदि आप इस तकनीक का उपयोग करना चाहते हैं, तो राष्ट्रपति ओबामा को शर्मनाक शब्द कहने के लिए इस तकनीक का उपयोग करना चाहिए:

  • आपको लक्ष्य आवाज़ के वाक्यों के एक बड़े संग्रह तक पहुंच की आवश्यकता है, जो कि समान रूप से एक समान रिकॉर्डिंग स्थितियों और अच्छी गुणवत्ता के साथ रिकॉर्ड किया गया है। एटी एंड टी के पास एक ही स्टूडियो में एक ही स्पीकर के दर्जनों घंटे रिकॉर्ड करने के लिए एक बजट है, लेकिन अगर आप किसी की आवाज को सिर्फ 5 मिनट की रिकॉर्डिंग से नकली करना चाहते हैं तो यह मुश्किल होगा।
  • कच्चे माल को रिकॉर्ड करने से पहले मैन्युअल संरेखण और प्रीप्रोसेसिंग की एक पर्याप्त मात्रा है, जो कि एक सुस्पष्ट भाषण संश्लेषण प्रणाली द्वारा शोषण किए जाने के लिए सही "प्रारूप" में है।

आपका अंतर्ज्ञान कि यह एक संभव समाधान है मान्य है - बशर्ते आपके पास इन दोनों समस्याओं से निपटने के लिए बजट हो।

सौभाग्य से, अन्य तकनीकें हैं जो कम पर्यवेक्षण और कम डेटा के साथ काम कर सकती हैं। एक रिकॉर्डिंग से "आवाज" या "नकल" में रुचि रखने वाले भाषण संश्लेषण के क्षेत्र को ध्वनि रूपांतरण के रूप में जाना जाता है । आपके पास टारगेट स्पीकर A रिकॉर्डिंग वाक्य 1 की रिकॉर्डिंग A1 है, और सोर्स स्पीकर B B रिकॉर्डिंग 2 वाक्य की रिकॉर्डिंग 2 है, आप का उद्देश्य स्पीकर A रिकॉर्डिंग 2 A रिकॉर्डिंग वाक्य 2 का उत्पादन करना है, संभवतः स्पीकर B के रिकॉर्डिंग B1 तक पहुंच के साथ पुन: प्रस्तुत करना उसकी आवाज के साथ लक्ष्य वक्ता के रूप में एक ही उच्चारण है।

आवाज रूपांतरण प्रणाली की रूपरेखा निम्नलिखित है:

  1. ऑडियो विशेषताओं को रिकॉर्डिंग A1 से निकाला जाता है, और उन्हें ध्वनिक कक्षाओं में क्लस्टर किया जाता है। इस स्तर पर, यह थोड़ा सा है जैसे बैग में स्पीकर A का "a", स्पीकर A का सभी "o" आदि होगा। ध्यान दें कि यह सही भाषण मान्यता की तुलना में बहुत सरल और मोटा संचालन है - हमें इसमें कोई दिलचस्पी नहीं है। सही ढंग से बने शब्दों को पहचानना - और हम यह भी नहीं जानते हैं कि किस बैग में "ओ" होता है और किस बैग में "ए" होता है - हम बस जानते हैं कि हमारे पास प्रत्येक बैग में एक ही ध्वनि के कई उदाहरण हैं।
  2. बी 2 पर भी यही प्रक्रिया लागू होती है।
  3. ए 1 और बी 2 से ध्वनिक कक्षाएं गठबंधन की जाती हैं। बैग सादृश्य के साथ जारी रखने के लिए, यह चरण 1 और 2 से बैगों को बाँधने के बराबर है, ताकि स्पीकर ए से इस बैग में हमारे पास मौजूद सभी ध्वनियाँ स्पीकर बी से उस बैग में मौजूद ध्वनियों के अनुरूप हों। यह मिलान है यदि चरण 2 में B1 का उपयोग किया जाता है तो बहुत आसान है।
  4. प्रत्येक जोड़ी बैग के लिए एक मैपिंग फ़ंक्शन का अनुमान लगाया जाता है। चूँकि हम जानते हैं कि इस बैग में स्पीकर A से ध्वनियाँ हैं, और उस बैग में वही ध्वनियाँ हैं लेकिन स्पीकर B द्वारा कहा गया है - हम एक ऑपरेशन (उदाहरण के लिए फीचर वैक्टर पर एक मैट्रिक्स गुणन) पा सकते हैं जो उन्हें अनुरूप बनाता है। दूसरे शब्दों में, अब हम जानते हैं कि स्पीकर 2 की "ओ" ध्वनि को स्पीकर 1 के "ओ" कैसे बनाया जाए।
  5. इस स्तर पर ध्वनि रूपांतरण करने के लिए हमारे पास सभी कार्ड हैं। बी 2 की रिकॉर्डिंग के प्रत्येक स्लाइस से, हम चरण 2 के परिणाम का उपयोग करते हैं। यह पता लगाने के लिए कि यह किस ध्वनिक वर्ग से मेल खाता है। हम स्लाइस को बदलने के लिए चरण 4 में अनुमानित मानचित्रण फ़ंक्शन का उपयोग करते हैं।

मैं इस तथ्य पर जोर देता हूं कि यह बी 2 पर भाषण मान्यता प्रदर्शन की तुलना में काफी निचले स्तर पर चल रहा है, और फिर ए 1 की आवाज का उपयोग एक कॉर्पस के रूप में टीटीएस कर रहा है।

विभिन्न सांख्यिकीय तकनीकों का उपयोग चरण 1 और 2 के लिए किया जाता है - जीएमएम या वीक्यू सबसे आम हैं। भाग 2 के लिए विभिन्न संरेखण एल्गोरिदम का उपयोग किया जाता है - यह सबसे कठिन हिस्सा है, और यह A1 बनाम बी 2 की तुलना में ए 1 बनाम बी 1 को संरेखित करना आसान है। सरल मामले में, संरेखण बनाने के लिए डायनामिक टाइम वारिंग जैसी विधियों का उपयोग किया जा सकता है। चरण 4 के लिए, सबसे आम परिवर्तन सुविधा वैक्टर पर रैखिक परिवर्तन (मैट्रिक्स गुणन) हैं। अधिक जटिल रूपांतरण अधिक यथार्थवादी नकल के लिए बनाते हैं लेकिन इष्टतम मैपिंग को खोजने के लिए प्रतिगमन समस्या को हल करने के लिए अधिक जटिल है। अंत में, चरण 5 के लिए, पुनरुत्थान की गुणवत्ता उपयोग की गई सुविधाओं द्वारा सीमित है। एलपीसी आम तौर पर एक साधारण परिवर्तन विधि से निपटने के लिए आसान होता है (सिग्नल फ्रेम लें -> अवशिष्ट और एलपीसी स्पेक्ट्रम का अनुमान लगाएं -> यदि आवश्यक पिच-शिफ्ट अवशिष्ट -> संशोधित एलपीसी स्पेक्ट्रम को संशोधित अवशिष्ट में लागू करें)। भाषण का एक प्रतिनिधित्व का उपयोग करना जो समय डोमेन पर वापस आ सकता है, और जो प्रोसोडी और फोनमेस के बीच अच्छा अलगाव प्रदान करता है, वह यहां की कुंजी है! अंत में, बशर्ते आपके पास स्पीकर ए और बी की संरेखित रिकॉर्डिंग तक पहुंच हो, एक ही वाक्य कह रहे हैं, सांख्यिकीय मॉडल हैं जो एक ही मॉडल अनुमान प्रक्रिया में चरण 1, 2, 3 और 4 से निपटते हैं।

मैं बाद में एक ग्रंथ सूची के साथ वापस आ सकता हूं, लेकिन समस्या को महसूस करने के लिए शुरू करने के लिए एक बहुत अच्छी जगह है और इसे हल करने के लिए उपयोग किया जाने वाला समग्र ढांचा है, स्टाइलिआनो, मौलिंस और कैप्पे की "ए सिस्टम फॉर वॉयस कन्वर्सेशन ऑन प्रोबाइस्टिक वर्गीकरण और एक हार्मोनिक। प्लस शोर मॉडल ”।

मेरे ज्ञान के लिए आवाज का प्रदर्शन करने वाले सॉफ़्टवेयर का व्यापक रूप से कोई टुकड़ा नहीं है - केवल स्रोत आवाज़ के सॉफ़्टवेयर को संशोधित करने वाले सॉफ़्टवेयर - जैसे पिच और स्वर पथ की लंबाई के पैरामीटर (उदाहरण के लिए IRCAM TRAX ट्रांसफार्मर) - जिसके साथ आपको अपना बनाने की उम्मीद में गड़बड़ करना होगा रिकॉर्डिंग ध्वनि लक्ष्य आवाज के करीब।


अजीब जवाब! मैं शायद बैग सादृश्य के बिना इसे समझने में सक्षम नहीं हो सकता था ... केवल एक चीज है जो मुझे इस इतने स्पष्ट स्पष्टीकरण के बाद समझ में नहीं आती है: मेरी समझ में, आपके पास हमेशा बी 1 हो सकता है! आपका बहुत बहुत धन्यवाद।
क्लैप्स

ऐसा नहीं है यदि A और B एक अलग भाषा बोलते हैं (आवाज रूपांतरण के अनैच्छिक अनुप्रयोग हैं, जिसमें किसी अन्य भाषा में TTS आपकी स्वयं की आवाज़ के साथ वापस खेला जाता है!)। या यदि A और B दोनों प्रसिद्ध व्यक्ति हैं, जिसके लिए आप सभी सार्वजनिक रूप से उपलब्ध रिकॉर्डिंग में पर्याप्त लंबा सामान्य वाक्य नहीं पा सकते हैं, और यदि आप उनकी भाषा नहीं बोलते हैं, तो आप अपनी आवाज़ की रिकॉर्डिंग का उपयोग नहीं कर सकते हैं दोनों के बीच "पुल"।
pichenettes

समझा। धन्यवाद फिर से @pichenettes। मैं स्टाइलियनौ एट अल से मासिक धर्म पुस्तक पर एक नज़र डालने की कोशिश करूंगा। चीयर्स
क्लैप्स

आपके द्वारा उपयोग किए गए समरूपों के लिंक के साथ कृपया अपना उत्तर अपडेट करें। जैसे LPC, VQ, GMM।
अरोनसनवेलवेल

Aaronsnoswell से टिप्पणी के जवाब में: LCP: रैखिक भविष्य कहनेवाला कोडिंग, VQ: वेक्टर मात्रा का ठहराव, GMM: गाऊसी मिश्रण मॉडल। यह स्पष्ट नहीं है कि इन योगों का मात्र विस्तार एक जटिल विचार है, लेकिन प्रत्येक विचार मौजूदा नमूनों के एक सेट से मॉडलिंग या पीएसटी या भविष्य के डेटा को समझाने में मदद करता है।
2 दिसंबर को ग्रेग

2

आप मॉर्फवॉक्स जैसी किसी चीज का उपयोग कर सकते हैं । यहाँ एक प्रदर्शन है। प्रक्रिया को वॉयस मॉर्फिंग या रूपांतरण कहा जाता है। यदि आप तकनीकी पहलुओं में रुचि रखते हैं, तो हाल ही में एक लेख जो आप अध्ययन कर सकते हैं वह है डायनामिक कर्नेल आंशिक लीवर स्क्वायर रिग्रेशन का उपयोग करके ध्वनि रूपांतरण


डार्क वादर की आवाज की चट्टानें, यह अजीब था। वैसे, मैंने पहले भी ऐसे ही प्रभाव देखे हैं। धन्यवाद
clapas

1

मैं उसी चीज की तलाश में हूं, लेकिन ऐसा नहीं किया जा सकता। स्कॉटलैंड में एक कंपनी है जिसे सेरेपोक कहा जाता है जो वॉयस मॉडलिंग करती है, लेकिन उन्हें अपनी लैब रिकॉर्डिंग के घंटों के ऑडियो में किसी की जरूरत होती है और एक ही आवाज को मॉडल बनाने की लागत लगभग 30 डॉलर अमरीकी डालर है।


0

आप जिस चीज की तलाश कर रहे हैं, उसे एक वोडर कहा जाता है।

क्या आपने ऑडिटिटी के वोडर को आजमाया है? ऑडेसिटी को इससे डाउनलोड किया जा सकता है: http://audacity.sourceforge.net/download । इसका उपयोग करने के तरीके पर एक डेमो https://www.youtube.com/watch?v=J_rPEmJfwNs पर पाया जा सकता है ।


1
वोकोडिंग में एक ऑडियो रिकॉर्डिंग (जो आमतौर पर एक आवाज होती है) के वर्णक्रमीय लिफाफे को दूसरी ध्वनि को फ़िल्टर करने के लिए होती है (जो आमतौर पर एक कच्चा, अनमोडाइलेटेड सिंथेसाइज़र ध्वनि होती है)। यह किसी की आवाज को नकली करने के लिए इस्तेमाल नहीं किया जा सकता है।
पैशनेट्स

हाँ, मैं दुस्साहस जानता हूँ, लेकिन मैंने वोकोडर की कोशिश नहीं की। मुझे लगता है कि आप केवल सफेद आवाज को रिकॉर्ड की गई आवाज के लिफाफे पर लागू कर सकते हैं। धन्यवाद
clapas
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.