वाक् की बैंडविड्थ से मेल खाते पास बैंड फिल्टर का उपयोग करने से मदद मिलेगी।
यदि आपके पास कई माइक्रोफोन हैं (जैसा कि अब सेलफ़ोन पर होता है), तो ICA जैसी विधियों की एक टुकड़ी है जो इसका लाभ उठा सकती है - लेकिन आपका प्रश्न मुझे संकेत देता है कि आपके पास केवल एक इनपुट है।
आप जो करना चाहते हैं वह है "वन-माइक्रोफोन सोर्स सेपरेशन" (रोविस ग्राउंडब्रेकिंग पेपर से लिया गया नाम), जिसे "सिंगल-सेंसर" भी कहा जाता है। चेतावनी: यह एक हल की गई समस्या से दूर है, और इस क्षेत्र में सभी शोध बहुत हाल ही में हुए हैं, जिसमें कोई एल्गोरिथ्म या दृष्टिकोण "स्पष्ट विजेता" नहीं है (गॉसियन मिश्रण मॉडल के विपरीत (एफएसटी भाषण मान्यता के लिए है)।
ऐसा करने के लिए एक अच्छा ढांचा है जो वीनर फ़िल्टरिंग के माध्यम से है। बानरोया एट अल देखें। "सिंगल सेंसर स्रोत पृथक्करण वीनर फ़िल्टरिंग और कई विंडो STFT पर आधारित है" (खंड 1 और 2 पढ़ें, जब तक आपको वास्तव में इसकी आवश्यकता न हो, मल्टीसर्जिंग चीज़ से परेशान न हों)। संक्षेप में, आप अपने सिग्नल के एसटीएफटी की गणना करते हैं, और प्रत्येक एसटीएफटी फ्रेम के लिए, आप वॉयस स्पेक्ट्रम और शोर स्पेक्ट्रम के अनुमानों को प्राप्त करने की कोशिश करते हैं, और आप वीनर फ़िल्टरिंग का उपयोग वॉयस स्पेक्ट्रम के सर्वश्रेष्ठ अनुमान को पुनर्प्राप्त करने के लिए करते हैं (यह) स्पेक्ट्रम के "नरम-मास्किंग" के समान है।
आपकी समस्या अब निम्नलिखित है: एक एसटीएफटी फ्रेम दिया गया है, भाषण का अनुमान करें और उसमें से शोर घटक। बैनरोया द्वारा पेपर में वर्णित सरल दृष्टिकोण वेक्टर-मात्रा-निर्धारण के माध्यम से है - कई वक्ताओं द्वारा कई घंटे का भाषण लें, एसटीएफटी की गणना करें, 512 या 1024 विशिष्ट भाषण फ़्रेमों की एक कोडबुक खोजने के लिए उस पर एलबीजी चलाएं; शोर के लिए एक ही बात करो। अब, आपके इनपुट सिग्नल के एक फ्रेम को देखते हुए, इसे भाषण और शोर के आधार पर गैर-नकारात्मक रूप से (पेपर में एक गुणात्मक ढाल अद्यतन प्रक्रिया का वर्णन किया गया है) प्रोजेक्ट करें, और आपको अपना भाषण और शोर अनुमान मिलता है। यदि आप गैर-नकारात्मक प्रक्षेपण चीज़ से निपटना नहीं चाहते हैं, तो बस निकटतम पड़ोसी का उपयोग करें। यह वास्तव में सबसे सरल चीज है जो संभवतः "एकल-सेंसर स्रोत पृथक्करण" विभाग में काम कर सकता है।
ध्यान दें कि वाक् पहचान प्रणाली वास्तव में एक पृथक्करण प्रणाली के लिए कुछ इनपुट प्रदान कर सकती है। अपने भाषण मान्यता प्रणाली का उपयोग करके डिकोडिंग का पहला पास करें। प्रत्येक फ्रेम के लिए, गौसियन से औसत MFCC वेक्टर लें, जिसे सबसे अच्छा स्कोर मिला। एक स्पेक्ट्रम में वापस पलटना। बूम, आपके पास एक मुखौटा है जो आपको भाषण जैसी बिट्स की सबसे संभावित वर्णक्रमीय स्थान प्रदान करता है, और आप इसे वीनर फ़िल्टरिंग के लिए एक इनपुट के रूप में उपयोग कर सकते हैं। यह हाथ से लहराते हुए थोड़ा सा लगता है, लेकिन भूगर्भ यह है कि एक स्रोत को अलग करने के लिए आपको इसके लिए एक अच्छे मॉडल की आवश्यकता होती है, और पीछे की ओर ले जाने वाली एक भाषण मान्यता प्रणाली भाषण संकेतों के लिए एक अच्छा जनरेटिव मॉडल का एक नरक है।