वास्तविक दुनिया रिकॉर्डिंग पर फास्टिका द्वारा ध्वनि संकेतों को अलग करने में विफल


12

मैंने पायथन एमडीपी फास्टिका उदाहरण पर कोड का उपयोग करके स्टीरियो डब्ल्यूएवी फ़ाइल पर फास्टिका प्रदर्शन करने के लिए एक कार्यक्रम लिखा है

साथ ऑडियो उदाहरण मैं बहुत अच्छे परिणाम मिलता है।

तब मैं अपने पीसी के स्टीरियो माइक से जुड़े दो कंप्यूटर मोनो माइक्रोफोन का उपयोग करके वास्तविक विश्व रिकॉर्डिंग करने की कोशिश करता हूं, जो माइक 1 से एल चैनल और माइक 2 से आर चैनल को जोड़ता है। जब मैं शांत कमरे में बात कर रहा होता हूं तो मैं बैकग्राउंड में कुछ संगीत बजाता हूं।

हालांकि, फास्टिका चलाने से सिग्नल बिल्कुल अलग नहीं होते हैं। क्या यह संभव है कि माइक्रोफोन की गुणवत्ता बहुत खराब हो? क्या फास्टिका चलाने से पहले मुझे दर्ज डब्ल्यूएवी फ़ाइल (16 बिट्स, हस्ताक्षरित पीसीएम, 44100 हर्ट्ज) पर कुछ भी करने की आवश्यकता है?

आप यहां रिकॉर्डिंग डाउनलोड कर सकते हैं

जवाबों:


11

कच्चे रूप में आईसीए केवल चरण सिंक्रनाइज़ अवलोकन मिश्रण के साथ उपयोग के लिए उपयुक्त है। जैसा कि आपने वर्णन किया है माइक्रोफोन का उपयोग करना एक चरण देरी का परिचय देगा जैसा कि अन्य पोस्टरों द्वारा बताया गया है। हालांकि इस चरण में देरी का फायदा उठाया जा सकता है। देरी की उपस्थिति में स्टीरियो पृथक्करण से संबंधित सबसे प्रसिद्ध एल्गोरिथ्म DUET है। लिंक टूट गए हैं लेकिन आप जो संदर्भ ढूंढ रहे हैं वह यहां है> http://eleceng.ucd.ie/~srickard/bss.html।

यह वह पेपर है जिसके लिए आपको देखना चाहिए>
ए। जर्सीजीन, एस। रिकार्ड, और ओ। यिलमाज़, ब्लाइंड सेपरेशन ऑफ़ डिस्जॉइंट ऑर्थोगोनल सिग्नल: डे मिक्सिंग एन सोर्सेस फ्रॉम 2 मिक्सएड, आईईईई कॉन्फ्रेंस ऑन एकेडिक्स, स्पीच एंड सिग्नल प्रोसेसिंग (आईसीएएसपी २००), खंड 5, पृष्ठ 2985-2988, इस्तांबुल, तुर्की, जून 2000


2
एक प्रश्न - यदि मिक्स एक से अधिक स्थानिक रूप से अलग-अलग माइक से आ रहे हैं ... तो हम कभी भी चरण तुल्यकालन कैसे कर सकते हैं ? ... सभी ग्रंथों में मुझे कई मिक्स के इस उदाहरण का उपयोग सर्वव्यापी रूप से किया जाता है, लेकिन यदि चरण तुल्यकालन ऐसा मुद्दा क्यों है, इसका उल्लेख क्यों नहीं किया गया? Im यहाँ समझने की कोशिश कर रहा हूँ, मैं ICA के दृश्य में नया हूँ।
स्पेसी

@ मोहम्मद: मुझे संदेह है कि चरण तुल्यकालन अन्य अनुप्रयोगों में मौजूद है, और वे पाठकों के लिए अधिक परिचित बनाने के लिए सिर्फ ऑडियो अनुप्रयोगों का उपयोग करते हैं।
एंडोलिथ

1
@ मोहम्मद के पास एक स्रोत के लिए चरण sychronicity होने के लिए स्थानिक माइक्रोफोन के साथ संभव है। एक स्रोत की कल्पना करें कि स्रोत के दोनों ओर 2 माइक्रोफोन के साथ कब्जा किया जा रहा है। स्रोत से माइक्रोफ़ोन तक की पथ लंबाई प्रत्येक मामले में समान है और संकेतों को दोनों mics में एक चरण में पुनः प्राप्त किया जाएगा, लेकिन केवल उस स्रोत पर। आप अवांछित संकेतों को आगे अस्वीकार करने के लिए अलग-अलग स्थानिक आयामों के साथ समान रूप से अधिक मिक्स जोड़ सकते हैं। कुछ ईईजी विश्लेषण तकनीकें इसका लाभ उठाती हैं। आपको यह भी ध्यान देना चाहिए कि प्रत्येक माइक के बीच चरण विलंब आवृत्ति (तरंग दैर्ध्य के कारण) का एक फ़ंक्शन होगा
डैन बैरी

@DanBarry धन्यवाद Dan - ईईजी के बारे में दिलचस्प बिंदु। मुझे केवल स्पष्ट करने दें - मैं निश्चित रूप से जानता हूं कि यदि सेंसर एक स्रोत से समतुल्य हैं, तो हमें वही देरी होती है ... :-) मैं जो पाने की कोशिश कर रहा था वह उन अनुप्रयोगों के लिए था जहां ऐसी चीजों को नियंत्रित नहीं किया जा सकता है, (वक्ताओं में) कई सेंसरों के साथ कमरा), आईसीए को ऐसे मामलों में काम करने के लिए कहा जाता है - लेकिन 99% समय हम अभ्यस्त चरण की समानता है - अगर यह इस मामले में एक कार्यशील एल्गोरिथ्म के रूप में टाल दिया जाता है - फिर भी उन चरणों के मुद्दों के प्रति संवेदनशील है - तब यहाँ क्या याद आ रही है? ... धन्यवाद!
स्पेसी

1
@endolith हाँ यह एक अच्छा समाधान था और यह काम करता है! मैंने 2003 में भी इसी तरह के समाधान के बारे में सोचा था और कुछ इसी तरह की खोज करने के लिए निराश था, लेकिन मेरा पर्याप्त रूप से अलग था कि मैं इसे पेटेंट करने में कामयाब रहा। मैं सौभाग्य से 2004 में एक रियलटाइम सोर्स सेपरेशन अल्गोरिथम विकसित करने में सक्षम था। मूल का डेमो> audioresearchgroup.com/main.php?page=Demos और नया बेहतर वीडियो डेमो में एक्शन में देखा जा सकता है। यहाँ> riffstation.com
दान बैरी

6

जैसा कि मैंने पृष्ठ को और नीचे बताया:

यह पता चलता है कि आईसीए वास्तव में अच्छी तरह से काम नहीं करता है जब विभिन्न सेंसर चैनलों में सिग्नल देरी से होते हैं; यह तात्कालिक मिश्रण मानता है (यह कि संकेत सभी अलग-अलग रिकॉर्डिंग में एक-दूसरे के साथ परिपूर्ण सिंक में हैं)। विलंब कलाकारों और माइक्रोफोन के साथ वास्तविक जीवन की स्थिति में होता है, क्योंकि प्रत्येक स्रोत प्रत्येक माइक्रोफोन से अलग दूरी पर होता है।

मुझे लगता है कि चैनलों के बीच यह देरी इसका कारण है। यदि आप दो तरंगों को करीब से देखते हैं, तो आप शायद देखेंगे कि कुछ आवाज़ें एक चैनल में दूसरे की तुलना में जल्द ही आती हैं, और बाकी इसके विपरीत।

यह साबित करने के लिए कि यह माइक्रोफोन की गुणवत्ता नहीं है, आप एक ही समय में एक माइक्रोफोन का उपयोग करके दो अलग-अलग संकेतों को रिकॉर्ड करने की कोशिश कर सकते हैं, और फिर उन्हें एक साथ मिला सकते हैं ताकि प्रत्येक सिग्नल में से कुछ प्रत्येक चैनल में हों, और देखें कि ICA उस स्थिति में काम करता है या नहीं ।


मैंने कोशिश की। आपके सुझाव के अनुसार यह एक विलंब समस्या होनी चाहिए। अलग-अलग रिकॉर्डिंग को मिलाकर Fastica लगभग सही परिणाम देता है। मुझे देरी से निपटने के लिए कुछ तरीके खोजने की जरूरत है ...
जेरेमी 15

@ जेरेमी: मुझे लगता है कि आपको एक अलग एल्गोरिथ्म की आवश्यकता होगी।
3

क्या आप किसी ऐसे bss algo को जानते हैं जो देरी से सामना कर सकता है?
जेरेमी

वास्तव में जब मैं रिकॉर्ड करता हूं और जोर से शोर मचाने के लिए हाथ उठाता हूं, तो मैं दुस्साहस में कोई देरी नहीं कर सकता।
जेरेमी

1
@endolith आप सही हो सकते हैं - कुछ नई जानकारी - मैंने फुटनोट्स की जाँच की, और जाहिर तौर पर मेरी किताब के लेखक का कहना है कि वह मानता है कि सभी सिग्नल एक-दूसरे के सापेक्ष विलंबित नहीं हैं। : - / दूसरे शब्दों में मिक्सिंग मैट्रिक्स बस एक है जो एम्पलीट्यूड को बदलता है। एह। अब इसकी और भी उलझन है। :-)
स्पेसी

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.