फोन कॉल को ऑडियो को साइलेंस / नॉन साइलेंस में कैसे विभाजित करें?


9

मेरी समस्या यह है कि मुझे पृष्ठभूमि के शोर की ऊर्जा का पता नहीं है, इसलिए मैं सिर्फ ऊर्जा नहीं बढ़ा सकता। प्रसंस्करण वास्तविक समय में किया जाता है, और मुझे तय करने के लिए लगभग 500msec है। आदर्श रूप से, मैं चाहता हूं कि शांत व्यंजन गैर-मौन माना जाए।


6
मेरे पास पूर्ण उत्तर देने के लिए पर्याप्त जानकारी नहीं है, लेकिन आपकी समस्या को ध्वनि गतिविधि का पता लगाने के रूप में संदर्भित किया जाता है । ऐसा करने के लिए एक भी सहमत-सर्वोत्तम तरीका नहीं है, और यदि आप देखते हैं कि आप शायद कई अलग-अलग तरीकों से आएंगे। शायद कुछ अन्य लोग इसे थोड़ा और मांस दे सकते हैं।
जेसन आर

@ मिचेल लिट्विन, 'टीज़र-कैसर' के नाम से नॉन-लीनियर फिल्टर्स ('एनर्जी डिटेक्शन' में प्रयुक्त) का एक वर्ग है। मुझे लगता है कि यह सबसे बड़ा हिस्सा है जिसे 'वोल्तेरा केर्नेल' के रूप में जाना जाता है। क्षमा करें कि कोई भी कैंट प्रदान नहीं करता है। अधिक जानकारी, लेकिन अगर आप उन शब्दों के लिए चारों ओर खोजते हैं जो आपको मिल सकते हैं जो आप ढूंढ रहे हैं। मुझे पता है कि टीगर-केसर विधि का उपयोग तब किया जाता है जब व्हेल की आवाज वीएस सिर्फ पृष्ठभूमि शोर शुरू होती है।
स्पेसी

जवाबों:


4

मापदंडों का एक गुच्छा है जिसे आप देख सकते हैं:

  1. कुल मिलाकर ऊर्जा
  2. लघु अवधि स्पेक्ट्रम: भाषण में एक विशिष्ट विशिष्ट "गुलाबी जैसा" स्पेक्ट्रम और शोर होता है (जो गैर-भाषण भागों के दौरान हो रहा है) सफेद हो जाता है अगर यह विद्युत रूप से हावी है या "लाल" (यानी कम आवृत्ति भारी) अगर यह ध्वनिक पृष्ठभूमि है शोर या माइक्रोफोन शोर
  3. आयाम के आँकड़े। अधिकांश शोर संकेतों में एक गाऊसी वितरण होता है, भाषण एक लाप्लास वितरण के करीब होता है

मुझे लगता है कि इन तीनों के संयोजन से काफी मजबूत पहचान योजना मिलनी चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.