मैं भाषण मान्यता के लिए एक वीडियो फ़ाइल से ऑडियो क्लिप निकालता हूं। ये वीडियो मोबाइल / अन्य हस्तनिर्मित उपकरणों से आते हैं और इसलिए इनमें बहुत अधिक शोर होता है। मैं ऑडियो के बैकग्राउंड शोर को कम करना चाहता हूं ताकि जो भाषण मैं अपने भाषण पहचान इंजन से संबंधित हूं वह स्पष्ट हो। मैं यह सब करने के लिए ffmpeg का उपयोग कर रहा हूं, लेकिन मैं शोर कम करने के चरण में फंस गया हूं।
अब तक मैंने निम्नलिखित फ़िल्टर आज़माए हैं:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
लेकिन परिणाम बहुत निराशाजनक हैं। मेरा तर्क यह था कि चूंकि भाषण ३००-३००० हर्ट्ज रेंज के अंतर्गत आता है इसलिए मैं किसी भी पृष्ठभूमि शोर को दबाने के लिए अन्य सभी आवृत्तियों को फ़िल्टर कर सकता हूं। मैं क्या खो रहा हूँ?
इसके अलावा, मैंने वेनर फिल्टर के बारे में पढ़ा जो भाषण संवर्द्धन के लिए इस्तेमाल किया जा सकता है और यह पाया गया लेकिन यह सुनिश्चित नहीं है कि इसका उपयोग कैसे किया जाए।