भाषण मान्यता के लिए शोर में कमी शोर में कमी से भिन्न होती है जो कि भाषण को मनुष्यों के लिए अधिक "बुद्धिमान" बनाने के लिए माना जाता है?


10

यह एक ऐसा प्रश्न है जो मुझे पिछले कुछ समय से दिलचस्पी ले रहा है, मुख्यतः क्योंकि मैं स्वयं एक मौजूदा भाषण मान्यता प्रणाली के लिए शोर में कमी पर काम कर रहा हूं।

शोर कम करने की तकनीक पर अधिकांश कागजात इस बात पर ध्यान केंद्रित करते हैं कि मनुष्यों के लिए भाषण को अधिक बुद्धिमान कैसे बनाया जाए, या "भाषण की गुणवत्ता" जैसे अस्पष्ट शब्दों को कैसे सुधारें।

मुझे यकीन है कि, इस तरह के मानदंडों का उपयोग करके, आप उन फिल्टर की पहचान कर सकते हैं जो शोर भाषण संकेतों को मनुष्यों के लिए सुनने में आसान बनाते हैं। हालांकि, मुझे यकीन नहीं है कि भाषण मानदंड प्रणाली की सटीकता में सुधार करने के लिए घोषित किए गए भाषण संकेतों का मूल्यांकन करने की कोशिश करते समय इन मानदंडों को केवल अनुकूलित किया जा सकता है।

मुझे वास्तव में ऐसे कागज नहीं मिले हैं जो इस अंतर पर चर्चा करते हों। क्या भाषण की समझदारी और भाषण की गुणवत्ता भाषण मान्यता प्रणालियों की सटीकता के साथ संबद्ध है? क्या ऐसे वस्तुनिष्ठ उपाय हैं जो मूल्यांकन कर सकते हैं कि एक भाषण मान्यता प्रणाली के लिए "अच्छा" एक अस्वीकृत भाषण संकेत कैसे होगा, उदाहरण के लिए यदि मूल स्वच्छ भाषण भी दिया जाए? या यह पता लगाने का एकमात्र तरीका है कि आपके शोर को कम करने की तकनीक कितनी अच्छी है, जो कि मान्यता प्राप्त डेटा पर भाषण पहचान प्रणाली को प्रशिक्षित करने और सटीकता को देखने के लिए है?

मुझे खुशी होगी अगर कोई मुझे सही दिशा में ले जा सकता है, या शायद कुछ कागजात दे जो इस पर चर्चा करें। अग्रिम में धन्यवाद!

जवाबों:


2

मुझे वास्तव में ऐसे कागज नहीं मिले हैं जो इस अंतर पर चर्चा करते हों।

इस विषय पर पूरी किताबें हैं:

मजबूत स्वचालित भाषण मान्यता 1 संस्करण

क्या भाषण की समझदारी और भाषण की गुणवत्ता भाषण मान्यता प्रणालियों की सटीकता के साथ संबद्ध है?

आमतौर पर नहीं, आमतौर पर शोर में कमी भ्रष्ट तरीकों से अप्रत्याशित तरीके से होती है और भाषण मान्यता सटीकता को कम करती है।

क्या ऐसे वस्तुनिष्ठ उपाय हैं जो मूल्यांकन कर सकते हैं कि एक भाषण मान्यता प्रणाली के लिए "अच्छा" एक अस्वीकृत भाषण संकेत कैसे होगा, उदाहरण के लिए यदि मूल स्वच्छ भाषण भी दिया जाए? या यह पता लगाने का एकमात्र तरीका है कि आपके शोर को कम करने की तकनीक कितनी अच्छी है, जो कि मान्यता प्राप्त डेटा पर भाषण पहचान प्रणाली को प्रशिक्षित करने और सटीकता को देखने के लिए है?

दूसरा। इसके अलावा सुविधा-आधारित शोर में कमी वास्तव में स्पेक्ट्रम से महत्वपूर्ण जानकारी को पूरी तरह से हटा देती है ताकि आप स्वच्छ प्रणाली की सटीकता की मरम्मत न कर सकें। इस कारण से आधुनिक दृष्टिकोण शोर में कमी एल्गोरिथ्म का उपयोग करने के बजाय शोर डेटा पर बहु-शैली प्रशिक्षण करने के लिए है। यह अधिक सटीक मान्यता में समाप्त होता है।


आपके उत्तर के लिए धन्यवाद। मुझे लगता है कि मैं सही कागजात की तलाश नहीं कर रहा था। मैं उस पुस्तक पर एक नज़र डालूँगा।
मार्लनफ़ेल

ठीक है, यदि आप कागजात चाहते हैं तो आप CHIME-4 चुनौती के परिणामों की जांच कर सकते हैं, ज्यादातर मजबूत ASR में कला की स्थिति।
निकोले शिमरेव
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.