भाषण मान्यता के लिए शोर में कमी शोर में कमी से भिन्न होती है जो कि भाषण को मनुष्यों के लिए अधिक "बुद्धिमान" बनाने के लिए माना जाता है?

यह एक ऐसा प्रश्न है जो मुझे पिछले कुछ समय से दिलचस्पी ले रहा है, मुख्यतः क्योंकि मैं स्वयं एक मौजूदा भाषण मान्यता प्रणाली के लिए शोर में कमी पर काम कर रहा हूं।

शोर कम करने की तकनीक पर अधिकांश कागजात इस बात पर ध्यान केंद्रित करते हैं कि मनुष्यों के लिए भाषण को अधिक बुद्धिमान कैसे बनाया जाए, या "भाषण की गुणवत्ता" जैसे अस्पष्ट शब्दों को कैसे सुधारें।

मुझे यकीन है कि, इस तरह के मानदंडों का उपयोग करके, आप उन फिल्टर की पहचान कर सकते हैं जो शोर भाषण संकेतों को मनुष्यों के लिए सुनने में आसान बनाते हैं। हालांकि, मुझे यकीन नहीं है कि भाषण मानदंड प्रणाली की सटीकता में सुधार करने के लिए घोषित किए गए भाषण संकेतों का मूल्यांकन करने की कोशिश करते समय इन मानदंडों को केवल अनुकूलित किया जा सकता है।

मुझे वास्तव में ऐसे कागज नहीं मिले हैं जो इस अंतर पर चर्चा करते हों। क्या भाषण की समझदारी और भाषण की गुणवत्ता भाषण मान्यता प्रणालियों की सटीकता के साथ संबद्ध है? क्या ऐसे वस्तुनिष्ठ उपाय हैं जो मूल्यांकन कर सकते हैं कि एक भाषण मान्यता प्रणाली के लिए "अच्छा" एक अस्वीकृत भाषण संकेत कैसे होगा, उदाहरण के लिए यदि मूल स्वच्छ भाषण भी दिया जाए? या यह पता लगाने का एकमात्र तरीका है कि आपके शोर को कम करने की तकनीक कितनी अच्छी है, जो कि मान्यता प्राप्त डेटा पर भाषण पहचान प्रणाली को प्रशिक्षित करने और सटीकता को देखने के लिए है?

मुझे खुशी होगी अगर कोई मुझे सही दिशा में ले जा सकता है, या शायद कुछ कागजात दे जो इस पर चर्चा करें। अग्रिम में धन्यवाद!

— marlonfl
स्रोत

मुझे वास्तव में ऐसे कागज नहीं मिले हैं जो इस अंतर पर चर्चा करते हों।

इस विषय पर पूरी किताबें हैं:

मजबूत स्वचालित भाषण मान्यता 1 संस्करण

क्या भाषण की समझदारी और भाषण की गुणवत्ता भाषण मान्यता प्रणालियों की सटीकता के साथ संबद्ध है?

आमतौर पर नहीं, आमतौर पर शोर में कमी भ्रष्ट तरीकों से अप्रत्याशित तरीके से होती है और भाषण मान्यता सटीकता को कम करती है।

क्या ऐसे वस्तुनिष्ठ उपाय हैं जो मूल्यांकन कर सकते हैं कि एक भाषण मान्यता प्रणाली के लिए "अच्छा" एक अस्वीकृत भाषण संकेत कैसे होगा, उदाहरण के लिए यदि मूल स्वच्छ भाषण भी दिया जाए? या यह पता लगाने का एकमात्र तरीका है कि आपके शोर को कम करने की तकनीक कितनी अच्छी है, जो कि मान्यता प्राप्त डेटा पर भाषण पहचान प्रणाली को प्रशिक्षित करने और सटीकता को देखने के लिए है?

दूसरा। इसके अलावा सुविधा-आधारित शोर में कमी वास्तव में स्पेक्ट्रम से महत्वपूर्ण जानकारी को पूरी तरह से हटा देती है ताकि आप स्वच्छ प्रणाली की सटीकता की मरम्मत न कर सकें। इस कारण से आधुनिक दृष्टिकोण शोर में कमी एल्गोरिथ्म का उपयोग करने के बजाय शोर डेटा पर बहु-शैली प्रशिक्षण करने के लिए है। यह अधिक सटीक मान्यता में समाप्त होता है।

— निकोले श्यामरेव
स्रोत

आपके उत्तर के लिए धन्यवाद। मुझे लगता है कि मैं सही कागजात की तलाश नहीं कर रहा था। मैं उस पुस्तक पर एक नज़र डालूँगा।

— मार्लनफ़ेल

ठीक है, यदि आप कागजात चाहते हैं तो आप CHIME-4 चुनौती के परिणामों की जांच कर सकते हैं, ज्यादातर मजबूत ASR में कला की स्थिति।

— निकोले शिमरेव