यह एक ऐसा प्रश्न है जो मुझे पिछले कुछ समय से दिलचस्पी ले रहा है, मुख्यतः क्योंकि मैं स्वयं एक मौजूदा भाषण मान्यता प्रणाली के लिए शोर में कमी पर काम कर रहा हूं।
शोर कम करने की तकनीक पर अधिकांश कागजात इस बात पर ध्यान केंद्रित करते हैं कि मनुष्यों के लिए भाषण को अधिक बुद्धिमान कैसे बनाया जाए, या "भाषण की गुणवत्ता" जैसे अस्पष्ट शब्दों को कैसे सुधारें।
मुझे यकीन है कि, इस तरह के मानदंडों का उपयोग करके, आप उन फिल्टर की पहचान कर सकते हैं जो शोर भाषण संकेतों को मनुष्यों के लिए सुनने में आसान बनाते हैं। हालांकि, मुझे यकीन नहीं है कि भाषण मानदंड प्रणाली की सटीकता में सुधार करने के लिए घोषित किए गए भाषण संकेतों का मूल्यांकन करने की कोशिश करते समय इन मानदंडों को केवल अनुकूलित किया जा सकता है।
मुझे वास्तव में ऐसे कागज नहीं मिले हैं जो इस अंतर पर चर्चा करते हों। क्या भाषण की समझदारी और भाषण की गुणवत्ता भाषण मान्यता प्रणालियों की सटीकता के साथ संबद्ध है? क्या ऐसे वस्तुनिष्ठ उपाय हैं जो मूल्यांकन कर सकते हैं कि एक भाषण मान्यता प्रणाली के लिए "अच्छा" एक अस्वीकृत भाषण संकेत कैसे होगा, उदाहरण के लिए यदि मूल स्वच्छ भाषण भी दिया जाए? या यह पता लगाने का एकमात्र तरीका है कि आपके शोर को कम करने की तकनीक कितनी अच्छी है, जो कि मान्यता प्राप्त डेटा पर भाषण पहचान प्रणाली को प्रशिक्षित करने और सटीकता को देखने के लिए है?
मुझे खुशी होगी अगर कोई मुझे सही दिशा में ले जा सकता है, या शायद कुछ कागजात दे जो इस पर चर्चा करें। अग्रिम में धन्यवाद!