इस समस्या के उत्तर की तलाश करते हुए, मैंने पाया कि यह बोर्ड स्टैक ओवरफ्लो से मेरा इस प्रश्न को पार करने का फैसला करता है ।
मैं एक ऑडियो सेगमेंट और एक मानवीय आवाज के बीच समानता का निर्धारण करने की एक विधि खोज रहा हूं, जो संख्यात्मक रूप से व्यक्त की जाती है।
मैंने काफी खोज की है, लेकिन मैंने अब तक जो भी पाया है (नीचे विस्तृत रूप से) वह वास्तव में फिट नहीं है जिसकी मुझे आवश्यकता है:
एक विधि एक ऑडियो सेगमेंट से शब्द प्राप्त करने के लिए स्पीच रिकग्निशन सॉफ़्टवेयर का उपयोग करना है। हालाँकि, यह विधि इस तरह नहीं आ पा रही है कि मानव भाषण में "समान" ऑडियो कैसा है; यह अक्सर यह बता सकता है कि ऑडियो में शब्द हैं या नहीं, लेकिन अगर कोई निश्चित शब्द नहीं हैं, तो यह नहीं बता सकता है कि ऑडियो ऐसे शब्द है।
उदाहरण: सीएमयू स्फिंक्स , ड्रैगनफ़्लू , शूटअधिक आशाजनक विधि को वॉइस एक्टिविटी डिटेक्शन (VAD) कहा जाता है । हालाँकि, इसमें समान समस्याएं हैं: VAD का उपयोग करने वाले एल्गोरिदम / कार्यक्रम केवल वापस लौटते हैं या नहीं कि गतिविधि थ्रेशोल्ड तक पहुँच गई है या नहीं और इस तरह के थ्रेशोल्ड के पहले या बाद में कोई "समानता" मूल्य नहीं है। वैकल्पिक रूप से, कई लोग केवल मात्रा की तलाश करते हैं, मानव भाषण की समानता नहीं।
उदाहरण: Speex , श्रोता , FreeSWITCH
कोई विचार?