नीचे एक संकेत है जो किसी बात कर रहे व्यक्ति की रिकॉर्डिंग का प्रतिनिधित्व करता है। मैं इसके आधार पर छोटे श्रव्य संकेतों की एक श्रृंखला बनाना चाहूंगा। 'महत्वपूर्ण' ध्वनि शुरू होने और समाप्त होने का पता लगाने के लिए विचार किया जा रहा है और मार्करों के लिए ऑडियो का नया स्निपेट बनाने के लिए उपयोग किया जाता है। दूसरे शब्दों में, मैं मौन को संकेतक के रूप में उपयोग करना चाहूंगा जब एक ऑडियो 'चंक' शुरू हो गया हो या बंद हो गया हो और इसके आधार पर नए ऑडियो बफ़र्स बनाए।
उदाहरण के लिए, यदि कोई व्यक्ति खुद को रिकॉर्ड करता है
Hi [some silence] My name is Bob [some silence] How are you?
तब मैं इसमें से तीन ऑडियो क्लिप बनाना चाहूंगा। एक वह कहता है Hi
, एक जो कहता है My name is Bob
और एक कहता है How are you?
।
मेरा प्रारंभिक विचार ऑडियो बफर के माध्यम से लगातार जांच करना है जहां कम आयाम वाले क्षेत्र हैं। शायद मैं पहले दस नमूनों को ले कर ऐसा कर सकता था, मूल्यों को औसत कर सकता हूं और यदि परिणाम कम है तो इसे चुपचाप लेबल करें। मैं अगले दस नमूनों की जांच करके बफर को आगे बढ़ाऊंगा। इस तरह से बढ़ते हुए मैं यह पता लगा सकता था कि लिफाफे कहाँ से शुरू होते हैं और रुकते हैं।
अगर किसी के पास अच्छे, लेकिन सरल तरीके से ऐसा करने की सलाह है, तो यह बहुत अच्छा होगा। मेरे उद्देश्यों के लिए समाधान काफी अल्पविकसित हो सकता है।
मैं डीएसपी में समर्थक नहीं हूं, लेकिन कुछ बुनियादी अवधारणाओं को समझता हूं। इसके अलावा, मैं यह प्रोग्रामेटिक रूप से कर रहा हूं इसलिए एल्गोरिदम और डिजिटल नमूनों के बारे में बात करना सबसे अच्छा होगा।
पूरी सहायताके लिए शुक्रिया!
EDIT 1
अब तक की शानदार प्रतिक्रियाएँ! बस यह स्पष्ट करना चाहता था कि यह लाइव ऑडियो पर नहीं है और मैं स्वयं एल्गोरिदम को सी या ऑब्जेक्टिव-सी में लिखूंगा, इसलिए पुस्तकालयों का उपयोग करने वाले कोई भी समाधान वास्तव में एक विकल्प नहीं हैं।