मैं स्पेक्ट्रोग्राम का उपयोग करके ध्वनि को वर्गीकृत करने की संभावना (उदाहरण के लिए जानवरों की आवाज़) को देख रहा था। यह विचार स्पेक्ट्रोग्राम और खंड एक (या कई) श्रेणी के लेबल में सेगमेंट को पहचानने के लिए एक गहरी संवेदी तंत्रिका नेटवर्क का उपयोग करना है। यह एक नया विचार नहीं है (उदाहरण के लिए व्हेल ध्वनि वर्गीकरण या संगीत शैली मान्यता )।
मुझे जो समस्या आ रही है, वह यह है कि मेरे पास अलग-अलग लंबाई की ध्वनि फाइलें हैं और इसलिए विभिन्न आकारों के स्पेक्ट्रोग्राम हैं। अब तक, मैंने जो भी देखा है वह निश्चित आकार के ध्वनि नमूने का उपयोग करता है लेकिन मैं ऐसा नहीं कर सकता क्योंकि मेरी ध्वनि फ़ाइल 10 सेकंड या 2 मिनट लंबी हो सकती है।
उदाहरण के लिए, शुरुआत में एक पक्षी ध्वनि और अंत में एक मेंढक ध्वनि (आउटपुट "बर्ड, फ्रॉग" होना चाहिए)। मेरा वर्तमान समाधान तंत्रिका नेटवर्क (एक आवर्तक तंत्रिका नेटवर्क का अधिक निर्माण) में एक अस्थायी घटक जोड़ना होगा, लेकिन मैं इसे अभी के लिए सरल रखना चाहूंगा। कोई विचार, लिंक, ट्यूटोरियल, ...?