मैं एक पैटर्न मैचिंग एल्गोरिथ्म के साथ काम कर रहा हूं जो एक एसाइक्लिक परिमित राज्य ऑटोमेटोन उत्पन्न करता है जो किसी दिए गए टेक्स्ट स्ट्रिंग और इसके सभी सबस्ट्रिंग को स्वीकार करता है। एफएसए एल्गोरिथ्म एक संगीत स्ट्रीम (जैसे, मिडी डेटा) के प्रतीकात्मक प्रतिनिधित्व पर चलाया जा रहा है। प्रत्येक गीत को गैर-खंडित 'सेगमेंट' में विभाजित करने के लिए संगीत स्ट्रीम को प्रीप्रोसेस किया गया है। प्रत्येक गीत में प्रत्येक खंड के लिए एक FSA उत्पन्न होता है: यदि मेरे पास गीत हैं, प्रत्येक को y खंडों में विभाजित किया गया है, तो मेरे पास अलग FSAs होगा।
मैं अपने सेगमेंट के एफएसए के प्रत्येक सेगमेंट की तुलना अपने कॉर्पस से करना चाहूंगा। अंतिम लक्ष्य एक समानता वाले स्थान के भीतर क्लस्टरिंग करना होगा और खंडों के 'वर्गों' के साथ आना होगा कि उनके निर्माण के आयाम समान हैं। इस प्रकार, विशेष रूप से ब्याज व्याकरण हैं जो प्रत्येक एफएसए को परिभाषित करते हैं (खंड में संगीत सामग्री के लगभग कुछ निश्चित घटक)। क्या ऐसी तकनीकें हैं जो कुछ इस तरह की तुलना के लिए अच्छी हो सकती हैं? केएल-विचलन मन में आता है (जैसे, इसका उपयोग किसी दिए गए एफएसए से जुड़े तारों पर वितरण की तुलना करना), हालांकि बेहतर / अधिक कुशल तकनीक हो सकती है?
इसके अलावा, माफी अगर यह सवाल या तो (1) तुच्छ रूप से आसान है या (2) कुछ गहरी गलतफहमी का संकेत है या (3) कहीं और उत्तर दिया गया है। मैं एक असली नब, दोस्तों!