FSA व्याकरण के बीच 'समानता' को मापने के लिए विधि?

मैं एक पैटर्न मैचिंग एल्गोरिथ्म के साथ काम कर रहा हूं जो एक एसाइक्लिक परिमित राज्य ऑटोमेटोन उत्पन्न करता है जो किसी दिए गए टेक्स्ट स्ट्रिंग और इसके सभी सबस्ट्रिंग को स्वीकार करता है। एफएसए एल्गोरिथ्म एक संगीत स्ट्रीम (जैसे, मिडी डेटा) के प्रतीकात्मक प्रतिनिधित्व पर चलाया जा रहा है। प्रत्येक गीत को गैर-खंडित 'सेगमेंट' में विभाजित करने के लिए संगीत स्ट्रीम को प्रीप्रोसेस किया गया है। प्रत्येक गीत में प्रत्येक खंड के लिए एक FSA उत्पन्न होता है: यदि मेरे पास गीत हैं, प्रत्येक को खंडों में विभाजित किया गया है, तो मेरे पास अलग FSAs होगा। $n$ $y$ $n \cdot y$

मैं अपने सेगमेंट के एफएसए के प्रत्येक सेगमेंट की तुलना अपने कॉर्पस से करना चाहूंगा। अंतिम लक्ष्य एक समानता वाले स्थान के भीतर क्लस्टरिंग करना होगा और खंडों के 'वर्गों' के साथ आना होगा कि उनके निर्माण के आयाम समान हैं। इस प्रकार, विशेष रूप से ब्याज व्याकरण हैं जो प्रत्येक एफएसए को परिभाषित करते हैं (खंड में संगीत सामग्री के लगभग कुछ निश्चित घटक)। क्या ऐसी तकनीकें हैं जो कुछ इस तरह की तुलना के लिए अच्छी हो सकती हैं? केएल-विचलन मन में आता है (जैसे, इसका उपयोग किसी दिए गए एफएसए से जुड़े तारों पर वितरण की तुलना करना), हालांकि बेहतर / अधिक कुशल तकनीक हो सकती है?

इसके अलावा, माफी अगर यह सवाल या तो (1) तुच्छ रूप से आसान है या (2) कुछ गहरी गलतफहमी का संकेत है या (3) कहीं और उत्तर दिया गया है। मैं एक असली नब, दोस्तों!

formal-languages reference-request finite-automata

— फ्लिप
स्रोत

आपको यह बताने की आवश्यकता होगी कि "समान" से आपका क्या मतलब है। आपको मीट्रिक का चयन करना होगा; कोई भी सही मीट्रिक नहीं है जो सभी उद्देश्यों के लिए सही हो। अधिक जानकारी के बिना, हम आपको यह नहीं बता सकते कि किस मीट्रिक का उपयोग करना है। मैं आपको इस सवाल का संपादन करने का सुझाव देता हूं कि आप समानता क्यों मापना चाहते हैं, आप समानता मीट्रिक के परिणामों के साथ क्या करेंगे, और आपने क्या शोध किया है। आप उन तारों से प्राप्त FSAs की समानता को मापने के बजाय अंतर्निहित तारों के बीच समानता के उपायों को देखकर शुरू कर सकते हैं। संपादित दूरी मन में आती है।

— डीडब्ल्यू

रहे हैं कई स्ट्रिंग मैट्रिक्स ; जो आपके लिए काम करता है निर्भर करता है (नोट: स्ट्रिंग "मीट्रिक" कि लेख में सूचीबद्ध से कुछ नहीं वास्तव में गणितीय अर्थ में मीट्रिक हैं।)

— राफेल

स्ट्रिंग मेट्रिक्स अच्छे हैं, लेकिन काफी नहीं है कि मैं इसके बाद क्या हूं। विशिष्ट तारों की एक दूसरे से तुलना करने के बजाय, मैं उन नियमों (औपचारिक व्याकरण / FSAs) की प्रणाली की तुलना करना चाहूंगा जो उन तारों का उत्पादन कर सकते थे। मैं मानता हूं कि असीम रूप से कई व्याकरण हैं जो किसी भी विशिष्ट स्ट्रिंग का उत्पादन कर सकते हैं, इसलिए मैं अपनी खोज को नियमों के एक विशेष सेट का उपयोग करके निर्मित व्याकरण (FSA) के लिए विवश कर रहा हूं। मुझे लगता है कि ऐसे मामले हो सकते हैं जहां दो अलग-अलग तार एक दिए गए स्ट्रिंग मीट्रिक के अनुसार औपचारिक रूप से समान हैं, लेकिन उन्हें उत्पादन करने के लिए आवश्यक व्याकरण काफी अलग हैं

— फ्लिप

समस्या के बयान से, प्रत्येक एफएसए एक स्ट्रिंग और इसके सभी पदार्थों को स्वीकार कर रहा है। मौलिक रूप से, यह एफएसए सबसे लंबे समय तक स्ट्रिंग की विशेषता है जिसे यह स्वीकार करता है। इसकी पूरी संरचना इससे प्राप्त होती है। इसलिए एफएसए की तुलना सीधे उन तारों की तुलना करने में कम होती है, जिनसे वे निर्मित होते हैं। यह हो सकता है कि आपकी एफएसए निर्माण तकनीक कुछ विशेषताओं पर जोर देती है, जिसे आप महत्वपूर्ण मानते हैं। फिर हमें यह जानने की जरूरत है कि वे क्या देख सकते हैं जैसे कि क्या मायने रखता है। यह वापस आता है: क्या समान है, क्या मीट्रिक है। जैसा कि यह है, इस सवाल का कोई मतलब नहीं है।

— बबौ

आपके पास एक और कोण से अधिक भाग्य हो सकता है और संगीत के टुकड़े की समानता में अनुसंधान को देख सकता है, वहां शोधकर्ता अध्ययन कर रहे हैं, और जब आपका दृष्टिकोण काम कर सकता है, तो अन्य दृष्टिकोण भी हैं। बड़े डेटाबेस हैं जो कई तत्वों / मानदंडों को देखते हैं जैसे गीत, शैली आदि जैसे संगीत जीनोम प्रोजेक्ट ।

कभी-कभी जब एल्गोरिदम की एक विस्तृत विविधता एक सर्वेक्षण में मदद कर सकती है। यहाँ ग्राफ मिलान पर दो सर्वेक्षण हैं।

मिलान संरचना और शब्दार्थ: ग्राफ-आधारित पैटर्न पर एक सर्वेक्षण ब्रायन गैलाघर से मिलान
ग्राफ समानता और मिलान / ज़गर

— vzn
स्रोत

चूंकि एफएसएएएस निर्देशित ग्राफ हैं, इसलिए आपके प्रश्न को "निर्देशित ग्राफ़ के बीच समानता को मापने के लिए एल्गोरिथ्म" के रूप में सामान्यीकृत किया जा सकता है। "ग्राफ समानता एल्गोरिथ्म" के लिए एक Google खोज पृष्ठों और हिट के पन्नों को देती है, शायद उनमें से एक आपके उद्देश्यों के लिए उपयुक्त होगा?

एक बार एफएसए और सामान्य डिग्राफ के बीच अंतर एज लेबल, या एफएसएएस में संक्रमण के प्रतीक हैं, इसलिए आपको उस खाते में लेने के लिए इन एल्गोरिदम को संशोधित करना होगा।

— माइक औंस्वर्थ
स्रोत

इस तरह की एक विधि कुछ प्रमुख गुणों को याद करेगी। उदाहरण के लिए, आप संभवतः एक ही भाषा के विभिन्न अभ्यावेदन चाहते हैं, जिसमें पूरी समानता हो, लेकिन रेखांकन की तुलना एक ही भाषा के लिए दो ऑटोमेटा को असमान के रूप में रिपोर्ट कर सकती है।

— शाम