मुझे यकीन नहीं है कि अगर यह सवाल यहाँ है और मैं माफी माँगता हूँ तो नहीं। मैं जो करने के लिए देख रहा हूं वह एक प्रोग्रामेटिक तरीका विकसित करना है जिसमें मैं संभावित रूप से यह निर्धारित कर सकता हूं कि क्या एक स्ट्रिंग स्ट्रिंग के बैग में "संबंधित" है। उदाहरण के लिए, अगर मेरे पास 10,000 अमेरिकी शहर के नाम हैं, और फिर मेरे पास "फिलाडेल्फिया" स्ट्रिंग है, तो मैं कुछ मात्रात्मक माप चाहूंगा कि 'फिलाडेल्फिया' अमेरिकी शहर के नाम के आधार पर एक अमेरिकी शहर का नाम है जो मुझे पहले से ही पता है। जबकि मुझे पता है कि मैं इस संदर्भ में असली शहर के नामों को नकली शहर के नामों से अलग नहीं कर पाऊंगा, मुझे कम से कम "123.75" और "लाल भूरे रंग के कुत्तों पर कूदने वाले तेज लोमड़ी" जैसे तार की उम्मीद होगी। कुछ सीमा।
आरंभ करने के लिए, मैंने लेवेंसहाइट डिस्टेंस को देखा है और थोड़ा सा चारों ओर देखा है कि इसे कम से कम कुछ हद तक समस्याओं के लिए लागू किया गया है जिसे मैं हल करने की कोशिश कर रहा हूं। एक दिलचस्प आवेदन जो मुझे मिला वह साहित्यिक चोरी का पता लगाने वाला था, जिसमें एक पेपर में वर्णित किया गया था कि कैसे लेवेंसहाइटिन दूरी का उपयोग संशोधित स्मिथ-वाटरमैन एल्गोरिथ्म के साथ कागजात स्कोर करने के लिए किया गया था, इस आधार पर कि वे किसी दिए गए आधार पेपर के एक प्लैगराइज़्ड संस्करण थे। मेरा प्रश्न यह है कि यदि कोई अन्य स्थापित एल्गोरिदम या कार्यप्रणाली के साथ मुझे सही दिशा में इंगित कर सकता है जो मेरी मदद कर सकता है। मुझे लग रहा है कि यह एक ऐसी समस्या हो सकती है जिसे अतीत में किसी ने हल करने की कोशिश की हो, लेकिन अभी तक मेरा गूगल-फू मुझे विफल कर चुका है।