यह निर्धारित करना कि किसी दिए गए तार को तार के संग्रह के समान कैसे है


10

मुझे यकीन नहीं है कि अगर यह सवाल यहाँ है और मैं माफी माँगता हूँ तो नहीं। मैं जो करने के लिए देख रहा हूं वह एक प्रोग्रामेटिक तरीका विकसित करना है जिसमें मैं संभावित रूप से यह निर्धारित कर सकता हूं कि क्या एक स्ट्रिंग स्ट्रिंग के बैग में "संबंधित" है। उदाहरण के लिए, अगर मेरे पास 10,000 अमेरिकी शहर के नाम हैं, और फिर मेरे पास "फिलाडेल्फिया" स्ट्रिंग है, तो मैं कुछ मात्रात्मक माप चाहूंगा कि 'फिलाडेल्फिया' अमेरिकी शहर के नाम के आधार पर एक अमेरिकी शहर का नाम है जो मुझे पहले से ही पता है। जबकि मुझे पता है कि मैं इस संदर्भ में असली शहर के नामों को नकली शहर के नामों से अलग नहीं कर पाऊंगा, मुझे कम से कम "123.75" और "लाल भूरे रंग के कुत्तों पर कूदने वाले तेज लोमड़ी" जैसे तार की उम्मीद होगी। कुछ सीमा।

आरंभ करने के लिए, मैंने लेवेंसहाइट डिस्टेंस को देखा है और थोड़ा सा चारों ओर देखा है कि इसे कम से कम कुछ हद तक समस्याओं के लिए लागू किया गया है जिसे मैं हल करने की कोशिश कर रहा हूं। एक दिलचस्प आवेदन जो मुझे मिला वह साहित्यिक चोरी का पता लगाने वाला था, जिसमें एक पेपर में वर्णित किया गया था कि कैसे लेवेंसहाइटिन दूरी का उपयोग संशोधित स्मिथ-वाटरमैन एल्गोरिथ्म के साथ कागजात स्कोर करने के लिए किया गया था, इस आधार पर कि वे किसी दिए गए आधार पेपर के एक प्लैगराइज़्ड संस्करण थे। मेरा प्रश्न यह है कि यदि कोई अन्य स्थापित एल्गोरिदम या कार्यप्रणाली के साथ मुझे सही दिशा में इंगित कर सकता है जो मेरी मदद कर सकता है। मुझे लग रहा है कि यह एक ऐसी समस्या हो सकती है जिसे अतीत में किसी ने हल करने की कोशिश की हो, लेकिन अभी तक मेरा गूगल-फू मुझे विफल कर चुका है।


यदि आपके पास सकारात्मक और नकारात्मक उदाहरण उपलब्ध हैं, तो आप एक क्लासिफायरियर को प्रशिक्षित करने का प्रयास कर सकते हैं। सुविधाओं के लिए, मैं कुछ सरल आँकड़ों को खींचने की कोशिश करूँगा जैसे कि युवल फिल्मस द्वारा सुझाए गए।
निक


शहर के नाम एक बुरा उदाहरण लगते हैं; वे सभी जगह पर हैं, विशेष रूप से अमेरिका में। यहाँ, टेबल लुकअप सबसे प्रभावी तरीका लगता है। क्या आपकी समस्या अधिक सामान्य है?
राफेल

जवाबों:


5

सोचने के लिए कुछ बेहतर आँकड़े शब्द की लंबाई और -gram विश्लेषण हैं। शब्द की लंबाई के लिए, आप शहर के नामों की शब्द लंबाई के वितरण के आंकड़े एकत्र कर सकते हैं, और इसकी तुलना उस लंबाई से कर सकते हैं जो आपको मिलती है। n -gram विश्लेषण आपके नमूना पाठ में n अक्षरों के अनुक्रमों के वितरण को देखता है (कहें n = 2 )। दोनों दृष्टिकोण संयुक्त हो सकते हैं।nnnn=2

ह्यूरिस्टिक्स को देखते हुए, आप एक स्कोर प्राप्त करने के लिए संभावना का उपयोग कर सकते हैं जो (नमूना) अन्य पाठ की तुलना में आपके नमूना डेटा के लिए अधिक होगा। एक उचित सीमा निर्धारित करने के लिए, आप क्रॉस-सत्यापन कर सकते हैं। नमूना वाक्यांशों का एक सेट चुनें जो शहर के नाम नहीं हैं । शहर के नामों को दो भागों में विभाजित करें, एक बड़ा (80% कहते हैं) भाग और एक छोटा (20% कहें) भाग। अपने मॉडल को बड़े हिस्से (यानी बड़े हिस्से पर आंकड़े इकट्ठा करें) पर प्रशिक्षित करें, और फिर छोटे हिस्से पर और खराब वाक्यांशों के नमूने पर अपने मॉडल का मूल्यांकन करें। निर्धारित करें कि क्या एक उचित सीमा है जो अधिकांश शहर के नाम से गुजरती है, लेकिन केवल थोड़ी मात्रा में खराब वाक्यांश।


धन्यवाद। मैंने n-gram को देखना शुरू कर दिया था, लेकिन मुझे नहीं पता था कि क्या मैं पूरी तरह से ऑफ-बेस था इसलिए मुझे खुशी है कि आपने इसका उल्लेख किया। शब्द की लंबाई भी दिलचस्प लगती है और कुछ ऐसा जो मैंने नहीं सोचा था।
एंड्रयू

आप इसमें वर्ण आवृत्ति जोड़ना चाह सकते हैं। विशेष रूप से, कि सभी गिने सामान से छुटकारा पाना चाहिए। एक लाभ यह है कि ऐसी आवृत्तियों संख्याओं के वैक्टर हैं जिन्हें कई सांख्यिकीय मॉडलों में प्रशिक्षित / मान्यता प्राप्त किया जा सकता है।
राफेल

1
1n+1n
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.