मुझे हाथ में निम्नलिखित समस्या है: मेरे पास शब्दों की एक बहुत लंबी सूची है, संभवतः नाम, उपनाम आदि, मुझे इस शब्द सूची को क्लस्टर करने की आवश्यकता है, जैसे कि समान शब्द, उदाहरण के लिए समान संपादन वाले शब्द (लेवेंसहाइट) दूरी दिखाई देती है। एक ही क्लस्टर। उदाहरण के लिए "एल्गोरिथ्म" और "एलोग्रिथ" में एक ही क्लस्टर में दिखाई देने की उच्च संभावनाएं होनी चाहिए।
मैं शास्त्रीय अप्रभावी क्लस्टरिंग विधियों जैसे k- साधन क्लस्टरिंग, पैटर्न मान्यता साहित्य में EM क्लस्टरिंग से अच्छी तरह से वाकिफ हूं। यहां समस्या यह है कि ये विधियां उन बिंदुओं पर काम करती हैं जो एक वेक्टर अंतरिक्ष में रहते हैं। मेरे हाथ में तार हैं। ऐसा लगता है कि, एक संख्यात्मक वेक्टर अंतरिक्ष में तारों का प्रतिनिधित्व कैसे करें और स्ट्रिंग क्लस्टरों के "साधनों" की गणना करने का सवाल अब तक मेरे सर्वेक्षण प्रयासों के अनुसार पर्याप्त रूप से उत्तर नहीं दिया गया है। इस समस्या पर हमला करने के लिए एक भोली दृष्टिकोण लेवेंसटेइन दूरी के साथ k-Means क्लस्टरिंग को संयोजित करने के लिए होगा, लेकिन यह सवाल अभी भी "कैसे का प्रतिनिधित्व करता है" का अर्थ है "स्ट्रिंग्स का मतलब है?"। एक वजन है जिसे टीएफ-आईडीएफ वजन कहा जाता है, लेकिन ऐसा लगता है कि यह ज्यादातर "टेक्स्ट डॉक्यूमेंट" क्लस्टरिंग के क्षेत्र से संबंधित है, न कि एकल शब्दों के क्लस्टरिंग के लिए। http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf
इस क्षेत्र में मेरी खोज अभी भी जारी है, लेकिन मैं यहां से भी विचार लाना चाहता था। इस मामले में आप क्या सलाह देंगे, क्या कोई इस तरह की समस्या के लिए किसी भी तरीके से परिचित है?
It seems that there are some special string clustering algorithms
। यदि आप विशेष रूप से टेक्स्ट-माइनिंग फ़ील्ड से आते हैं, तो आँकड़े / डेटा विश्लेषण नहीं, तो यह कथन वारण्टेड है। हालाँकि, अगर आपको क्लचिंग शाखा सीखने को मिलती है, क्योंकि आप पाएंगे कि स्ट्रिंग डेटा के लिए कोई "विशेष" एल्गोरिदम मौजूद नहीं है। "विशेष" यह है कि आप इस तरह के डेटा को क्लस्टर विश्लेषण में इनपुट करने से पहले कैसे संसाधित करते हैं।