टेक्स्ट प्रोसेसिंग में क्लस्टरिंग का उपयोग करना


11

नमस्ते यह डेटा साइंस स्टैक में मेरा पहला सवाल है। मैं पाठ वर्गीकरण के लिए एक एल्गोरिथ्म बनाना चाहता हूं। मान लीजिए कि मेरे पास पाठ और लेखों का एक बड़ा समूह है। लगभग ५००० सादे ग्रंथों के बारे में बताते हैं। मैं पहले चार और ऊपर के सभी वर्णों की आवृत्ति निर्धारित करने के लिए एक साधारण फ़ंक्शन का उपयोग करता हूं। मैं तब प्रत्येक प्रशिक्षण नमूने की सुविधा के रूप में इसका उपयोग करता हूं। अब मैं चाहता हूं कि मेरा एल्गोरिदम उनकी विशेषताओं के अनुसार प्रशिक्षण सेटों को क्लस्टर करने में सक्षम हो, जो कि लेख में प्रत्येक शब्द की आवृत्ति है। (ध्यान दें कि इस उदाहरण में, प्रत्येक लेख की अपनी अनूठी विशेषता होगी क्योंकि प्रत्येक लेख की एक अलग विशेषता है, उदाहरण के लिए एक लेख में 10 "जल और 23" शुद्ध "और दूसरे में 8" राजनीति "और 14" उत्तोलन "हैं।" क्या आप इस उदाहरण के लिए सर्वोत्तम संभव क्लस्टरिंग एल्गोरिदम सुझा सकते हैं?

जवाबों:


5

मुझे नहीं पता कि क्या आप कभी टेड पेडरसेन द्वारा सेंसक्स्टर पढ़ते हैं: http://senseclusters.sourceforge.net/ । अर्थ क्लस्टरिंग के लिए बहुत अच्छा पेपर।

इसके अलावा, जब आप शब्दों का विश्लेषण करते हैं, तो सोचें कि "कंप्यूटर", "कंप्यूटर", "कम्प्यूटिंग", ... एक अवधारणा का प्रतिनिधित्व करते हैं, इसलिए केवल एक ही विशेषता है। एक सही विश्लेषण के लिए बहुत महत्वपूर्ण है।

क्लस्टरिंग एल्गोरिथ्म के बारे में बात करने के लिए, आप एक पदानुक्रमिक क्लस्टरिंग का उपयोग कर सकते हैं । एल्गो के प्रत्येक चरण में, आप उनकी विशेषताओं के अनुसार 2 सबसे समान ग्रंथों का विलय करते हैं (उदाहरण के लिए असमानता, यूक्लिडियन दूरी का एक उपाय का उपयोग करके)। असहमति के उस उपाय के साथ, आप गुच्छों की सबसे अच्छी संख्या और इसलिए, अपने ग्रंथों और लेखों के लिए सबसे अच्छी गुच्छी पा सकते हैं।

सौभाग्य :)


6

यदि आप अपने मौजूदा पथ पर आगे बढ़ना चाहते हैं, तो मैं सुझाव देता हूं कि प्रत्येक कॉर्पस में इसकी लोकप्रियता से प्रत्येक शब्द की आवृत्ति को सामान्य किया जाए, इसलिए दुर्लभ और इसलिए भविष्य कहनेवाला शब्दों को बढ़ावा दिया जाता है। फिर आकार के नीचे इन बहुत लंबे वैक्टर की गतिशीलता को कम करने के लिए यादृच्छिक अनुमानों का उपयोग करें ताकि आपका क्लस्टरिंग एल्गोरिदम बेहतर काम करे (आप उच्च आयामी स्थानों में क्लस्टर नहीं करना चाहते हैं)।

लेकिन विषय मॉडलिंग के अन्य तरीके भी हैं। अधिक जानने के लिए इस ट्यूटोरियल को पढ़ें ।


2

कह सकते हैं कि यह सबसे अच्छा एक है, लेकिन अव्यक्त अर्थ विश्लेषण एक विकल्प हो सकता है। मूल रूप से यह सह-घटना पर आधारित है, आपको पहले इसे वजन करने की आवश्यकता है।

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

समस्या यह है कि एलएसए में दृढ़ सांख्यिकीय समर्थन नहीं है।

मज़े करो


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.