टेक्स्ट प्रोसेसिंग में क्लस्टरिंग का उपयोग करना

11

नमस्ते यह डेटा साइंस स्टैक में मेरा पहला सवाल है। मैं पाठ वर्गीकरण के लिए एक एल्गोरिथ्म बनाना चाहता हूं। मान लीजिए कि मेरे पास पाठ और लेखों का एक बड़ा समूह है। लगभग ५००० सादे ग्रंथों के बारे में बताते हैं। मैं पहले चार और ऊपर के सभी वर्णों की आवृत्ति निर्धारित करने के लिए एक साधारण फ़ंक्शन का उपयोग करता हूं। मैं तब प्रत्येक प्रशिक्षण नमूने की सुविधा के रूप में इसका उपयोग करता हूं। अब मैं चाहता हूं कि मेरा एल्गोरिदम उनकी विशेषताओं के अनुसार प्रशिक्षण सेटों को क्लस्टर करने में सक्षम हो, जो कि लेख में प्रत्येक शब्द की आवृत्ति है। (ध्यान दें कि इस उदाहरण में, प्रत्येक लेख की अपनी अनूठी विशेषता होगी क्योंकि प्रत्येक लेख की एक अलग विशेषता है, उदाहरण के लिए एक लेख में 10 "जल और 23" शुद्ध "और दूसरे में 8" राजनीति "और 14" उत्तोलन "हैं।" क्या आप इस उदाहरण के लिए सर्वोत्तम संभव क्लस्टरिंग एल्गोरिदम सुझा सकते हैं?

text-mining clustering

— राशिद
स्रोत

5

मुझे नहीं पता कि क्या आप कभी टेड पेडरसेन द्वारा सेंसक्स्टर पढ़ते हैं: http://senseclusters.sourceforge.net/ । अर्थ क्लस्टरिंग के लिए बहुत अच्छा पेपर।

इसके अलावा, जब आप शब्दों का विश्लेषण करते हैं, तो सोचें कि "कंप्यूटर", "कंप्यूटर", "कम्प्यूटिंग", ... एक अवधारणा का प्रतिनिधित्व करते हैं, इसलिए केवल एक ही विशेषता है। एक सही विश्लेषण के लिए बहुत महत्वपूर्ण है।

क्लस्टरिंग एल्गोरिथ्म के बारे में बात करने के लिए, आप एक पदानुक्रमिक क्लस्टरिंग का उपयोग कर सकते हैं । एल्गो के प्रत्येक चरण में, आप उनकी विशेषताओं के अनुसार 2 सबसे समान ग्रंथों का विलय करते हैं (उदाहरण के लिए असमानता, यूक्लिडियन दूरी का एक उपाय का उपयोग करके)। असहमति के उस उपाय के साथ, आप गुच्छों की सबसे अच्छी संख्या और इसलिए, अपने ग्रंथों और लेखों के लिए सबसे अच्छी गुच्छी पा सकते हैं।

सौभाग्य :)

— जे सी आर
स्रोत

6

यदि आप अपने मौजूदा पथ पर आगे बढ़ना चाहते हैं, तो मैं सुझाव देता हूं कि प्रत्येक कॉर्पस में इसकी लोकप्रियता से प्रत्येक शब्द की आवृत्ति को सामान्य किया जाए, इसलिए दुर्लभ और इसलिए भविष्य कहनेवाला शब्दों को बढ़ावा दिया जाता है। फिर आकार के नीचे इन बहुत लंबे वैक्टर की गतिशीलता को कम करने के लिए यादृच्छिक अनुमानों का उपयोग करें ताकि आपका क्लस्टरिंग एल्गोरिदम बेहतर काम करे (आप उच्च आयामी स्थानों में क्लस्टर नहीं करना चाहते हैं)।

लेकिन विषय मॉडलिंग के अन्य तरीके भी हैं। अधिक जानने के लिए इस ट्यूटोरियल को पढ़ें ।

— Emre
स्रोत

2

कह सकते हैं कि यह सबसे अच्छा एक है, लेकिन अव्यक्त अर्थ विश्लेषण एक विकल्प हो सकता है। मूल रूप से यह सह-घटना पर आधारित है, आपको पहले इसे वजन करने की आवश्यकता है।

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

समस्या यह है कि एलएसए में दृढ़ सांख्यिकीय समर्थन नहीं है।

मज़े करो

— चेन गुओ
स्रोत

0

टेक्स्ट को वर्गीकृत करने का एक तरीका टर्म फ़्रीक्वेंसी और इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी की गणना है। आप इस पत्र का उल्लेख कर सकते हैं: http://www.oracle.com/technetwork/testcontent/feature-preparation-1309.12.df

— राजन कुमार खरल
स्रोत