चेक स्टैनफोर्ड NLP समूह के ओपन सोर्स सॉफ्टवेयर ( http://www-nlp.stanford.edu/software ,) विशेष रूप से, स्टैनफोर्ड वर्गीकरणकर्ता ( http://www-nlp.stanford.edu/software/classifier.shtml ) । सॉफ्टवेयर में लिखा गया है Java
, जो आपको प्रसन्न कर देगा, लेकिन कुछ अन्य भाषाओं के लिए बाइंडिंग भी है। ध्यान दें, लाइसेंसिंग - यदि आप वाणिज्यिक उत्पादों में उनके कोड का उपयोग करने की योजना बनाते हैं, तो आपको वाणिज्यिक लाइसेंस प्राप्त करना होगा।
ओपन सोर्स लाइब्रेरीज़ का एक और दिलचस्प सेट, इस कार्य के लिए उपयुक्त IMHO और बहुत कुछ है, मशीन लर्निंग ग्राफलैब ( http://select.cs.cmu.edu/code/graphlab ) के समानांतर संरचना , जिसमें क्लस्टरिंग लाइब्रेरी शामिल है, जो विभिन्न क्लस्टरिंग को लागू करती है। एल्गोरिदम ( http://select.cs.cmu.edu/code/graphlab/clustering.html )। यह डेटा की बहुत बड़ी मात्रा (जैसे आपके पास) के लिए विशेष रूप से उपयुक्त है , क्योंकि यह MapReduce
मॉडल को लागू करता है और इस प्रकार, मल्टीकोर और मल्टीप्रोसेसर समानांतर प्रसंस्करण का समर्थन करता है ।
आप सबसे अधिक संभावना निम्नलिखित के बारे में जानते हैं, लेकिन मैं सिर्फ मामले में इसका उल्लेख करूंगा। प्राकृतिक भाषा टूलकिट (NLTK) के लिए Python
( http://www.nltk.org ) क्लस्टरिंग / वर्गीकृत / श्रेणीबद्ध पाठ के लिए मॉड्यूल शामिल हैं। में प्रासंगिक अध्याय की जाँच करें NLTK Book
: http://www.nltk.org/book/ch06.html ।
अपडेट करें:
एल्गोरिदम की बात करें , तो ऐसा लगता है कि आपने अधिकतर लोगों से scikit-learn
इस विषय के निष्कर्षण उदाहरण में सचित्र उदाहरण लिए हैं: http://scikit-learn.org/stable/auto_examples/applications/topics_extraction_ith_nmf.html । हालाँकि, आपको उपयोगी अन्य लाइब्रेरी मिल सकती हैं, जो कि कई प्रकार के क्लस्टरिंग एल्गोरिदम को लागू करती हैं , जिनमें नॉन-निगेटिव मैट्रिक्स फैक्टराइजेशन (NMF) शामिल है । इस तरह के पुस्तकालयों में से एक है अजगर मैट्रिक्स Factorization (PyMF) में घर पृष्ठ के साथ https://code.google.com/p/pymf पर और स्रोत कोड https://github.com/nils-werner/pymf । एक और, और भी दिलचस्प, पुस्तकालय, पायथन-आधारित, NIMFA है, जो विभिन्न NMF एल्गोरिदम को लागू करता है : http://nimfa.biolab.si । यहाँ एक शोध पत्र है, जिसका वर्णन है NIMFA
: http://jmlr.org/papers/volume13/zitnik12a/zitnik12a.pdf । इसके दस्तावेज़ीकरण से एक उदाहरण यहां दिया गया है, जो विषय की क्लस्टरिंग की बहुत समान पाठ प्रसंस्करण समस्या का समाधान प्रस्तुत करता है : http://nimfa.biolab.si/nimfa.examples.documents.html ।