चेक स्टैनफोर्ड NLP समूह के ओपन सोर्स सॉफ्टवेयर ( http://www-nlp.stanford.edu/software ,) विशेष रूप से, स्टैनफोर्ड वर्गीकरणकर्ता ( http://www-nlp.stanford.edu/software/classifier.shtml ) । सॉफ्टवेयर में लिखा गया है Java, जो आपको प्रसन्न कर देगा, लेकिन कुछ अन्य भाषाओं के लिए बाइंडिंग भी है। ध्यान दें, लाइसेंसिंग - यदि आप वाणिज्यिक उत्पादों में उनके कोड का उपयोग करने की योजना बनाते हैं, तो आपको वाणिज्यिक लाइसेंस प्राप्त करना होगा।
ओपन सोर्स लाइब्रेरीज़ का एक और दिलचस्प सेट, इस कार्य के लिए उपयुक्त IMHO और बहुत कुछ है, मशीन लर्निंग ग्राफलैब ( http://select.cs.cmu.edu/code/graphlab ) के समानांतर संरचना , जिसमें क्लस्टरिंग लाइब्रेरी शामिल है, जो विभिन्न क्लस्टरिंग को लागू करती है। एल्गोरिदम ( http://select.cs.cmu.edu/code/graphlab/clustering.html )। यह डेटा की बहुत बड़ी मात्रा (जैसे आपके पास) के लिए विशेष रूप से उपयुक्त है , क्योंकि यह MapReduceमॉडल को लागू करता है और इस प्रकार, मल्टीकोर और मल्टीप्रोसेसर समानांतर प्रसंस्करण का समर्थन करता है ।
आप सबसे अधिक संभावना निम्नलिखित के बारे में जानते हैं, लेकिन मैं सिर्फ मामले में इसका उल्लेख करूंगा। प्राकृतिक भाषा टूलकिट (NLTK) के लिए Python( http://www.nltk.org ) क्लस्टरिंग / वर्गीकृत / श्रेणीबद्ध पाठ के लिए मॉड्यूल शामिल हैं। में प्रासंगिक अध्याय की जाँच करें NLTK Book: http://www.nltk.org/book/ch06.html ।
अपडेट करें:
एल्गोरिदम की बात करें , तो ऐसा लगता है कि आपने अधिकतर लोगों से scikit-learnइस विषय के निष्कर्षण उदाहरण में सचित्र उदाहरण लिए हैं: http://scikit-learn.org/stable/auto_examples/applications/topics_extraction_ith_nmf.html । हालाँकि, आपको उपयोगी अन्य लाइब्रेरी मिल सकती हैं, जो कि कई प्रकार के क्लस्टरिंग एल्गोरिदम को लागू करती हैं , जिनमें नॉन-निगेटिव मैट्रिक्स फैक्टराइजेशन (NMF) शामिल है । इस तरह के पुस्तकालयों में से एक है अजगर मैट्रिक्स Factorization (PyMF) में घर पृष्ठ के साथ https://code.google.com/p/pymf पर और स्रोत कोड https://github.com/nils-werner/pymf । एक और, और भी दिलचस्प, पुस्तकालय, पायथन-आधारित, NIMFA है, जो विभिन्न NMF एल्गोरिदम को लागू करता है : http://nimfa.biolab.si । यहाँ एक शोध पत्र है, जिसका वर्णन है NIMFA: http://jmlr.org/papers/volume13/zitnik12a/zitnik12a.pdf । इसके दस्तावेज़ीकरण से एक उदाहरण यहां दिया गया है, जो विषय की क्लस्टरिंग की बहुत समान पाठ प्रसंस्करण समस्या का समाधान प्रस्तुत करता है : http://nimfa.biolab.si/nimfa.examples.documents.html ।