मैं अपने मशीन लर्निंग प्रयोगों को करने के लिए पायथन पुस्तकालयों का उपयोग करने पर विचार कर रहा हूं। इस प्रकार, मैं WEKA पर भरोसा कर रहा था, लेकिन पूरी तरह से बहुत असंतुष्ट रहा हूं। यह मुख्य रूप से है क्योंकि मैंने WEKA को इतनी अच्छी तरह से समर्थित नहीं पाया है (बहुत कम उदाहरणों में, प्रलेखन विरल है और सामुदायिक समर्थन मेरे अनुभव में वांछनीय से कम है), और खुद को चिपचिपा स्थितियों में बिना किसी मदद के पाया है। एक और कारण मैं इस कदम पर विचार कर रहा हूं क्योंकि मैं वास्तव में पायथन को पसंद कर रहा हूं (मैं पायथन के लिए नया हूं), और जावा में कोडिंग पर वापस नहीं जाना चाहता।
तो मेरा सवाल है, अधिक क्या हैं
- व्यापक
- स्केलेबल (100k सुविधाएँ, 10k उदाहरण) और
- वहाँ बाहर पायथन में एमएल करने के लिए अच्छी तरह से समर्थित पुस्तकालयों?
मैं विशेष रूप से पाठ वर्गीकरण करने में रुचि रखता हूं, और इसलिए एक ऐसे पुस्तकालय का उपयोग करना चाहूंगा जिसमें सहपाठियों का एक अच्छा संग्रह हो, जिसमें चयन के तरीके (सूचना लाभ, ची-सकरोड आदि), और पाठ पूर्व-प्रसंस्करण क्षमता (उपजी, स्टॉपवार्ड हटाने) , tf-idf आदि)।
पिछले ई-मेल थ्रेड्स के आधार पर यहाँ और अन्य जगहों पर, मैं अब तक PyML, स्किटिट्स-लर्न और ऑरेंज को देख रहा हूँ। मेरे द्वारा उल्लिखित 3 मीट्रिक के संबंध में लोगों के अनुभव कैसे रहे हैं?
कोई अन्य सुझाव?