मैं आर में gbm पैकेज का उपयोग करते हुए कुछ बड़े डेटा सेट के साथ काम कर रहा हूं। मेरे पूर्वसूचक मैट्रिक्स और मेरी प्रतिक्रिया वेक्टर दोनों बहुत विरल हैं (अर्थात अधिकांश प्रविष्टियां शून्य हैं)। मैं एक एल्गोरिथ्म का उपयोग करके निर्णय पेड़ों का निर्माण करने की उम्मीद कर रहा था जो इस दुर्लभता का लाभ उठाते हैं, जैसा कि यहां किया गया था )। उस कागज में, जैसा कि मेरी स्थिति में, अधिकांश वस्तुओं में कई संभावित विशेषताओं में से कुछ ही हैं, इसलिए वे यह मानकर बहुत अधिक व्यर्थ गणना से बचने में सक्षम थे कि उनकी वस्तुओं में एक दिए गए फीचर का अभाव है जब तक कि डेटा स्पष्ट रूप से अन्यथा न कहा जाए। मेरी आशा है कि मैं इस प्रकार के एल्गोरिथ्म का उपयोग करके एक समान स्पीडअप प्राप्त कर सकता हूं (और फिर अपने पूर्वानुमान की सटीकता में सुधार करने के लिए इसके चारों ओर एक बूस्टिंग एल्गोरिथ्म लपेटता हूं)।
चूंकि वे अपना कोड प्रकाशित नहीं करते थे, इसलिए मैं सोच रहा था कि क्या कोई ओपन-सोर्स पैकेज या लाइब्रेरी (किसी भी भाषा में) है जो इस मामले के लिए अनुकूलित हैं। आदर्श रूप से, मुझे कुछ ऐसा चाहिए जो R के Matrix
पैकेज से सीधे एक स्पार्स मैट्रिक्स ले सकता है , लेकिन मैं वह ले सकता हूं जो मुझे मिल सकता है।
मैंने चारों ओर देखा है और ऐसा लगता है कि इस तरह की चीज वहां से बाहर होनी चाहिए:
रसायनज्ञ इस मुद्दे पर बहुत कुछ करने लगते हैं (ऊपर जो पेपर मैंने जोड़ा था वह नई दवा के यौगिकों को खोजने के बारे में सीखने के बारे में था), लेकिन जिन कार्यान्वयनों को मैं पा सकता था, वे या तो मालिकाना थे या रासायनिक विश्लेषण के लिए अत्यधिक विशिष्ट थे। यह संभव है कि उनमें से एक को फिर से शुद्ध किया जा सकता है, हालांकि।
दस्तावेज़ वर्गीकरण एक ऐसा क्षेत्र भी प्रतीत होता है जहाँ विरल फीचर स्पेस से सीखना उपयोगी होता है (अधिकांश दस्तावेज़ों में अधिकांश शब्द नहीं होते हैं)। उदाहरण के लिए, इस पेपर में C4.5 (CART- जैसा एल्गोरिथ्म) के विरल कार्यान्वयन का एक तिरछा संदर्भ है , लेकिन कोई कोड नहीं।
मेलिंग सूची के अनुसार , WEKA विरल डेटा को स्वीकार कर सकता है, लेकिन मैं ऊपर लिंक किए गए पेपर में विधि के विपरीत, WEKA वास्तव में व्यर्थ सीपीयू चक्र से बचने के संदर्भ में इसका लाभ लेने के लिए अनुकूलित नहीं है।
अग्रिम में धन्यवाद!
glmnet
और e1071::svm
दोनों समर्थन विरल Matrix
वस्तुओं। GAMboost
और GLMboost
(पैकेज से GAMboost
) भी हो सकता है।