क्या कोई रैंडम फ़ॉरेस्ट कार्यान्वयन है जो बहुत विरल डेटा के साथ काम करता है?

23

क्या एक आर यादृच्छिक वन कार्यान्वयन है जो बहुत विरल डेटा के साथ अच्छी तरह से काम करता है? मेरे पास हजारों या लाखों बूलियन इनपुट वैरिएबल हैं, लेकिन केवल सैकड़ों या किसी भी उदाहरण के लिए TRUE होगा।

मैं R के लिए अपेक्षाकृत नया हूं और देखा है कि विरल डेटा से निपटने के लिए 'मैट्रिक्स' पैकेज है, लेकिन मानक 'randomForest' पैकेज इस डेटा प्रकार को पहचानता नहीं है। यदि यह मायने रखता है, तो इनपुट डेटा R के बाहर निर्मित होने जा रहा है और आयात किया जा रहा है।

कोई सुझाव? मैं Weka, Mahout या अन्य पैकेजों का उपयोग कर भी देख सकता हूं।

r random-forest sparse

— आर्यन
स्रोत

जहां तक मैं बता सकता हूं, विरल निर्णय पेड़ों के लिए कोई आर पैकेज नहीं है। मेरा मानना है कि वहाँ विरल निर्णय पेड़ों के लिए एल्गोरिथ्म हैं, जिन्हें यदि आर में लागू किया जाता है, तो यादृच्छिक जंगलों के निर्माण के लिए इस्तेमाल किया जा सकता है।

— Zach

2

यहाँ एक अच्छा उम्मीदवार है: cs.cornell.edu/~nk/fest । यदि आप अपने डेटा को libsvm प्रारूप में निर्यात कर सकते हैं, तो आप इस कमांड लाइन प्रोग्राम का उपयोग कर सकते हैं। R पोर्ट देखना पसंद करेंगे ...

— Zach

Zach - लिंक मृत प्रतीत होता है।

— बेनोइट_पलेंट

2

@ cmoibenlepro लिंक निम्न

— seanv507

लिंक ने मेरे लिए ठीक काम किया

— डेविड मार्क्स

13

नहीं, आंशिक रूप से R. में विरल डेटा के लिए कोई RF कार्यान्वयन नहीं है क्योंकि RF इस प्रकार की समस्या पर बहुत अच्छी तरह से फिट नहीं बैठता है - विभाजन को विभाजित करने और उप-मध्य चयन शून्य-केवल क्षेत्रों पर अधिकांश मॉडल अंतर्दृष्टि बर्बाद कर सकता है।

कुछ कर्नेल विधि या बेहतर तरीके से अपने डेटा को कुछ विवरणकों (या कुछ आयामीता विधि का उपयोग करने) के साथ कुछ अधिक रसीला प्रतिनिधित्व में परिवर्तित करने का प्रयास करें।

— user88
स्रोत

हैक-आर का जवाब xgboost पैकेज को इंगित करता है, जो विरल मैट्रिस के साथ यादृच्छिक जंगलों को करने में पूरी तरह से सक्षम है।

— एडगर

7

असल में, हाँ है ।

यह xgboost, जो ईएक्सट्रीम ग्रेडिएंट बूस्टिंग के लिए बनाया गया है। यह वर्तमान में बहुत से लोगों के लिए R में विरल मैट्रिस के साथ मॉडल चलाने के लिए पसंद का पैकेज है, और जैसा कि ऊपर दिए गए लिंक में बताया गया है, आप मापदंडों को ट्विक करके रैंडम फ़ॉरेस्ट के लिए इसका उपयोग कर सकते हैं !

— हैक-आर
स्रोत

4

आर पैकेज "रेंजर" को करना चाहिए।

https://cran.r-project.org/web/packages/ranger/ranger.pdf

रैंडम वन का तेजी से कार्यान्वयन, विशेष रूप से उच्च आयामी डेटा के लिए अनुकूल।

RandomForest के साथ तुलना में, यह पैकेज शायद सबसे तेज़ आरएफ कार्यान्वयन है जिसे मैंने देखा है। यह देशी तरीके से श्रेणीबद्ध चर मानता है।

— रिवेट्स एमिटोस
स्रोत

-4

क्विक-आर नामक एक ब्लॉग है जो आपको आर के मूल के साथ मदद करना चाहिए।

आर पैकेज के साथ काम करता है। प्रत्येक पैकेज कुछ अलग कर सकता है। इस संकुल को "randomForests" कहा जाता है, बस वही होना चाहिए जो आप पूछ रहे हैं।

ध्यान रखें कि विरल डेटा समस्याओं को कोई फर्क नहीं पड़ता कि आप किस विधि को लागू करते हैं। मेरे ज्ञान के लिए यह एक बहुत ही खुली समस्या है और सामान्य रूप से डेटा खनन एक विज्ञान की तुलना में अधिक कला है। यादृच्छिक वन समग्र रूप से बहुत अच्छा करते हैं लेकिन वे हमेशा सबसे अच्छी विधि नहीं होते हैं। आप कई परतों वाली एक तंत्रिका नेटवर्क को आज़माना चाहते हैं, जो मदद कर सकता है।

— विंसेंट
स्रोत

4

नहीं, randomForest विरल डेटा के साथ कुख्यात है, इसलिए पूरा प्रश्न। classwt पैरामीटर पूरे randomForest में ठीक से लागू नहीं किया गया है। मैनुअल ओवरसमलिंग एक दृष्टिकोण है, लेकिन यह ओओबी त्रुटि को गड़बड़ करता है। वैसे, पैकेज को 'randomForests' नहीं कहा जाता है।

— मुस्कान 21

1

इसके जो हिस्से सच हैं, वे सवाल का जवाब नहीं हैं।

— साइकोरैक्स का कहना है कि