क्या कोई रैंडम फ़ॉरेस्ट कार्यान्वयन है जो बहुत विरल डेटा के साथ काम करता है?


23

क्या एक आर यादृच्छिक वन कार्यान्वयन है जो बहुत विरल डेटा के साथ अच्छी तरह से काम करता है? मेरे पास हजारों या लाखों बूलियन इनपुट वैरिएबल हैं, लेकिन केवल सैकड़ों या किसी भी उदाहरण के लिए TRUE होगा।

मैं R के लिए अपेक्षाकृत नया हूं और देखा है कि विरल डेटा से निपटने के लिए 'मैट्रिक्स' पैकेज है, लेकिन मानक 'randomForest' पैकेज इस डेटा प्रकार को पहचानता नहीं है। यदि यह मायने रखता है, तो इनपुट डेटा R के बाहर निर्मित होने जा रहा है और आयात किया जा रहा है।

कोई सुझाव? मैं Weka, Mahout या अन्य पैकेजों का उपयोग कर भी देख सकता हूं।


जहां तक ​​मैं बता सकता हूं, विरल निर्णय पेड़ों के लिए कोई आर पैकेज नहीं है। मेरा मानना ​​है कि वहाँ विरल निर्णय पेड़ों के लिए एल्गोरिथ्म हैं, जिन्हें यदि आर में लागू किया जाता है, तो यादृच्छिक जंगलों के निर्माण के लिए इस्तेमाल किया जा सकता है।
Zach

2
यहाँ एक अच्छा उम्मीदवार है: cs.cornell.edu/~nk/fest । यदि आप अपने डेटा को libsvm प्रारूप में निर्यात कर सकते हैं, तो आप इस कमांड लाइन प्रोग्राम का उपयोग कर सकते हैं। R पोर्ट देखना पसंद करेंगे ...
Zach

Zach - लिंक मृत प्रतीत होता है।
बेनोइट_पलेंट

2
@ cmoibenlepro लिंक निम्न
seanv507

लिंक ने मेरे लिए ठीक काम किया
डेविड मार्क्स

जवाबों:


13

नहीं, आंशिक रूप से R. में विरल डेटा के लिए कोई RF कार्यान्वयन नहीं है क्योंकि RF इस प्रकार की समस्या पर बहुत अच्छी तरह से फिट नहीं बैठता है - विभाजन को विभाजित करने और उप-मध्य चयन शून्य-केवल क्षेत्रों पर अधिकांश मॉडल अंतर्दृष्टि बर्बाद कर सकता है।

कुछ कर्नेल विधि या बेहतर तरीके से अपने डेटा को कुछ विवरणकों (या कुछ आयामीता विधि का उपयोग करने) के साथ कुछ अधिक रसीला प्रतिनिधित्व में परिवर्तित करने का प्रयास करें।


हैक-आर का जवाब xgboost पैकेज को इंगित करता है, जो विरल मैट्रिस के साथ यादृच्छिक जंगलों को करने में पूरी तरह से सक्षम है।
एडगर

7

असल में, हाँ है

यह xgboost, जो ईएक्सट्रीम ग्रेडिएंट बूस्टिंग के लिए बनाया गया है। यह वर्तमान में बहुत से लोगों के लिए R में विरल मैट्रिस के साथ मॉडल चलाने के लिए पसंद का पैकेज है, और जैसा कि ऊपर दिए गए लिंक में बताया गया है, आप मापदंडों को ट्विक करके रैंडम फ़ॉरेस्ट के लिए इसका उपयोग कर सकते हैं !


4

आर पैकेज "रेंजर" को करना चाहिए।

https://cran.r-project.org/web/packages/ranger/ranger.pdf

रैंडम वन का तेजी से कार्यान्वयन, विशेष रूप से उच्च आयामी डेटा के लिए अनुकूल।

RandomForest के साथ तुलना में, यह पैकेज शायद सबसे तेज़ आरएफ कार्यान्वयन है जिसे मैंने देखा है। यह देशी तरीके से श्रेणीबद्ध चर मानता है।


-4

क्विक-आर नामक एक ब्लॉग है जो आपको आर के मूल के साथ मदद करना चाहिए।

आर पैकेज के साथ काम करता है। प्रत्येक पैकेज कुछ अलग कर सकता है। इस संकुल को "randomForests" कहा जाता है, बस वही होना चाहिए जो आप पूछ रहे हैं।

ध्यान रखें कि विरल डेटा समस्याओं को कोई फर्क नहीं पड़ता कि आप किस विधि को लागू करते हैं। मेरे ज्ञान के लिए यह एक बहुत ही खुली समस्या है और सामान्य रूप से डेटा खनन एक विज्ञान की तुलना में अधिक कला है। यादृच्छिक वन समग्र रूप से बहुत अच्छा करते हैं लेकिन वे हमेशा सबसे अच्छी विधि नहीं होते हैं। आप कई परतों वाली एक तंत्रिका नेटवर्क को आज़माना चाहते हैं, जो मदद कर सकता है।


4
नहीं, randomForest विरल डेटा के साथ कुख्यात है, इसलिए पूरा प्रश्न। classwt पैरामीटर पूरे randomForest में ठीक से लागू नहीं किया गया है। मैनुअल ओवरसमलिंग एक दृष्टिकोण है, लेकिन यह ओओबी त्रुटि को गड़बड़ करता है। वैसे, पैकेज को 'randomForests' नहीं कहा जाता है।
मुस्कान 21

1
इसके जो हिस्से सच हैं, वे सवाल का जवाब नहीं हैं।
साइकोरैक्स का कहना है कि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.