यादृच्छिक वन के साथ गणना डेटा की भविष्यवाणी करना


12

क्या रैंडम फ़ॉरेस्ट को गणना डेटा की उचित भविष्यवाणी करने के लिए प्रशिक्षित किया जा सकता है? यह कैसे आगे बढ़ेगा? मेरे पास मूल्यों की एक व्यापक श्रेणी है इसलिए वर्गीकरण वास्तव में मायने नहीं रखता है। यदि मैं प्रतिगमन का उपयोग करूंगा तो क्या मैं परिणामों को कम कर दूंगा? मैं यहां काफी खो गया हूं। कोई विचार?


1
क्या आप पोइसन रिग्रेशन का उपयोग नहीं कर सकते?
आरजे-

मैं कुछ गैर-पैरामीट्रिक का उपयोग करना चाहता था। वास्तव में शिष्टाचार संबंधी धारणाओं को याद न रखें, लेकिन मुझे पूरा यकीन है कि उनमें से एक यह है कि अवलोकन स्वतंत्र हैं और यह गहराई से यहां पूरा नहीं हुआ है। क्या यह मुझे बहुत प्रभावित कर सकता है?
जेकविहुआ

2
क्या आपने आरएफ प्रतिगमन बनाने की कोशिश की है (संभवतः लॉग में भी)? यह सिर्फ काफी अच्छा काम कर सकता है।

1
नहीं है। लेकिन यह मेरा पहला उदाहरण था। लॉग या वर्गमूल परिवर्तन। लेकिन मैं देखना चाहता था कि क्या किसी को इस पर कोई अनुभव था।
जेकीहुआ

मैंने केवल प्रतिक्रिया, लॉग (प्रतिक्रिया) और sqrt (प्रतिक्रिया) पर प्रतिगमन करने की कोशिश की और कुछ भी अच्छा नहीं मिला। मुझे लगता है कि समस्या यह है कि मेरे स्वतंत्र चर ने प्रतिक्रिया व्यक्त की। ओह अच्छा।
जेईखुआ

जवाबों:


8

एक आर पैकेज है जिसे mobForestगणना डेटा के लिए एक वास्तविक यादृच्छिक वन फिट किया जा सकता है। यह पैकेज mod()में (मॉडल-आधारित पुनरावर्ती विभाजन) पर आधारित है party। यदि यह familyतर्क के रूप में निर्दिष्ट है तो यह पॉइसन रिग्रेशन करता है poisson()। पैकेज अब CRAN रिपॉजिटरी में नहीं है, लेकिन पूर्व में उपलब्ध संस्करण आर्काइव से प्राप्त किए जा सकते हैं।

यदि आप यादृच्छिक वन / बैगिंग तक सीमित नहीं हैं, तो गिनती डेटा के लिए एक बूस्टिंग संस्करण भी उपलब्ध है। यही है, gbm(सामान्यीकृत बढ़ाया प्रतिगमन मॉडल)। यह एक पॉइसन मॉडल भी फिट कर सकता है।


5

मुझे कुछ संभावनाएं दिखती हैं।

  • आप कुछ मनमानी श्रेणियों में प्रतिक्रिया को बिन कर सकते हैं और एक वर्गीकरण पेड़ का उपयोग कर सकते हैं
  • यदि गिनती आम तौर पर बहुत कम होती है, 0, 0, 0, 1, 0, 3, 0, 2, तो आप प्रत्येक पूर्णांक गणना को एक वर्ग के रूप में मान सकते हैं और फिर से एक वर्गीकरण पेड़ का उपयोग कर सकते हैं (शायद आपका मामला नहीं)। इन मामलों में, निरंतर प्रतिगमन के विपरीत एक उच्च विचरण समझाया गया मीट्रिक प्राप्त करना कठिन होता जा रहा है।
  • यदि गिनती आम तौर पर कम नहीं होती है और बहुत भिन्नता होती है, तो मैं इसके लिए प्रतिगमन पेड़ के साथ जाऊंगा। उदाहरण के लिए, लीनियर रिग्रेशन पर पोइज़न रिग्रेशन का उपयोग करना, केवल तभी ग्रेवी होता है जब उसे एक अच्छा लीनियर प्रेडिक्टर मिलने की बात आती है। यदि आप यादृच्छिक वन के साथ अच्छी भविष्य कहनेवाला शक्ति नहीं देख रहे हैं, तो मुझे एक कट्टर मॉडल पर संदेह है जो विशेष रूप से गणना डेटा को समायोजित करता है, जो आपके लिए बहुत कुछ करने जा रहा है।

2

खैर, इसका बेतरतीब जंगल नहीं है, लेकिन कैटबॉस्ट एक पोसिऑन लॉस फंक्शन का समर्थन करता है जिसका उपयोग बढ़े हुए पेड़ों के साथ गिनती प्रतिगमन के लिए किया जा सकता है:

https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.