रैंडम फ़ॉरेस्ट मॉडल का उपयोग करते समय अपने वेरिएबल्स को कब लॉग / एक्सप करें?


13

मैं कई विशेषताओं के आधार पर कीमतों की भविष्यवाणी करने के लिए यादृच्छिक वनों का उपयोग करके प्रतिगमन कर रहा हूं। कोड Scikit-learn का उपयोग करके पायथन में लिखा गया है।

आप कैसे तय करते हैं कि आपको प्रतिगमन मॉडल को फिट करने के लिए उपयोग करने से पहले exp/ अपने चर को बदलना चाहिए log? रैंडम फ़ॉरेस्ट जैसे एन्सेम्बल दृष्टिकोण का उपयोग करते समय क्या यह आवश्यक है?



3
मुझे लगता है कि यादृच्छिक वन / पहनावा पहलू के कारण यह उस सवाल से थोड़ा अलग है, लेकिन दूसरे पोस्ट को देखने के बाद शायद सवाल फिर से हो सकता है।
पीटर Flom - को पुनः स्थापित मोनिका

@PeterFlom क्या आप प्रश्न को दोबारा बनाने में मेरी मदद कर सकते हैं? मैं इस क्षेत्र में पर्याप्त कुशल नहीं हूं :)
Nyxynyx

जिस तरह से अधिकांश लोग "पहनावा" शब्द का उपयोग करते हैं, RF एक पहनावा के लिए सिर्फ 1 संभावित इनपुट है।
हैक-आर

जवाबों:


16

जिस तरह से रैंडम फ़ॉरेस्ट का निर्माण किया जाता है वह स्वतंत्र चर के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है। विभाजन पूरी तरह से अनुरूप होंगे। यदि आप सटीकता के लिए लक्ष्य बना रहे हैं तो आपको इसमें कोई सुधार नहीं दिखेगा। वास्तव में, चूंकि यादृच्छिक वन जटिल गैर-रेखीय खोजने में सक्षम हैं (आप इस रैखिक प्रतिगमन को क्यों कह रहे हैं?) मक्खी पर संबंध और चर बातचीत, यदि आप अपने स्वतंत्र चर को बदलते हैं तो आप उस जानकारी को सुचारू कर सकते हैं जो इस एल्गोरिथम को करने की अनुमति देती है यह ठीक से

कभी-कभी रैंडम फ़ॉरेस्ट को ब्लैक बॉक्स के रूप में नहीं माना जाता है और इसका उपयोग अनुमान के लिए किया जाता है। उदाहरण के लिए, आप चर महत्व के उपायों की व्याख्या कर सकते हैं जो यह प्रदान करता है, या आपके आश्रित चर पर आपके स्वतंत्र चर के कुछ प्रकार के सीमांत प्रभावों की गणना करता है। यह आमतौर पर आंशिक निर्भरता भूखंडों के रूप में कल्पना की जाती है। मुझे पूरा यकीन है कि यह आखिरी चीज चर के पैमाने से अत्यधिक प्रभावित है, जो एक समस्या है जब रैंडम फॉरेस्ट से अधिक वर्णनात्मक प्रकृति की जानकारी प्राप्त करने की कोशिश की जाती है। इस मामले में यह आपको अपने चर (मानकीकृत) को बदलने में मदद कर सकता है, जो आंशिक निर्भरता भूखंडों को तुलनीय बना सकता है। इस पर पूरी तरह से यकीन नहीं है, इस पर सोचना होगा।

बहुत समय पहले मैंने रैंडम फ़ॉरेस्ट का उपयोग करके गिनती डेटा की भविष्यवाणी करने की कोशिश की थी, जो वर्गमूल पर निर्भर था और आश्रित चर के प्राकृतिक लॉग ने थोड़ा बहुत मदद की, और मुझे मॉडल रखने के लिए पर्याप्त नहीं।

कुछ संकुल जहाँ आप बेतरतीब जंगलों का उपयोग कर सकते हैं:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html


6

@JEquihua, यादृच्छिक वन भविष्यवाणी सटीकता में सुधार नहीं होगा।

यह भी ध्यान दें, यदि आप मूल भविष्यवक्ता और रूपांतरित भविष्यवक्ता (जैसा कि रेखीय प्रतिगमन में अक्सर किया जाता है) दोनों को रखते हैं, तो आपको समस्याएँ हो सकती हैं। ऐसा इसलिए है क्योंकि आरएफ बेतरतीब ढंग से प्रत्येक पेड़ को उगाने के लिए चर का एक सबसेट चुनता है, और आपने अनिवार्य रूप से परिवर्तित चर को दो बार में रखा है। यदि यह एक मजबूत भविष्यवक्ता है, तो इसका उपयोग हो जाएगा, और आपके यादृच्छिक वन उतने असंबद्ध नहीं होंगे जितना कि वे हो सकते हैं, जो उच्चतर विचरण के लिए अग्रणी है।


1
किसी भी मॉडल में एक तब्दील और अनियंत्रित भविष्यवक्ता दोनों में डालना एक भयानक विचार है। वे पूरी तरह से मेल खाते हैं और निश्चित रूप से आपके मॉडल के साथ गड़बड़ करेंगे, चाहे वह यादृच्छिक वन हो या रैखिक प्रतिगमन।
mkt -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.