क्या यादृच्छिक वन को स्केल या केंद्रित करने के लिए इनपुट चर की आवश्यकता होती है?


16

मेरे इनपुट चर के विभिन्न आयाम हैं। कुछ चर दशमलव हैं जबकि कुछ सैकड़ों हैं। क्या यादृच्छिक वन का उपयोग करते समय डेटा को आयामहीन बनाने के लिए इन इनपुट चर को केंद्र (घटाना औसत) या स्केल (मानक विचलन द्वारा विभाजित) करना आवश्यक है?

जवाबों:


30

नहीं।

रैंडम वन वृक्ष विभाजन एल्गोरिदम पर आधारित हैं।

जैसे, सामान्य प्रतिगमन रणनीतियों में एक गुणांक प्राप्त करने के लिए कोई एनालॉग नहीं है, जो स्वतंत्र चर की इकाइयों पर निर्भर करेगा। इसके बजाय, एक को विभाजन नियमों का एक संग्रह प्राप्त होता है, मूल रूप से एक निर्णय एक सीमा दिया जाता है, और इसे स्केलिंग के साथ नहीं बदलना चाहिए। दूसरे शब्दों में, पेड़ केवल सुविधाओं में रैंकों को देखते हैं।

मूल रूप से, आपके डेटा के किसी भी मोनोटोनिक परिवर्तन को जंगल को बिल्कुल (सबसे सामान्य कार्यान्वयन में) नहीं बदलना चाहिए।

इसके अलावा, निर्णय के पेड़ आमतौर पर संख्यात्मक अस्थिरताओं के लिए मजबूत होते हैं जो कभी-कभी अन्य एल्गोरिदम में अभिसरण और परिशुद्धता को बिगाड़ते हैं।


0

कुल मिलाकर, मैं फायरबग से सहमत हूं, लेकिन यदि आप भविष्यवाणियों के महत्व के स्कोर में रुचि रखते हैं तो आपके चर को मानकीकृत करने में कुछ मूल्य हो सकता है। RF उच्च चर सतत भविष्यवाणियों का पक्ष लेगा क्योंकि डेटा को विभाजित करने के लिए अधिक अवसर हैं। इस मुद्दे से निपटने का एक बेहतर तरीका है, हालांकि, विशेष दृष्टिकोण (यानी सशर्त जंगलों का उपयोग करके प्रतिस्थापन के बिना नमूना) का उपयोग करना है जो इस पूर्वाग्रह के लिए अधिक मजबूत हैं। Https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25 देखें


1
साइट पर आपका स्वागत है। हम प्रश्नों और उत्तरों के रूप में उच्च-गुणवत्ता वाले सांख्यिकीय जानकारी का एक स्थायी भंडार बनाने की कोशिश कर रहे हैं। इस प्रकार, हम लिंक-ओनली उत्तरों से सावधान हो जाते हैं, लिंकरोट के कारण। यदि आप मृत हो जाते हैं, तो क्या आप लिंक पर पूर्ण उद्धरण और जानकारी का सारांश पोस्ट कर सकते हैं?
गंग -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.