मैं अपने दो सेंट जोड़ना चाहूंगा क्योंकि मुझे लगता है कि मौजूदा उत्तर अधूरे थे।
पीसीए प्रदर्शन करना एक यादृच्छिक वन (या लाइट जीबीएम, या किसी अन्य निर्णय पेड़-आधारित विधि) को प्रशिक्षित करने से पहले विशेष रूप से उपयोगी हो सकता है, एक विशेष कारण के लिए जिसे मैंने नीचे दिए गए चित्र में चित्रित किया है।
मूल रूप से, यह उच्चतम विचरण वाले निर्देशों के साथ अपने प्रशिक्षण सेट को संरेखित करके सही निर्णय सीमा को खोजने की प्रक्रिया को बहुत आसान बना सकता है।
निर्णय पेड़ डेटा के रोटेशन के लिए संवेदनशील होते हैं, क्योंकि वे जो निर्णय सीमा बनाते हैं वह हमेशा ऊर्ध्वाधर / क्षैतिज (एक अक्ष के लंबवत) होती है। इसलिए, यदि आपका डेटा बाएं चित्र की तरह दिखता है, तो इन दो समूहों को अलग करने के लिए एक बहुत बड़ा पेड़ लगेगा (इस मामले में यह 8 परत का पेड़ है)। लेकिन अगर आप अपने डेटा को उसके प्रमुख घटकों (जैसे कि सही तस्वीर) में संरेखित करते हैं, तो आप केवल एक परत के साथ सही अलगाव प्राप्त कर सकते हैं!
बेशक, सभी डेटासेट को इस तरह वितरित नहीं किया जाता है, इसलिए पीसीए हमेशा मदद नहीं कर सकता है, लेकिन यह अभी भी इसे आज़माने और यह देखने के लिए उपयोगी है कि यह क्या करता है। और सिर्फ एक अनुस्मारक, पीसीए प्रदर्शन करने से पहले यूनिट के संस्करण में अपने डेटासेट को सामान्य करने के लिए मत भूलना!
पुनश्च: आयामीता में कमी के लिए, मैं बाकी लोगों से इस बात से सहमत हूँ कि यह आमतौर पर यादृच्छिक जंगलों के लिए अन्य एल्गोरिदम के लिए एक समस्या के रूप में बड़ा नहीं है। लेकिन फिर भी, यह आपके प्रशिक्षण को थोड़ा गति देने में मदद कर सकता है। निर्णय वृक्ष प्रशिक्षण का समय O (n m log (m)) है, जहाँ n प्रशिक्षण के उदाहरणों की संख्या, m - आयामों की संख्या है। और यद्यपि यादृच्छिक वन बेतरतीब ढंग से प्रशिक्षित होने के लिए प्रत्येक पेड़ के आयामों का एक सबसेट चुनते हैं, आपके द्वारा उठाए जाने वाले आयामों की कुल संख्या का कम अंश, अच्छे प्रदर्शन को प्राप्त करने के लिए आपको जितने अधिक पेड़ों को प्रशिक्षित करने की आवश्यकता होती है।
mtry
प्रत्येक पेड़ बनाने के लिए उनमें से एक यादृच्छिक सबसेट (तथाकथित पैरामीटर) लेता है । आरएफ एल्गोरिथ्म के शीर्ष पर निर्मित एक पुनरावर्ती सुविधा उन्मूलन तकनीक भी है (देखें varSelRF आर पैकेज और उसमें संदर्भ)। हालांकि, एक प्रारंभिक डेटा कटौती योजना को जोड़ना निश्चित रूप से संभव है, हालांकि यह क्रॉस-सत्यापन प्रक्रिया का हिस्सा होना चाहिए। तो सवाल यह है कि क्या आप आरएफ के लिए अपनी विशेषताओं का एक रैखिक संयोजन इनपुट करना चाहते हैं?