यादृच्छिक वन वर्गीकरण से पहले उच्च-आयामी पाठ डेटा पर पीसीए?


14

क्या यह रैंडम फ़ॉरेस्ट क्लासिफिकेशन करने से पहले पीसीए करने के लिए समझ में आता है?

मैं उच्च आयामी पाठ डेटा के साथ काम कर रहा हूं, और मैं आयामीता के अभिशाप से बचने में मदद करने के लिए सुविधा में कमी करना चाहता हूं, लेकिन पहले से ही किसी प्रकार के आयाम में कमी के लिए यादृच्छिक वन नहीं है?


7
आरएफ एल्गोरिथ्म वास्तव में उच्च संख्या में भविष्यवाणियों से ग्रस्त नहीं है क्योंकि यह केवल mtryप्रत्येक पेड़ बनाने के लिए उनमें से एक यादृच्छिक सबसेट (तथाकथित पैरामीटर) लेता है । आरएफ एल्गोरिथ्म के शीर्ष पर निर्मित एक पुनरावर्ती सुविधा उन्मूलन तकनीक भी है (देखें varSelRF आर पैकेज और उसमें संदर्भ)। हालांकि, एक प्रारंभिक डेटा कटौती योजना को जोड़ना निश्चित रूप से संभव है, हालांकि यह क्रॉस-सत्यापन प्रक्रिया का हिस्सा होना चाहिए। तो सवाल यह है कि क्या आप आरएफ के लिए अपनी विशेषताओं का एक रैखिक संयोजन इनपुट करना चाहते हैं?
CHL

कितनी सुविधाएँ / आयाम, F? > 1K? > 10K? क्या विशेषताएं असतत या निरंतर हैं, जैसे शब्द-आवृत्ति, tfidf, समानता मैट्रिक्स, शब्द वैक्टर या क्या? पीसीए रनटाइम एफ के लिए द्विघात है
smci


जवाबों:


12

लियो ब्रेमेन ने लिखा है कि "आयाम एक आशीर्वाद हो सकता है"। सामान्य तौर पर, यादृच्छिक जंगल समस्याओं के बिना बड़े डेटा सेट पर चल सकते हैं। आपका डेटा कितना बड़ा है? अलग-अलग क्षेत्र विषय-वस्तु के ज्ञान के आधार पर अलग-अलग तरीकों से चीजों को संभालते हैं। उदाहरण के लिए, जीन अभिव्यक्ति अध्ययन में जीन को अक्सर कम विचरण (परिणाम पर कोई झांकना) के आधार पर खारिज कर दिया जाता है, जिसे कभी-कभी गैर-विशिष्ट फ़िल्टरिंग कहा जाता है। यह यादृच्छिक जंगलों पर चलने के समय के साथ मदद कर सकता है। लेकिन इसकी आवश्यकता नहीं है।

जीन अभिव्यक्ति उदाहरण के साथ चिपके हुए, कभी-कभी विश्लेषक जीन अभिव्यक्ति माप का प्रतिनिधित्व करने के लिए पीसीए स्कोर का उपयोग करते हैं। विचार समान प्रोफाइल को एक अंक से बदलने का है जो संभावित रूप से कम गड़बड़ है। यादृच्छिक वन मूल चर या PCA स्कोर (चर के लिए एक किराए) दोनों पर चलाए जा सकते हैं। कुछ ने इस दृष्टिकोण के साथ बेहतर परिणाम की सूचना दी है, लेकिन मेरे ज्ञान की कोई अच्छी तुलना नहीं है।

संक्षेप में, RF चलाने से पहले PCA करने की कोई आवश्यकता नहीं है। पर तुम कर सकते हो। आपके लक्ष्यों के आधार पर व्याख्या बदल सकती है। यदि आप सभी को भविष्यवाणी करना चाहते हैं, तो व्याख्या कम महत्वपूर्ण हो सकती है।


आपके उत्तर के लिए धन्यवाद। स्पीड एक मुद्दा है, अधिक क्योंकि मेरे पास मल्टी-लेबल समस्या में कई हजार संभावित लेबल हैं। आवेदन दोनों घटनाओं और कुछ घटनाओं के विश्लेषकों के विवरण से तैयार किए गए पाठ डेटा के एक समूह को वर्गीकृत कर रहा है। मैं tf-idf वेटिंग और शब्द मॉडल के बैग का उपयोग कर रहा हूं।
माउस

9

मैं अपने दो सेंट जोड़ना चाहूंगा क्योंकि मुझे लगता है कि मौजूदा उत्तर अधूरे थे।

पीसीए प्रदर्शन करना एक यादृच्छिक वन (या लाइट जीबीएम, या किसी अन्य निर्णय पेड़-आधारित विधि) को प्रशिक्षित करने से पहले विशेष रूप से उपयोगी हो सकता है, एक विशेष कारण के लिए जिसे मैंने नीचे दिए गए चित्र में चित्रित किया है।

मूल रूप से, यह उच्चतम विचरण वाले निर्देशों के साथ अपने प्रशिक्षण सेट को संरेखित करके सही निर्णय सीमा को खोजने की प्रक्रिया को बहुत आसान बना सकता है।

निर्णय पेड़ डेटा के रोटेशन के लिए संवेदनशील होते हैं, क्योंकि वे जो निर्णय सीमा बनाते हैं वह हमेशा ऊर्ध्वाधर / क्षैतिज (एक अक्ष के लंबवत) होती है। इसलिए, यदि आपका डेटा बाएं चित्र की तरह दिखता है, तो इन दो समूहों को अलग करने के लिए एक बहुत बड़ा पेड़ लगेगा (इस मामले में यह 8 परत का पेड़ है)। लेकिन अगर आप अपने डेटा को उसके प्रमुख घटकों (जैसे कि सही तस्वीर) में संरेखित करते हैं, तो आप केवल एक परत के साथ सही अलगाव प्राप्त कर सकते हैं!

बेशक, सभी डेटासेट को इस तरह वितरित नहीं किया जाता है, इसलिए पीसीए हमेशा मदद नहीं कर सकता है, लेकिन यह अभी भी इसे आज़माने और यह देखने के लिए उपयोगी है कि यह क्या करता है। और सिर्फ एक अनुस्मारक, पीसीए प्रदर्शन करने से पहले यूनिट के संस्करण में अपने डेटासेट को सामान्य करने के लिए मत भूलना!

पुनश्च: आयामीता में कमी के लिए, मैं बाकी लोगों से इस बात से सहमत हूँ कि यह आमतौर पर यादृच्छिक जंगलों के लिए अन्य एल्गोरिदम के लिए एक समस्या के रूप में बड़ा नहीं है। लेकिन फिर भी, यह आपके प्रशिक्षण को थोड़ा गति देने में मदद कर सकता है। निर्णय वृक्ष प्रशिक्षण का समय O (n m log (m)) है, जहाँ n प्रशिक्षण के उदाहरणों की संख्या, m - आयामों की संख्या है। और यद्यपि यादृच्छिक वन बेतरतीब ढंग से प्रशिक्षित होने के लिए प्रत्येक पेड़ के आयामों का एक सबसेट चुनते हैं, आपके द्वारा उठाए जाने वाले आयामों की कुल संख्या का कम अंश, अच्छे प्रदर्शन को प्राप्त करने के लिए आपको जितने अधिक पेड़ों को प्रशिक्षित करने की आवश्यकता होती है।

यहाँ छवि विवरण दर्ज करें


1

यादृच्छिक वन में कमी से पहले पीसीए उपयोगी हो सकता है लेकिन आपको डेटा को एक आकार देने के लिए जहां यादृच्छिक वन बेहतर प्रदर्शन कर सकते हैं।

मुझे पूरा यकीन है कि अगर आप पीसीए के साथ अपने डेटा को बदल देते हैं तो मूल डेटा की समान गतिशीलता को ध्यान में रखते हुए आपके पास बेहतर जंगल होगा।


पीसीए रनटाइम एफ की संख्या के लिए द्विघात है, इसलिए यह हमेशा सस्ता नहीं होता है।
smci

perfomances से मेरा मतलब था कि perfiction। मैं कम्प्यूटेशनल समय का जिक्र नहीं कर रहा था
डोनेबो

2
क्या आप अपने दावों में कुछ औचित्य जोड़ सकते हैं? ऐसा लगता है कि पीसीए हमेशा परिणामों में सुधार नहीं करेगा। उदाहरण के लिए, जब निर्णय सीमा घूर्णन के लिए अपरिवर्तनीय होती है (जैसे एक वृत्त), तो PCA का प्रदर्शन केवल डेटा को पुनर्विक्रय और घुमाएगा (और इसलिए, वृत्त), लेकिन RF को अभी भी बहुत सारे आयताकार विभाजन के साथ अण्डाकार सीमा का अनुमान लगाना होगा।
साइकोरैक्स का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.