पीसीए और यादृच्छिक वन


12

हाल ही में एक कागेल प्रतियोगिता के लिए, मैंने (मैन्युअल रूप से) अपने प्रशिक्षण सेट के लिए 10 अतिरिक्त विशेषताओं को परिभाषित किया था, जो तब एक यादृच्छिक फोर्फ़ क्लास क्लासीफायर को प्रशिक्षित करने के लिए उपयोग किया जाएगा। मैंने नई सुविधाओं के साथ डेटासेट पर पीसीए चलाने का फैसला किया, यह देखने के लिए कि वे एक-दूसरे की तुलना में कैसे हैं। मैंने पाया कि ~ 98% विचरण पहले घटक (पहला ईजनवेक्टर) द्वारा किया गया था। मैंने तब क्लासिफायर को कई बार प्रशिक्षित किया, एक समय में एक विशेषता को जोड़ा, और वर्गीकरण की गुणवत्ता की तुलना करने के लिए क्रॉस-मान्यता और आरएमएस त्रुटि का उपयोग किया। मैंने पाया कि प्रत्येक अतिरिक्त सुविधा के साथ वर्गीकरण में सुधार हुआ, और यह कि अंतिम परिणाम (सभी 10 नई विशेषताओं के साथ) 2 सुविधाओं के साथ पहले रन की तुलना में बेहतर था।

  • यह देखते हुए कि पीसीए ने दावा किया ~ 98% विचरण मेरे डेटासेट के पहले घटक में था, वर्गीकरण की गुणवत्ता में इतना सुधार क्यों हुआ?

  • क्या यह अन्य सहपाठियों के लिए सही रहेगा? कई कोरों में RF तराजू, इसलिए यह SVM की तुलना में प्रशिक्षित करने के लिए बहुत तेज़ है।

  • क्या होगा अगर मैंने डेटासेट को "पीसीए" स्पेस में बदल दिया है, और रूपांतरित स्थान पर क्लासिफायर चलाएं। मेरे परिणाम कैसे बदलेंगे?


2
PCA चलाने से पहले क्या आपने अपना डेटा सामान्य किया था? अगर मुझे लगता था कि मुझे लगता है कि आपकी सुविधाओं में से एक दूसरों की तुलना में बहुत बड़े पैमाने पर थी ...
मार्क शव्स

1
गणना करते समय पीसीए फ़ंक्शन स्वचालित रूप से सब कुछ सामान्य करता है।
विशाल

1
हो सकता है कि सिर्फ मैं ही हूं, लेकिन क्या आप निम्नलिखित को स्पष्ट कर सकते हैं: आपके पहले कदम में 10 (कच्ची) विशेषताएं शामिल थीं, एक समय में एक, या क्या आपने पीसीए घटकों के साथ सीधे काम किया था? जैसा कि कहा गया है, मैं समझता हूं कि यह पहला मामला है और आपको आश्चर्य है कि क्या आप पीसीए के परिणामों के साथ सीधे काम कर सकते हैं। या तो मामले में, क्या आपने नई सुविधाओं सहित सभी चर पर पीसीए लागू किया, या बस बाद में?
CHL

मैंने 10 अतिरिक्त सुविधाओं के साथ पीसीए को मूल मैट्रिक्स पर लागू किया। मैंने तब एक समय में एक फीचर में जोड़कर क्लासिफायर को प्रशिक्षित किया था, इसलिए मैं प्रत्येक सुविधा के अतिरिक्त प्रदान किए गए वृद्धिशील सुधार को माप सकता था। मेरा सवाल यह था कि अगर मैंने पीसीए स्पेस में डेटासेट (10 नई विशेषताओं के साथ) को बदल दिया, और फिर पीसीए स्पेस में सीधे डेटासेट पर क्लासिफायर चला
विशाल

जवाबों:


7

प्रेडिक्टिव मॉडलिंग करते समय, आप प्रतिक्रिया में भिन्नता को समझाने की कोशिश कर रहे हैं, न कि विशेषताओं में भिन्नता को। यह मानने का कोई कारण नहीं है कि एक ही नई सुविधा में सुविधा भिन्नता का अधिक से अधिक क्रैमिंग एक बड़ी मात्रा में समग्र रूप से सुविधाओं की अनुमानित शक्ति को कैप्चर करेगा।

इसे अक्सर आंशिक घटक वर्गों के बजाय प्रधान घटक प्रतिगमन के बीच अंतर के रूप में समझाया जाता है।


"यह मानने का कोई कारण नहीं है कि एक ही नई सुविधा में फ़ीचर भिन्नता के जितना अधिक क्रैमिंग, समग्र रूप से सुविधाओं की पूर्वानुमेय शक्ति की एक बड़ी मात्रा को कैप्चर करेगा।" वह बिंदु कभी नहीं था, और ऐसा करने से एक बहुत ही भ्रमित क्लासिफायरियर हो जाएगा! लक्ष्य में सामान्यीकरण त्रुटि को कम करने के उद्देश्य से, सभी सुविधाओं को कई प्रकार के डेटासेट के विभिन्न पहलुओं को दर्शाना था। पीसीए लेने की बात यह देखी गई कि विशेषताएं कितनी भिन्न थीं। और मेरी पोस्टिंग की बात यह थी कि मेरी विशेषताएं अलग नहीं थीं, फिर भी आरएफ के परिणामों में अभी भी सुधार हुआ।
विशाल

1
वही तर्क अब भी लागू हो सकता है। एक नई सुविधा एक पूर्व सुविधा के साथ अत्यधिक कॉलिनियर है फिर भी अधिक भविष्य कहनेवाला शक्ति ला सकती है। एक यादृच्छिक रूप से विशेष रूप से: यदि सामान्य रूप से निकट डुप्लिकेट सुविधा महत्वपूर्ण है, तो एक संस्करण या किसी अन्य को अब बंटवारे वाले उम्मीदवारों के रूप में चुना जाना संभव है।
शिया पार्क्स

यह फॉलो-अप प्रश्न को बताता है, आप वर्गीकरण को बेहतर बनाने के लिए अपने यादृच्छिक वनों के वर्गीकरण के लिए प्राथमिकताओं का चयन कैसे करते हैं? क्या कोई स्क्रीनिंग प्रक्रिया है? आप इसे कैसे करते हो? :)
विशाल

मैं किसी भी उपयोगी-प्राथमिकताओं के चयन के तरीकों के बारे में नहीं जानता। आप कुछ आर पैकेजों के माध्यम से महत्व और चयन के कई नेस्टेड लूप कर सकते हैं Boruta। मैंने उन्हें उपयोगी नहीं पाया है। मुझे यह मानना ​​अनुचित है कि किसी भी सुविधा का कोई प्रभाव नहीं है। मेरा मानना ​​है कि दूसरों पर कुछ सुविधाओं पर जोर देना उपयोगी हो सकता है, लेकिन बेस रैंडम फॉरेस्ट एल्गोरिथ्म यह पहले से ही बहुत अच्छा करता है। यदि आप मॉडलिंग में गहरे हैं और अधिक प्रदर्शन चाहते हैं, तो मैं सुझाव दूंगा कि आप अन्य एल्गोरिदम को रोकें, कुछ को बढ़ावा पेड़ के रूप में, अपने यादृच्छिक रूप से।
शिया पार्क्स

1
आप अपनी सुविधाओं (जेफ्रीस-मैटसिटा दूरी, डाइवरेज, आदि) के आधार पर अपनी प्राथमिकताओं के लिए अपनी प्राथमिकताओं की गणना कर सकते हैं। यह आपको सामान्य रूप से यह पता लगाने में मदद कर सकता है कि कौन सी विशेषताएँ आपको कक्षाओं के बीच अंतर करने में मदद करती हैं लेकिन RF के कामकाज के कारण यहां से चुनना आसान नहीं है, जो सुविधाएँ वर्गीकरण के लिए सर्वश्रेष्ठ सेट प्रदान करती हैं। यहां एक स्पष्ट बाधा यह है कि आरएफ स्वयं के द्वारा परिवर्तनशील बातचीत पाता है।
जेक्विहुआ

6

पहला मुख्य घटक आपकी सभी विशेषताओं का एक रैखिक संयोजन है। यह तथ्य कि यह लगभग सभी परिवर्तनशीलता को समझाता है, इसका मतलब है कि पहले मुख्य घटक में चर के अधिकांश गुणांक महत्वपूर्ण हैं।

अब आपके द्वारा उत्पन्न वर्गीकरण पेड़ एक अलग जानवर के भी हैं। वे निरंतर चर पर द्विआधारी विभाजन करते हैं जो उन श्रेणियों को सबसे अलग करते हैं जिन्हें आप वर्गीकृत करना चाहते हैं। यह बिल्कुल वैसा ही नहीं है जैसा कि निरंतर वैरिएबल्स के ऑर्थोगोनल लीनियर कॉम्बिनेशन का पता चलता है जो सबसे बड़े वैरिएंट की दिशा देते हैं। वास्तव में हमने हाल ही में सीवी पर एक पेपर पर चर्चा की है, जहां पीसीए का उपयोग क्लस्टर विश्लेषण के लिए किया गया था और लेखक (एस) ने पाया कि ऐसी परिस्थितियां हैं जो सबसे अच्छा पृथक्करण 1 कुछ प्रमुख घटकों में नहीं बल्कि पिछले वाले में पाया जाता है।


3
"वास्तव में हमने हाल ही में सीवी पर एक पेपर पर चर्चा की है जहां पीसीए" क्या आपके पास इससे लिंक है? मुझे बहुत दिलचस्पी है :)
user603

मैं चर्चा के लिए देखूंगा।
माइकल आर। चेरनिक

क्या आप संबंधित प्रश्न पर एक नज़र रखना चाहेंगे?
नाद्या n
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.