यादृच्छिक जंगलों (या किसी अन्य वर्गीकरण) के साथ स्तरीकृत वर्गीकरण


12

इसलिए, मुझे लगभग 60 x 1000 का एक मैट्रिक्स मिला है। मैं इसे 1000 ऑब्जेक्ट्स के साथ 60 ऑब्जेक्ट्स के रूप में देख रहा हूं; 60 वस्तुओं को 3 वर्गों (ए, बी, सी) में बांटा गया है। प्रत्येक कक्षा में 20 वस्तुएं, और हम सही वर्गीकरण जानते हैं। मैं ६० प्रशिक्षण उदाहरणों के इस सेट पर सीखने की निगरानी करना चाहता हूं, और मैं क्लासिफायर सटीकता (और संबंधित मेट्रिक्स) के साथ-साथ १००० सुविधाओं पर फीचर चयन में रुचि रखता हूं।

पहला, मेरा नामकरण कैसे हुआ?

अब असली सवाल:

मैं उस पर बेतरतीब जंगलों को फेंक सकता हूं, जैसा कि कहा गया है, या किसी भी अन्य श्रेणी के लोग। लेकिन एक सूक्ष्मता है - मैं वास्तव में केवल कक्षा ए और बी से वर्ग सी को अलग करने के बारे में परवाह करता हूं। मैं पूल ए और बी पूल कर सकता था, लेकिन क्या एक प्राथमिक ज्ञान का उपयोग करने का एक अच्छा तरीका है कि सभी गैर-सी वस्तुओं की संभावना दो अलग-अलग समूहों के रूप में है? मैं यादृच्छिक जंगलों या उसके बाद के संस्करण का उपयोग करना पसंद करूंगा, क्योंकि यह मेरे जैसे डेटा पर प्रभावी दिखाया गया है। लेकिन मैं कुछ अन्य तरीकों की कोशिश करने के लिए आश्वस्त हो सकता हूं।


मुझे आपके नामकरण के साथ कोई समस्या नहीं दिख रही है। क्या यह 60 वस्तुएं आपके पास हैं? फिर, वर्गीकरण सटीकता की गणना करने के लिए, आपको अपने डेटासेट को ट्रेन, परीक्षण (और सत्यापन) सेट में विभाजित करना होगा। ऐसा करने के विभिन्न तरीके हैं लेकिन फोल्ड क्रॉस सत्यापन सबसे आम है, मुझे लगता है। k
21

1
हां, ये सिर्फ 60. लेकिन मुझे लगता है कि यादृच्छिक जंगलों के लिए, प्रत्येक निर्णय वृक्ष नमूनों के एक सबसेट के साथ बनाया जाता है, इसलिए आप मौजूदा 60 नमूनों में से प्रत्येक को केवल जंगल के भीतर के पेड़ों के लिए लागू करके अनुमानित सामान्यीकरण त्रुटि प्राप्त कर सकते हैं निर्माण के दौरान उस नमूने को न देखें। ( stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#ooberr ) तो शायद विशिष्ट क्रॉस सत्यापन की यहाँ आवश्यकता नहीं है।
user116293

आपको यहां ओवरफिटिंग के बारे में बहुत चिंतित होना चाहिए। आपके पास 60 ऑब्जेक्ट्स के साथ 1000 वैरिएबल हैं, मुझे बहुत अच्छा लगेगा अगर यह अन्य क्यू आसपास था और मैं अभी भी कहूंगा, आपको ओवरफिटिंग के बारे में चिंता करनी चाहिए। क्या विश्लेषण करने से पहले चर की संख्या को कम करने का एक तार्किक या अर्थपूर्ण तरीका है?
13

जवाबों:


8

प्राथमिकताओं के ज्ञान का उपयोग करने का एक अच्छा तरीका है कि सभी गैर-सी वस्तुओं की संभावना दो अलग-अलग समूहों के रूप में हो

यदि आप ट्री आधारित पद्धति का उपयोग कर रहे हैं, तो मुझे नहीं लगता कि यह मायने रखता है क्योंकि ये क्लासिफायर फ़ीचर स्पेस को विभाजित करते हैं, फिर प्रत्येक कक्षा में नमूनों के अनुपात को देखें। तो यह सब मायने रखता है प्रत्येक टर्मिनल नोड में वर्ग सी की सापेक्ष घटना।

यदि आप मानदंड, एलडीए, आदि के मिश्रण की तरह कुछ का उपयोग कर रहे थे, तो दो समूहों का संयोजन एक बुरा विचार होगा (वर्गों और बी फार्म अद्वितीय समूहों को मिलाकर)। यहां आपको उस सुविधा स्थान का सटीक वर्णन करने के लिए वर्ग संरचना को संरक्षित करने की आवश्यकता है जो नक्शे को ए, बी और सी के लिए मैप करती है। ये मॉडल मानते हैं कि प्रत्येक वर्ग के लिए सुविधाओं का एक अलग सामान्य वितरण है। यदि आप a और b को मिलाते हैं तो आप एकल सामान्य वितरण को एक मिश्रण में फिट होने के लिए बाध्य करेंगे।

पेड़ों के सारांश में यह बहुत मायने नहीं रखता अगर आप:

I. तीन क्लासीफायर बनाएं (1. ए बनाम बी, 2. ए बनाम सी और 3. बी बनाम सी) फिर मतदान आधारित पद्धति के साथ भविष्यवाणी करें।

द्वितीय। दो-वर्ग की समस्या के लिए वर्ग a और b को मिलाएं।

तृतीय। सभी तीन वर्गों की भविष्यवाणी करें और फिर एक दो वर्ग मान (जैसे f (c) = c, f (a) = not c, f (b) = c नहीं) के लिए पूर्वानुमान को मैप करें।

हालाँकि यदि आप एक ऐसी विधि का उपयोग करते हैं जो प्रत्येक वर्ग के लिए वितरण को फिट कर रही है तो II से बचें। और I या III में से कौन सा परीक्षण करें। आपकी समस्या के लिए बेहतर काम करता है


III अच्छा लगता है - हालांकि मुझे लगता है कि अगर क्लासिफायर का कहना है कि एक नमूना .33 ए, .33 बी, और .34 सी है, तो मुझे शायद ए और बी के लिए संभावनाओं को योग करना चाहिए और इस तरह 'सी' नहीं चुनना चाहिए।
user116293

1
फॉर (I), स्प्लिट वोट के लिए एक अच्छी प्रक्रिया क्या है (1: a, 2: c, 3: b), या क्या यह वास्तव में बहुत दुर्लभ है?
511 बजे user116293

III के लिए। आप जो सुझाव देते हैं वह सही है। 3 वर्ग के डेटा पर I के लिए मुझे नहीं लगता कि वोटों को विभाजित करने के लिए कोई उपाय है (प्रत्येक के लिए 1) क्योंकि संक्रमणकारी संपत्ति का उल्लंघन करना होगा। हालाँकि 4+ वर्गों के लिए आप शीर्ष पर संबंधों की कल्पना कर सकते हैं, जिस स्थिति में आप जीत / हानि के बजाय एक संख्यात्मक मात्रा का उपयोग कर सकते हैं; वजन योग अधिकतम वजन वर्ग लेते हैं।
मुराटो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.