इसलिए, मुझे लगभग 60 x 1000 का एक मैट्रिक्स मिला है। मैं इसे 1000 ऑब्जेक्ट्स के साथ 60 ऑब्जेक्ट्स के रूप में देख रहा हूं; 60 वस्तुओं को 3 वर्गों (ए, बी, सी) में बांटा गया है। प्रत्येक कक्षा में 20 वस्तुएं, और हम सही वर्गीकरण जानते हैं। मैं ६० प्रशिक्षण उदाहरणों के इस सेट पर सीखने की निगरानी करना चाहता हूं, और मैं क्लासिफायर सटीकता (और संबंधित मेट्रिक्स) के साथ-साथ १००० सुविधाओं पर फीचर चयन में रुचि रखता हूं।
पहला, मेरा नामकरण कैसे हुआ?
अब असली सवाल:
मैं उस पर बेतरतीब जंगलों को फेंक सकता हूं, जैसा कि कहा गया है, या किसी भी अन्य श्रेणी के लोग। लेकिन एक सूक्ष्मता है - मैं वास्तव में केवल कक्षा ए और बी से वर्ग सी को अलग करने के बारे में परवाह करता हूं। मैं पूल ए और बी पूल कर सकता था, लेकिन क्या एक प्राथमिक ज्ञान का उपयोग करने का एक अच्छा तरीका है कि सभी गैर-सी वस्तुओं की संभावना दो अलग-अलग समूहों के रूप में है? मैं यादृच्छिक जंगलों या उसके बाद के संस्करण का उपयोग करना पसंद करूंगा, क्योंकि यह मेरे जैसे डेटा पर प्रभावी दिखाया गया है। लेकिन मैं कुछ अन्य तरीकों की कोशिश करने के लिए आश्वस्त हो सकता हूं।