मैं एक वर्गीकारक कि भेद जाएगा प्रशिक्षित करने के लिए देख रहा हूँ Type Aऔर Type Bलगभग 10,000 वस्तुओं की एक यथोचित बड़े प्रशिक्षण सेट के साथ वस्तुओं, के बारे में आधा हिस्सा हैं Type Aऔर आधा हिस्सा हैं Type B। डेटासेट में कोशिकाओं के भौतिक गुणों (आकार, माध्य त्रिज्या, आदि) का विवरण देने वाली 100 निरंतर विशेषताएं होती हैं। जोड़ीदार स्कैप्लेट्स और घनत्व प्लॉटों में डेटा की कल्पना हमें बताती है कि कई विशेषताओं में कैंसर और सामान्य कोशिकाओं के वितरण में महत्वपूर्ण ओवरलैप है।
मैं वर्तमान में इस डेटासेट के लिए एक वर्गीकरण विधि के रूप में यादृच्छिक जंगलों की खोज कर रहा हूं, और मैं कुछ अच्छे परिणाम देख रहा हूं। आर का उपयोग करते हुए, यादृच्छिक वन लगभग 90% वस्तुओं को सही ढंग से वर्गीकृत करने में सक्षम हैं।
जिन चीज़ों को हम आज़माना चाहते हैं उनमें से एक "निश्चित स्कोर" है, जो इस बात का परिमाण देगा कि हम वस्तुओं के वर्गीकरण के प्रति कितने आश्वस्त हैं। हम जानते हैं कि हमारा क्लासिफायर 100% सटीक नहीं होगा, और यहां तक कि अगर भविष्यवाणियों में उच्च सटीकता प्राप्त की जाती है, तो हम प्रशिक्षित तकनीशियनों को पहचानना चाहेंगे कि कौन सी वस्तुएं सही मायने में हैं Type Aऔर Type B। इसलिए हम Type Aया के अप्रमाणित पूर्वानुमान प्रदान करने के बजाय Type B, हम प्रत्येक वस्तु के लिए एक अंक प्रस्तुत करना चाहते हैं जो यह वर्णन करेगा कि कोई वस्तु कैसे है Aया कैसे Bहै। उदाहरण के लिए, यदि हम ० से १० तक के स्कोर को तैयार करते हैं, तो ० का स्कोर एक वस्तु को इंगित कर सकता है जो Type Aवस्तुओं के समान है , जबकि १० का स्कोर इंगित करेगा कि कोई वस्तु बहुत पसंद है Type B।
मैं सोच रहा था कि मैं इस तरह के स्कोर को तैयार करने के लिए यादृच्छिक जंगलों के भीतर वोट का उपयोग कर सकता हूं। चूंकि यादृच्छिक जंगलों में वर्गीकरण उत्पन्न पेड़ों के जंगल के भीतर बहुमत से मतदान के द्वारा किया जाता है, इसलिए मैं मानूंगा कि जिन वस्तुओं को 100% पेड़ों Type Aद्वारा वोट दिया गया था, उन वस्तुओं से भिन्न होंगे, जो कहते हैं, 51% पेड़ों को हो Type A।
वर्तमान में, मैंने वोटों के अनुपात के लिए एक मनमाना दहलीज निर्धारित करने की कोशिश की है जिसे किसी वस्तु को वर्गीकृत करने के लिए प्राप्त करना होगा Type Aया Type Bयदि थ्रेशोल्ड पारित नहीं हुआ है तो इसे वर्गीकृत किया जाएगा Uncertain। उदाहरण के लिए, यदि मैं इस शर्त को लागू करता हूं कि 80% या अधिक पेड़ों को पारित करने के लिए एक वर्गीकरण के निर्णय पर सहमत होना चाहिए, तो मुझे पता चलता है कि 99% वर्ग की भविष्यवाणियां सही हैं, लेकिन लगभग 40% वस्तुओं के रूप में द्विपद हैं Uncertain।
क्या यह समझ में आता है, फिर, भविष्यवाणियों की निश्चितता को पूरा करने के लिए मतदान की जानकारी का लाभ उठाने के लिए? या मैं अपने विचारों के साथ गलत दिशा में जा रहा हूं?