मैं एक वर्गीकारक कि भेद जाएगा प्रशिक्षित करने के लिए देख रहा हूँ Type A
और Type B
लगभग 10,000 वस्तुओं की एक यथोचित बड़े प्रशिक्षण सेट के साथ वस्तुओं, के बारे में आधा हिस्सा हैं Type A
और आधा हिस्सा हैं Type B
। डेटासेट में कोशिकाओं के भौतिक गुणों (आकार, माध्य त्रिज्या, आदि) का विवरण देने वाली 100 निरंतर विशेषताएं होती हैं। जोड़ीदार स्कैप्लेट्स और घनत्व प्लॉटों में डेटा की कल्पना हमें बताती है कि कई विशेषताओं में कैंसर और सामान्य कोशिकाओं के वितरण में महत्वपूर्ण ओवरलैप है।
मैं वर्तमान में इस डेटासेट के लिए एक वर्गीकरण विधि के रूप में यादृच्छिक जंगलों की खोज कर रहा हूं, और मैं कुछ अच्छे परिणाम देख रहा हूं। आर का उपयोग करते हुए, यादृच्छिक वन लगभग 90% वस्तुओं को सही ढंग से वर्गीकृत करने में सक्षम हैं।
जिन चीज़ों को हम आज़माना चाहते हैं उनमें से एक "निश्चित स्कोर" है, जो इस बात का परिमाण देगा कि हम वस्तुओं के वर्गीकरण के प्रति कितने आश्वस्त हैं। हम जानते हैं कि हमारा क्लासिफायर 100% सटीक नहीं होगा, और यहां तक कि अगर भविष्यवाणियों में उच्च सटीकता प्राप्त की जाती है, तो हम प्रशिक्षित तकनीशियनों को पहचानना चाहेंगे कि कौन सी वस्तुएं सही मायने में हैं Type A
और Type B
। इसलिए हम Type A
या के अप्रमाणित पूर्वानुमान प्रदान करने के बजाय Type B
, हम प्रत्येक वस्तु के लिए एक अंक प्रस्तुत करना चाहते हैं जो यह वर्णन करेगा कि कोई वस्तु कैसे है A
या कैसे B
है। उदाहरण के लिए, यदि हम ० से १० तक के स्कोर को तैयार करते हैं, तो ० का स्कोर एक वस्तु को इंगित कर सकता है जो Type A
वस्तुओं के समान है , जबकि १० का स्कोर इंगित करेगा कि कोई वस्तु बहुत पसंद है Type B
।
मैं सोच रहा था कि मैं इस तरह के स्कोर को तैयार करने के लिए यादृच्छिक जंगलों के भीतर वोट का उपयोग कर सकता हूं। चूंकि यादृच्छिक जंगलों में वर्गीकरण उत्पन्न पेड़ों के जंगल के भीतर बहुमत से मतदान के द्वारा किया जाता है, इसलिए मैं मानूंगा कि जिन वस्तुओं को 100% पेड़ों Type A
द्वारा वोट दिया गया था, उन वस्तुओं से भिन्न होंगे, जो कहते हैं, 51% पेड़ों को हो Type A
।
वर्तमान में, मैंने वोटों के अनुपात के लिए एक मनमाना दहलीज निर्धारित करने की कोशिश की है जिसे किसी वस्तु को वर्गीकृत करने के लिए प्राप्त करना होगा Type A
या Type B
यदि थ्रेशोल्ड पारित नहीं हुआ है तो इसे वर्गीकृत किया जाएगा Uncertain
। उदाहरण के लिए, यदि मैं इस शर्त को लागू करता हूं कि 80% या अधिक पेड़ों को पारित करने के लिए एक वर्गीकरण के निर्णय पर सहमत होना चाहिए, तो मुझे पता चलता है कि 99% वर्ग की भविष्यवाणियां सही हैं, लेकिन लगभग 40% वस्तुओं के रूप में द्विपद हैं Uncertain
।
क्या यह समझ में आता है, फिर, भविष्यवाणियों की निश्चितता को पूरा करने के लिए मतदान की जानकारी का लाभ उठाने के लिए? या मैं अपने विचारों के साथ गलत दिशा में जा रहा हूं?