आपने बस लक्ष्य वर्ग चर का उपयोग नहीं किया है। अन्य सभी अशुद्धता कार्यों के रूप में गिन्नी अशुद्धता, एक विभाजन के बाद आउटपुट की अशुद्धता को मापता है। आपने जो कुछ किया है वह केवल नमूना आकार का उपयोग करके कुछ मापने के लिए है।
मैं आपके मामले के लिए सूत्र निकालने की कोशिश करता हूं।
सादगी के लिए मान लें कि आपके पास बाइनरी क्लासिफायरियर है। परीक्षण विशेषता के साथ निरूपित करें , वर्ग विशेषता के साथ जिसमें मान हैं।C c + , c -ACc+,c−
विभाजन से
पहले प्रारंभिक गिन्नी सूचकांक
जहां डेटा बिंदुओं का अनुपात है, जिसमें वर्ग के लिए मान है चर।
I(A)=1−P(A+)2−P(A−)2
P(A+)c+
अब, बाएं नोड के लिए अशुद्धता
जहां A के बाएं सबसेट से डेटा बिंदुओं का अनुपात है, जिनका वर्ग चर, आदि में मान c + है।
I(Al)=1−P(Al+)2−P(Al−)2
I(Ar)=1−P(Ar+)2−P(Ar−)2
P(Al+)Ac+
अब GiniGain के लिए अंतिम सूत्र होगा
GiniGain(A)=I(A)−pleftI(Al)−prightI(Ar)
pleft#|Al|#|Al|+#|Ar|A
मुझे लगता है कि मेरी धारणा में सुधार किया जा सकता है, मैं बाद में देखूंगा जब मेरे पास अधिक समय होगा।
निष्कर्ष
केवल डेटा बिंदुओं की संख्या का उपयोग करना पर्याप्त नहीं है, अशुद्धता का मतलब है कि एक सुविधा (परीक्षण सुविधा) किसी अन्य सुविधा (वर्ग सुविधा) के वितरण को पुन: पेश करने में सक्षम है। परीक्षण सुविधा वितरण आपके द्वारा उपयोग किए जाने वाले नंबर (बाएं से बाएं, दाएं कैसे) का उत्पादन करता है, लेकिन वर्ग सुविधा का वितरण आपके सूत्रों में उपयोग नहीं किया जाता है।
बाद में संपादित करें - इसे कम क्यों करें
अब मैंने देखा कि मुझे वह हिस्सा याद नहीं आया जो यह साबित करता है कि हमेशा बच्चे के नोड पर गिन्नी इंडेक्स पैरेंट नोड से कम क्यों होता है। मेरे पास एक पूर्ण प्रस्ताव या सत्यापित नहीं है, लेकिन मैं सोच रहा हूं कि यह एक वैध प्रमाण है। इस विषय से संबंधित अन्य इंटरस्टिंग चीज़ के लिए आप तकनीकी नोट की जाँच कर सकते हैं : विभाजन गुण के कुछ गुण - लियो ब्रेमन । अब यह मेरे प्रमाण का पालन करेगा।
( ए , बी )एख( ए , बी )
सर्वोत्तम विभाजन को खोजने के लिए हम एक परीक्षण सुविधा के अनुसार उदाहरणों को क्रमबद्ध करते हैं और हम सभी द्विआधारी संभव विभाजन की कोशिश करते हैं। किसी दी गई विशेषता के आधार पर छांटना वास्तव में उदाहरणों का क्रम है, जिसमें कक्षाएं प्रथम श्रेणी या दूसरी कक्षा के उदाहरण से शुरू होती हैं। सामान्यता को खोए बिना, हम मान लेंगे कि यह प्रथम श्रेणी के उदाहरण से शुरू होता है (यदि ऐसा नहीं है तो हमारे पास एक ही गणना के साथ दर्पण प्रमाण है)।
( 1 , 0 )(a−1,b)h(left)=1−(1/1)2−(0/1)2=0। तो बाईं ओर हमारे पास एक छोटा गिन्नी सूचकांक मूल्य है। कैसे सही नोड के बारे में?
h(parent)=1−(aa+b)2−(ba+b)2
h(right)=1−(a−1(a−1)+b)2−(b(a−1)+b)2
a0
अब सबूत के अंतिम चरण को नोड करना है कि हमारे पास मौजूद डेटा द्वारा निर्धारित सभी संभावित विभाजन बिंदुओं पर विचार करते समय, हमारे पास सबसे छोटा सकल सूचकांक है, जिसका अर्थ है कि हम जो इष्टतम चुनते हैं वह कम या बराबर है तुच्छ जो मैंने पसंद किया वह छोटा है। जो यह निष्कर्ष निकालता है कि अंत में गिन्नी सूचकांक घट जाएगा।
अंतिम निष्कर्ष के रूप में हमें यह भी ध्यान देना होगा कि विभिन्न बंटवारे उस मूल नोड को बड़ा मान दे सकते हैं, जो हम चुनते हैं, उनमें से सबसे छोटा होगा और यह भी कि माता-पिता की गिन्नी इंडेक्स वैल्यू।
आशा करता हूँ की ये काम करेगा।