गनी घटती है और गिन्नी अशुद्धता बच्चों की


15

मैं यादृच्छिक जंगल के लिए Gini सुविधा महत्व के उपाय पर काम कर रहा हूं। इसलिए, मुझे नोड की अशुद्धता में गिनी की कमी की गणना करने की आवश्यकता है। यहाँ मैं ऐसा कर रहा हूँ, जो परिभाषा के साथ संघर्ष की ओर ले जाता है, यह सुझाव देता है कि मुझे कहीं न कहीं गलत होना चाहिए ... :)

एक द्विआधारी पेड़ के लिए, और बाएं और दाएं बच्चों की संभावनाओं को देखते हुए, मैं नोड की अशुद्धता की गणना कर सकता हूं :n

i(n)=1pl2pr2

और गिनी घट:

Δi(n)=i(n)pli(nl)pri(nr)

इसलिए, नोड पर 110 टिप्पणियों के साथ इस उदाहरण के लिए:

- node (110)
   - left (100)
      - left_left (60)
      - left_right (40)
   - right (10)
      - right_left (5)
      - right_right (5)

मैं इस तरह से नोड के लिए गिनी कमी की गणना करूंगा :

i(left)=1(60/100)²(40/100)²=0.48i(right)=1(5/10)²(5/10)²=0.50i(node)=1(100/110)²(10/110)²=0.16

लेकिन निम्नलिखित Breiman परिभाषा (या सीवी पर इस उत्तर: / रैंक "चर महत्व" को मापने के लिए कैसे करने के लिए जब कार्ट का उपयोग कर , लेकिन मैं संदर्भित पुस्तक के लिए पहुँच नहीं है), वंशज की अशुद्धता कसौटी होना चाहिए कम माता-पिता की तुलना में नोड:

Gini महत्व
हर बार एक नोड का विभाजन चर m पर किया जाता है दो अवरोही नोड्स के लिए gini अशुद्धता मानदंड मूल नोड से कम है। जंगल में सभी पेड़ों पर प्रत्येक अलग-अलग चर के लिए गिन्नी घटने से तेज चर महत्व मिलता है जो अक्सर क्रमिक महत्व के माप के अनुरूप होता है।

क्योंकि अन्यथा, यह नकारात्मक Gini कमी की ओर जाता है ...

Δi(node)=i(node)(100/110)i(left)(10/110)i(right)=0.32

इसलिए, अगर कोई बता सकता है कि मैं कहां गलत हूं, तो मैं बहुत आभारी रहूंगा क्योंकि ऐसा लग रहा है कि मुझे यहां कुछ याद आ रहा है ...

जवाबों:


16

आपने बस लक्ष्य वर्ग चर का उपयोग नहीं किया है। अन्य सभी अशुद्धता कार्यों के रूप में गिन्नी अशुद्धता, एक विभाजन के बाद आउटपुट की अशुद्धता को मापता है। आपने जो कुछ किया है वह केवल नमूना आकार का उपयोग करके कुछ मापने के लिए है।

मैं आपके मामले के लिए सूत्र निकालने की कोशिश करता हूं।

सादगी के लिए मान लें कि आपके पास बाइनरी क्लासिफायरियर है। परीक्षण विशेषता के साथ निरूपित करें , वर्ग विशेषता के साथ जिसमें मान हैं।C c + , c -ACc+,c

विभाजन से पहले प्रारंभिक गिन्नी सूचकांक जहां डेटा बिंदुओं का अनुपात है, जिसमें वर्ग के लिए मान है चर।

I(A)=1P(A+)2P(A)2
P(A+)c+

अब, बाएं नोड के लिए अशुद्धता जहां A के बाएं सबसेट से डेटा बिंदुओं का अनुपात है, जिनका वर्ग चर, आदि में मान c + है।

I(Al)=1P(Al+)2P(Al)2
I(Ar)=1P(Ar+)2P(Ar)2
P(Al+)Ac+

अब GiniGain के लिए अंतिम सूत्र होगा

GiniGain(A)=I(A)pleftI(Al)prightI(Ar)
pleft#|Al|#|Al|+#|Ar|A

मुझे लगता है कि मेरी धारणा में सुधार किया जा सकता है, मैं बाद में देखूंगा जब मेरे पास अधिक समय होगा।

निष्कर्ष

केवल डेटा बिंदुओं की संख्या का उपयोग करना पर्याप्त नहीं है, अशुद्धता का मतलब है कि एक सुविधा (परीक्षण सुविधा) किसी अन्य सुविधा (वर्ग सुविधा) के वितरण को पुन: पेश करने में सक्षम है। परीक्षण सुविधा वितरण आपके द्वारा उपयोग किए जाने वाले नंबर (बाएं से बाएं, दाएं कैसे) का उत्पादन करता है, लेकिन वर्ग सुविधा का वितरण आपके सूत्रों में उपयोग नहीं किया जाता है।

बाद में संपादित करें - इसे कम क्यों करें

अब मैंने देखा कि मुझे वह हिस्सा याद नहीं आया जो यह साबित करता है कि हमेशा बच्चे के नोड पर गिन्नी इंडेक्स पैरेंट नोड से कम क्यों होता है। मेरे पास एक पूर्ण प्रस्ताव या सत्यापित नहीं है, लेकिन मैं सोच रहा हूं कि यह एक वैध प्रमाण है। इस विषय से संबंधित अन्य इंटरस्टिंग चीज़ के लिए आप तकनीकी नोट की जाँच कर सकते हैं : विभाजन गुण के कुछ गुण - लियो ब्रेमन । अब यह मेरे प्रमाण का पालन करेगा।

(,)(,)

सर्वोत्तम विभाजन को खोजने के लिए हम एक परीक्षण सुविधा के अनुसार उदाहरणों को क्रमबद्ध करते हैं और हम सभी द्विआधारी संभव विभाजन की कोशिश करते हैं। किसी दी गई विशेषता के आधार पर छांटना वास्तव में उदाहरणों का क्रम है, जिसमें कक्षाएं प्रथम श्रेणी या दूसरी कक्षा के उदाहरण से शुरू होती हैं। सामान्यता को खोए बिना, हम मान लेंगे कि यह प्रथम श्रेणी के उदाहरण से शुरू होता है (यदि ऐसा नहीं है तो हमारे पास एक ही गणना के साथ दर्पण प्रमाण है)।

(1,0)(a1,b)h(left)=1(1/1)2(0/1)2=0। तो बाईं ओर हमारे पास एक छोटा गिन्नी सूचकांक मूल्य है। कैसे सही नोड के बारे में?

h(parent)=1(aa+b)2(ba+b)2
h(right)=1(a1(a1)+b)2(b(a1)+b)2

a0

अब सबूत के अंतिम चरण को नोड करना है कि हमारे पास मौजूद डेटा द्वारा निर्धारित सभी संभावित विभाजन बिंदुओं पर विचार करते समय, हमारे पास सबसे छोटा सकल सूचकांक है, जिसका अर्थ है कि हम जो इष्टतम चुनते हैं वह कम या बराबर है तुच्छ जो मैंने पसंद किया वह छोटा है। जो यह निष्कर्ष निकालता है कि अंत में गिन्नी सूचकांक घट जाएगा।

अंतिम निष्कर्ष के रूप में हमें यह भी ध्यान देना होगा कि विभिन्न बंटवारे उस मूल नोड को बड़ा मान दे सकते हैं, जो हम चुनते हैं, उनमें से सबसे छोटा होगा और यह भी कि माता-पिता की गिन्नी इंडेक्स वैल्यू।

आशा करता हूँ की ये काम करेगा।


बहुत बहुत धन्यवाद, आपने मेरे मस्तिष्क को अनलॉक कर दिया ... वास्तव में, चूंकि मैं प्रतिगमन पेड़ों से निपट रहा हूं, इसलिए लक्ष्य वर्गीकरण चर का उपयोग करके शुद्ध वर्गीकरण कार्य की तुलना में कम स्पष्ट दिखाई दिया। लेकिन यह अब पूरी तरह से समझ में आता है।
रेमी मेएलिसन

मैंने लापता भागों को शामिल करने के लिए उत्तर को अपडेट किया।
रापायो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.