मैं वर्गीकरण और प्रतिगमन पेड़ों का अध्ययन कर रहा हूं, और विभाजन स्थान के उपायों में से एक GINI स्कोर है।
अब मैं सबसे अच्छा विभाजन स्थान निर्धारित करने के लिए उपयोग किया जाता है जब दो वितरणों के बीच एक ही डेटा की संभावना अनुपात का लॉग शून्य होता है, जिसका अर्थ है कि सदस्यता की संभावना समान रूप से होने की संभावना है।
मेरा अंतर्ज्ञान कहता है कि किसी प्रकार का एक संबंध होना चाहिए, कि Gini के पास सूचना के गणितीय सिद्धांत (शैनन) में एक अच्छी नींव होनी चाहिए, लेकिन मैं Gini को अपने रिश्ते को प्राप्त करने के लिए अच्छी तरह से समझ नहीं पाया।
प्रशन:
- विभाजन के लिए एक उपाय के रूप में Gini अशुद्धता स्कोर का "पहला सिद्धांत" व्युत्पन्न क्या है?
- जीआईआई स्कोर संभावना अनुपात या अन्य सूचना-सिद्धांत संबंधी बुनियादी बातों (शैनन एन्ट्रॉपी, पीडीएफ , और क्रॉस एन्ट्रॉपी उन का हिस्सा है) के लॉग से कैसे संबंधित है ?
संदर्भ:
- भारित गिन्नी मानदंड को कैसे परिभाषित किया जाता है?
- वर्गीकरण और प्रतिगमन पेड़ों के पीछे गणित
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(प्रति)) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
शैनन की एन्ट्रापी का वर्णन इस प्रकार है:
बहुभिन्नरूपी मामले में इसका विस्तार:
सशर्त एन्ट्रापी को निम्नानुसार परिभाषित किया गया है:
संभावना अनुपात के लॉग का उपयोग अचानक परिवर्तन का पता लगाने के लिए किया जाता है और इनका उपयोग करके व्युत्पन्न किया जाता है। (मेरे सामने व्युत्पत्ति नहीं है।)
Gini अशुद्धता:
- GINI अशुद्धता का सामान्य रूप
विचार:
- विभाजन अशुद्धता के एक उपाय पर किया जाता है। उच्च "शुद्धता" की संभावना कम एन्ट्रॉपी के समान है। दृष्टिकोण एंट्रॉपी न्यूनीकरण से संबंधित होने की संभावना है।
- यह संभावना है कि माना आधार वितरण समान है, या संभवतः हाथ से लहराते हुए, गौसियन। वे संभवतः वितरण का मिश्रण बना रहे हैं।
- मुझे आश्चर्य है कि अगर शेहरत चार्ट व्युत्पत्ति यहां लागू हो सकती है?
- Gini Impurity 2 परीक्षण और एक सफलता के साथ द्विपद वितरण के लिए प्रायिकता घनत्व फ़ंक्शन के अभिन्न अंग की तरह दिखता है।
(अतिरिक्त)
- प्रपत्र बीटा-द्विपद वितरण के साथ भी संगत है जो एक हाइपरजोमेट्रिक वितरण से पहले एक संयुग्म है। हाइपरजोमेट्रिक परीक्षणों का उपयोग अक्सर यह निर्धारित करने के लिए किया जाता है कि नमूने किस नमूने के ऊपर या नीचे हैं। फिशर के सटीक परीक्षण का भी एक संबंध है, जो कुछ भी है (स्वयं के लिए ध्यान दें, इस बारे में अधिक जानें)।
संपादित करें: मुझे संदेह है कि Gini का एक रूप है जो डिजिटल लॉजिक और / या आरबी-ट्रीज़ के साथ बहुत अच्छी तरह से काम करता है। मुझे उम्मीद है कि इस श्रेणी में इस गिरावट का पता लगाने के लिए।