Gini गुणांक बनाम Gini अशुद्धता - निर्णय पेड़


25

समस्या का अर्थ है पेड़ों के निर्माण का निर्णय लेना। विकिपीडिया के अनुसार ' गिन्नी गुणांक ' को ' गिन्नी अशुद्धता ' के साथ भ्रमित नहीं होना चाहिए । हालाँकि निर्णय वृक्ष का निर्माण करते समय दोनों उपायों का उपयोग किया जा सकता है - ये आइटम के सेट को विभाजित करते समय हमारी पसंद का समर्थन कर सकते हैं।

1) 'गिन्नी अशुद्धता' - यह एक मानक निर्णय-वृक्ष विभाजन मीट्रिक है (ऊपर लिंक में देखें);

2) 'गिन्नी गुणांक' - प्रत्येक विभाजन का मूल्यांकन एयूसी मानदंड के आधार पर किया जा सकता है। प्रत्येक बंटवारे के परिदृश्य के लिए हम एक ROC वक्र बना सकते हैं और AUC मीट्रिक की गणना कर सकते हैं। विकिपीडिया के अनुसार AUC = (GiniCoeff + 1) / 2;

प्रश्न है: क्या ये दोनों उपाय समतुल्य हैं? एक ओर, मुझे सूचित किया जाता है कि गिन्नी गुणांक को गिन्नी अशुद्धता के साथ भ्रमित नहीं होना चाहिए। दूसरी ओर, इन दोनों उपायों का उपयोग एक ही काम करने में किया जा सकता है - एक निर्णय पेड़ की गुणवत्ता का आकलन करना।


मुझे इस परिभाषा की तलाश में यह सवाल आया: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
मार्टिन थोमा

जवाबों:


28

नहीं है, उनके नाम के बावजूद वे नहीं कर रहे हैं बराबर या इसी तरह की है कि।

  • गिन्नी अशुद्धता गर्भपात का एक उपाय है, जो एक बहुकोशिकीय वर्गीकरण संदर्भ में लागू होता है।
  • गिन्नी गुणांक बाइनरी वर्गीकरण पर लागू होता है और इसके लिए एक क्लासिफायरियर की आवश्यकता होती है जो किसी तरह से सकारात्मक कक्षा में होने की संभावना के अनुसार उदाहरणों को रैंक कर सकता है।

दोनों को कुछ मामलों में लागू किया जा सकता है, लेकिन वे अलग-अलग चीजों के लिए अलग-अलग उपाय हैं। अशुद्धता वह है जो आमतौर पर निर्णय पेड़ों में उपयोग की जाती है ।


7

मैंने क्रमशः यूनिट 1 और यूनिट 3 के धन के साथ दो लोगों ए और बी के साथ डेटा का एक उदाहरण लिया। विकिपीडिया = 1 - [(१/४) ^ २ + (३/४) ^ २] = ३/ity के अनुसार गिन्नी अशुद्धता

विकिपीडिया के अनुसार गिन्नी गुणांक निम्न ग्राफ में नीली रेखा के तहत लाल और नीले रेखा के बीच के क्षेत्र का अनुपात होगा

यहाँ छवि विवरण दर्ज करें

लाल रेखा के नीचे का क्षेत्र 1/2 + 1 + 3/2 = 3 है

नीली रेखा = 4 के तहत कुल क्षेत्रफल

तो गिन्नी गुणांक = 3/4

स्पष्ट रूप से दोनों संख्याएँ अलग-अलग हैं। मैं यह देखने के लिए अधिक मामलों की जांच करूंगा कि क्या वे आनुपातिक हैं या एक सटीक संबंध है और उत्तर को संपादित करें।

संपादित करें: मैंने अन्य संयोजनों के लिए भी जाँच की, अनुपात स्थिर नहीं है। नीचे कुछ संयोजनों की एक सूची दी गई है, जिन्हें मैंने आजमाया था। यहाँ छवि विवरण दर्ज करें


क्या स्पष्टीकरण है !!
9

0

मुझे लगता है कि वे दोनों एक ही अवधारणा का प्रतिनिधित्व करते हैं।

वर्गीकरण पेड़ों में, गिनी इंडेक्स का उपयोग डेटा विभाजन की अशुद्धता की गणना करने के लिए किया जाता है। तो समान विभाजन के साथ 4 वर्गों में से प्रत्येक के डेटा विभाजन डी को मानते हैं। फिर गनी इंडेक्स (Gini Impurity) होगा: Gini (D) = 1 - (0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)

CART में हम बाइनरी स्प्लिट्स करते हैं। इसलिए जिनि इंडेक्स की गणना परिणामी विभाजन के भारित योग के रूप में की जाएगी और हम सबसे छोटे गिनी इंडेक्स के साथ विभाजन का चयन करते हैं।

इसलिए Gini Impurity (Gini Index) का उपयोग बाइनरी स्थितियों तक सीमित नहीं है।

Gini Impurity का एक अन्य शब्द Gini गुणांक है जो आम तौर पर आय वितरण के उपाय के रूप में उपयोग किया जाता है।


3
Gini गुणांक Gini अशुद्धता नहीं है। प्रश्न में लिंक देखें
शॉन ओवेन

2
विकिपीडिया हमेशा जानकारी का एक विश्वसनीय स्रोत नहीं है :-)
पासमोड ट्यूरिंग

2
ज़रूर। इसे कहीं और देखें: mathworld.wolfram.com/GiniCoeffic.html आपको क्या लगता है कि गिन्नी गुणांक = गिन्नी अशुद्धता?
सीन ओवेन

इसे देखें: books.google.de/…
Pasmod Turing

1
मुझे लगता है कि हम निर्णय पेड़ों के बारे में बात कर रहे हैं। तो हम मशीन लर्निंग के क्षेत्र में हैं! कृपया प्रश्न को और अधिक ध्यान से पढ़ें
पसमोड़ ट्यूरिंग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.