सूचना लाभ के विपरीत मुझे कब Gini Impurity का उपयोग करना चाहिए?


66

क्या कोई व्यावहारिक रूप से गिनी अशुद्धता बनाम सूचना लाभ (एंट्रॉपी पर आधारित) के पीछे तर्क को स्पष्ट कर सकता है ?

निर्णय पेड़ों का उपयोग करते समय कौन से मीट्रिक विभिन्न परिदृश्यों में उपयोग करना बेहतर है?


5
@ Anony-Mousse मुझे लगता है कि आपकी टिप्पणी से पहले स्पष्ट था। सवाल यह नहीं है कि दोनों के अपने फायदे हैं, लेकिन किन परिदृश्यों में एक दूसरे से बेहतर है।
मार्टिन थोमा

मैंने "एन्ट्रॉपी" के बजाय "सूचना लाभ" का प्रस्ताव किया है, क्योंकि यह संबंधित लिंक में काफी करीब (IMHO) है। फिर, एक अलग रूप में सवाल पूछा गया कि गिन्नी अशुद्धता का उपयोग कब करना है और सूचना लाभ का उपयोग कब करना है?
लॉरेंट डुवल

1
मैंने यहाँ गनी अशुद्धता की एक सरल व्याख्या पोस्ट की है जो सहायक हो सकती है।
पिकाउड विंसेंट

जवाबों:


47

Gini अशुद्धता और सूचना लाभ Entropy बहुत समान हैं। और लोग परस्पर मूल्यों का उपयोग करते हैं। नीचे दोनों के सूत्र दिए गए हैं:

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

एक विकल्प को देखते हुए, मैं गिन्नी अशुद्धता का उपयोग करूंगा, क्योंकि इसके लिए मुझे लघुगणकीय कार्यों की गणना करने की आवश्यकता नहीं है, जो कम्प्यूटेशनल रूप से गहन हैं। इसका समाधान का बंद रूप भी पाया जा सकता है।

निर्णय पेड़ों का उपयोग करते समय कौन से मीट्रिक विभिन्न परिदृश्यों में उपयोग करना बेहतर है?

ऊपर बताई गई वजहों से गिनी अशुद्धता।

तो, जब CART एनालिटिक्स की बात आती है तो वे बहुत अधिक समान होते हैं।

दो तरीकों की कम्प्यूटेशनल तुलना के लिए सहायक संदर्भ


1
एंट्रोपी के फार्मूले को देखना इतना आम है, जबकि निर्णय वृक्ष में वास्तव में जो उपयोग किया जाता है वह सशर्त एंट्रोपी जैसा दिखता है। मुझे लगता है कि यह महत्वपूर्ण अंतर है या कुछ याद आ रहा है?
user1700890

@ user1700890 ID3 एल्गोरिथ्म जानकारी का उपयोग करता है। एन्ट्रापी हासिल करें। मुझे सशर्त एन्ट्रापी पर पढ़ने की जरूरत है। शायद ID3 से अधिक :) एक सुधार
Dawny33

1
मुझे लगता है कि गिन्नी के प्रति आपकी परिभाषा गलत हो सकती है: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
मार्टिन थोमा

22

आम तौर पर, आपका प्रदर्शन नहीं बदलेगा कि आप गिन्नी अशुद्धता या एंट्रॉपी का उपयोग करते हैं या नहीं।

लौरा ऐलेना रेलीनू और किलियन स्टॉफेल ने "गनी इंडेक्स और सूचना लाभ मानदंडों के बीच सैद्धांतिक तुलना " दोनों की तुलना की । सबसे महत्वपूर्ण टिप्पणी थी:

  • यह केवल 2% मामलों में मायने रखता है चाहे आप गिन्नी अशुद्धता या एन्ट्रॉपी का उपयोग करें।
  • एन्ट्रॉपी गणना करने के लिए थोड़ा धीमा हो सकता है (क्योंकि यह लघुगणक का उपयोग करता है)।

मुझे एक बार कहा गया था कि दोनों मैट्रिक्स मौजूद हैं क्योंकि वे विज्ञान के विभिन्न विषयों में उभरे हैं।


16

दो मूल्यों के साथ एक चर के मामले में, भिन्न एफ और (1-एफ) के साथ दिखाई देते हैं,
जिन और एन्ट्रॉपी द्वारा दिए गए हैं:
जीनी = 2 * एफ (1-एफ)
एन्ट्रॉपी = एफ * एलएन (1 / एफ) + (1-f) * ln (1 / (1-f))
ये उपाय बहुत समान हैं यदि 1.0 तक स्केल किया गया है (2 * gini और एन्ट्रॉपी / ln (2) प्लॉटिंग):

तुलना के लिए गिनी (y4, बैंगनी) और एन्ट्रॉपी (y3, ग्रीन) मान बढ़ाया गया


14

Gini निरंतर विशेषताओं के लिए अभिप्रेत है और Entropy उन विशेषताओं के लिए है जो कक्षाओं में होती हैं

गिन्नी को कम करने के लिए है गर्भनिरोधक
एंट्रॉपी खोजपूर्ण विश्लेषण के लिए है

एन्ट्रापी गणना करने के लिए थोड़ा धीमा है


7

0<u<1,log(1u)=uu2/2u3/3+0<p<1,log(p)=p1(1p)2/2(1p)3/3+
0<p<1,plog(p)=p(1p)+p(1p)2/2+p(1p)3/3+
सामान्यीकृत गिन्नी और एन्ट्रापी मानदंड

अंत में जैसा कि @NIMISHAN गिनी द्वारा समझाया गया है, गर्भपात को कम करने के लिए अधिक उपयुक्त है क्योंकि यह 0.5 के लिए सहानुभूति है, जबकि एन्ट्रापी में अधिक छोटे दंड की संभावना होगी।


3

प्रवेश गणना की वजह से एन्ट्रॉपी गिन्नी इंडेक्स की तुलना में थोड़ा अधिक कम्प्यूटिंग समय लेता है, शायद इसीलिए कई एमएल एल्गोरिदम के लिए गिन्नी इंडेक्स डिफ़ॉल्ट विकल्प बन गया है। लेकिन, टैन एट से। अल बुक इंट्रोडक्शन टू डेटा माइनिंग

"अशुद्धता माप एक दूसरे के साथ काफी सुसंगत हैं ... वास्तव में, पेड़ को चुभाने के लिए इस्तेमाल की जाने वाली रणनीति का अशुद्धता के विकल्प की तुलना में अंतिम पेड़ पर अधिक प्रभाव पड़ता है।"

इसलिए, ऐसा लगता है कि अशुद्धता के माप के चयन का एकल निर्णय ट्री एल्गोरिदम के प्रदर्शन पर बहुत कम प्रभाव पड़ता है।

इसके अलावा। "गनी विधि केवल तभी काम करती है जब लक्ष्य चर एक द्विआधारी चर होता है।" - पायथन के साथ लर्निंग प्रिडिक्टिव एनालिटिक्स।


3

मैं पिछले सप्ताह + के लिए द्विआधारी वर्गीकरण पर अनुकूलन कर रहा हूं, और हर मामले में, एन्ट्रापी में काफी बेहतर प्रदर्शन करता है। यह डेटा सेट विशिष्ट हो सकता है, लेकिन यह समय के आगे मॉडल के बारे में धारणा बनाने के बजाए हाइपरपरमेटर्स को ट्यून करते हुए दोनों एक तर्कसंगत विकल्प होगा।

आप कभी नहीं जानते कि आंकड़े चलाने तक डेटा कैसे प्रतिक्रिया देगा।


0

पार्सिमनी के अनुसार प्रिंसिपल गिन्नी आउटपरफॉर्म एंट्रॉपी के रूप में कंपटीशन आसानी (लॉग में स्पष्ट रूप से अधिक कम्प्यूटेशन शामिल हैं बल्कि प्रोसेसर / मशीन स्तर पर सादा गुणन है)।

लेकिन उच्च असंतुलन से जुड़े कुछ डेटा मामलों में एन्ट्रापी में निश्चित रूप से बढ़त है।

चूंकि एन्ट्रापी संभावनाओं के लॉग का उपयोग करता है और घटना की संभावनाओं के साथ गुणा करता है, पृष्ठभूमि पर क्या हो रहा है, कम मूल्य का मान कम संभावनाओं को बढ़ाया जा रहा है।

यदि आपका डेटा संभाव्यता वितरण घातांक या लाप्लास है (जैसे गहन सीखने के मामले में जहां हमें तेज बिंदु पर संभाव्यता वितरण की आवश्यकता है) एन्ट्रॉपी आउटपरफॉर्म गिनी।

एक उदाहरण देने के लिए यदि आपके पास 2 इवेंट एक .01 प्रायिकता और अन्य .99 संभावना है।

जिनि प्रोब वर्ग में होगा .01 ^ 2 + .99 ^ 2, .0001 + .9801 का मतलब है कि कम संभावना कोई भी भूमिका नहीं निभाती है क्योंकि सब कुछ बहुमत की संभावना से नियंत्रित होता है।

अब एन्ट्रापी के मामले में .01 * लॉग (.01) +। 99 * लॉग (.99) = .01 * (- 2) + .99 * (-। 00436) = -.02--.00432 अब इस मामले में। स्पष्ट रूप से देखी गई कम संभावनाओं को बेहतर वजन-आयु दी जाती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.