क्या कोई व्यावहारिक रूप से गिनी अशुद्धता बनाम सूचना लाभ (एंट्रॉपी पर आधारित) के पीछे तर्क को स्पष्ट कर सकता है ?
निर्णय पेड़ों का उपयोग करते समय कौन से मीट्रिक विभिन्न परिदृश्यों में उपयोग करना बेहतर है?
क्या कोई व्यावहारिक रूप से गिनी अशुद्धता बनाम सूचना लाभ (एंट्रॉपी पर आधारित) के पीछे तर्क को स्पष्ट कर सकता है ?
निर्णय पेड़ों का उपयोग करते समय कौन से मीट्रिक विभिन्न परिदृश्यों में उपयोग करना बेहतर है?
जवाबों:
Gini अशुद्धता और सूचना लाभ Entropy बहुत समान हैं। और लोग परस्पर मूल्यों का उपयोग करते हैं। नीचे दोनों के सूत्र दिए गए हैं:
एक विकल्प को देखते हुए, मैं गिन्नी अशुद्धता का उपयोग करूंगा, क्योंकि इसके लिए मुझे लघुगणकीय कार्यों की गणना करने की आवश्यकता नहीं है, जो कम्प्यूटेशनल रूप से गहन हैं। इसका समाधान का बंद रूप भी पाया जा सकता है।
निर्णय पेड़ों का उपयोग करते समय कौन से मीट्रिक विभिन्न परिदृश्यों में उपयोग करना बेहतर है?
ऊपर बताई गई वजहों से गिनी अशुद्धता।
तो, जब CART एनालिटिक्स की बात आती है तो वे बहुत अधिक समान होते हैं।
आम तौर पर, आपका प्रदर्शन नहीं बदलेगा कि आप गिन्नी अशुद्धता या एंट्रॉपी का उपयोग करते हैं या नहीं।
लौरा ऐलेना रेलीनू और किलियन स्टॉफेल ने "गनी इंडेक्स और सूचना लाभ मानदंडों के बीच सैद्धांतिक तुलना " दोनों की तुलना की । सबसे महत्वपूर्ण टिप्पणी थी:
मुझे एक बार कहा गया था कि दोनों मैट्रिक्स मौजूद हैं क्योंकि वे विज्ञान के विभिन्न विषयों में उभरे हैं।
दो मूल्यों के साथ एक चर के मामले में, भिन्न एफ और (1-एफ) के साथ दिखाई देते हैं,
जिन और एन्ट्रॉपी द्वारा दिए गए हैं:
जीनी = 2 * एफ (1-एफ)
एन्ट्रॉपी = एफ * एलएन (1 / एफ) + (1-f) * ln (1 / (1-f))
ये उपाय बहुत समान हैं यदि 1.0 तक स्केल किया गया है (2 * gini और एन्ट्रॉपी / ln (2) प्लॉटिंग):
प्रवेश गणना की वजह से एन्ट्रॉपी गिन्नी इंडेक्स की तुलना में थोड़ा अधिक कम्प्यूटिंग समय लेता है, शायद इसीलिए कई एमएल एल्गोरिदम के लिए गिन्नी इंडेक्स डिफ़ॉल्ट विकल्प बन गया है। लेकिन, टैन एट से। अल बुक इंट्रोडक्शन टू डेटा माइनिंग
"अशुद्धता माप एक दूसरे के साथ काफी सुसंगत हैं ... वास्तव में, पेड़ को चुभाने के लिए इस्तेमाल की जाने वाली रणनीति का अशुद्धता के विकल्प की तुलना में अंतिम पेड़ पर अधिक प्रभाव पड़ता है।"
इसलिए, ऐसा लगता है कि अशुद्धता के माप के चयन का एकल निर्णय ट्री एल्गोरिदम के प्रदर्शन पर बहुत कम प्रभाव पड़ता है।
इसके अलावा। "गनी विधि केवल तभी काम करती है जब लक्ष्य चर एक द्विआधारी चर होता है।" - पायथन के साथ लर्निंग प्रिडिक्टिव एनालिटिक्स।
मैं पिछले सप्ताह + के लिए द्विआधारी वर्गीकरण पर अनुकूलन कर रहा हूं, और हर मामले में, एन्ट्रापी में काफी बेहतर प्रदर्शन करता है। यह डेटा सेट विशिष्ट हो सकता है, लेकिन यह समय के आगे मॉडल के बारे में धारणा बनाने के बजाए हाइपरपरमेटर्स को ट्यून करते हुए दोनों एक तर्कसंगत विकल्प होगा।
आप कभी नहीं जानते कि आंकड़े चलाने तक डेटा कैसे प्रतिक्रिया देगा।
पार्सिमनी के अनुसार प्रिंसिपल गिन्नी आउटपरफॉर्म एंट्रॉपी के रूप में कंपटीशन आसानी (लॉग में स्पष्ट रूप से अधिक कम्प्यूटेशन शामिल हैं बल्कि प्रोसेसर / मशीन स्तर पर सादा गुणन है)।
लेकिन उच्च असंतुलन से जुड़े कुछ डेटा मामलों में एन्ट्रापी में निश्चित रूप से बढ़त है।
चूंकि एन्ट्रापी संभावनाओं के लॉग का उपयोग करता है और घटना की संभावनाओं के साथ गुणा करता है, पृष्ठभूमि पर क्या हो रहा है, कम मूल्य का मान कम संभावनाओं को बढ़ाया जा रहा है।
यदि आपका डेटा संभाव्यता वितरण घातांक या लाप्लास है (जैसे गहन सीखने के मामले में जहां हमें तेज बिंदु पर संभाव्यता वितरण की आवश्यकता है) एन्ट्रॉपी आउटपरफॉर्म गिनी।
एक उदाहरण देने के लिए यदि आपके पास 2 इवेंट एक .01 प्रायिकता और अन्य .99 संभावना है।
जिनि प्रोब वर्ग में होगा .01 ^ 2 + .99 ^ 2, .0001 + .9801 का मतलब है कि कम संभावना कोई भी भूमिका नहीं निभाती है क्योंकि सब कुछ बहुमत की संभावना से नियंत्रित होता है।
अब एन्ट्रापी के मामले में .01 * लॉग (.01) +। 99 * लॉग (.99) = .01 * (- 2) + .99 * (-। 00436) = -.02--.00432 अब इस मामले में। स्पष्ट रूप से देखी गई कम संभावनाओं को बेहतर वजन-आयु दी जाती है।