Gini स्कोर और लॉग-लाइबिलिटी अनुपात के बीच क्या संबंध है


21

मैं वर्गीकरण और प्रतिगमन पेड़ों का अध्ययन कर रहा हूं, और विभाजन स्थान के उपायों में से एक GINI स्कोर है।

अब मैं सबसे अच्छा विभाजन स्थान निर्धारित करने के लिए उपयोग किया जाता है जब दो वितरणों के बीच एक ही डेटा की संभावना अनुपात का लॉग शून्य होता है, जिसका अर्थ है कि सदस्यता की संभावना समान रूप से होने की संभावना है।

मेरा अंतर्ज्ञान कहता है कि किसी प्रकार का एक संबंध होना चाहिए, कि Gini के पास सूचना के गणितीय सिद्धांत (शैनन) में एक अच्छी नींव होनी चाहिए, लेकिन मैं Gini को अपने रिश्ते को प्राप्त करने के लिए अच्छी तरह से समझ नहीं पाया।

प्रशन:

  • विभाजन के लिए एक उपाय के रूप में Gini अशुद्धता स्कोर का "पहला सिद्धांत" व्युत्पन्न क्या है?
  • जीआईआई स्कोर संभावना अनुपात या अन्य सूचना-सिद्धांत संबंधी बुनियादी बातों (शैनन एन्ट्रॉपी, पीडीएफ , और क्रॉस एन्ट्रॉपी उन का हिस्सा है) के लॉग से कैसे संबंधित है ?

संदर्भ:

शैनन की एन्ट्रापी का वर्णन इस प्रकार है:

एच(एक्स)=Σमैंपी(एक्समैं)लॉगपी(एक्समैं)

बहुभिन्नरूपी मामले में इसका विस्तार:

एच(एक्स,Y)=Σएक्सΣyपी(एक्स,y)लॉगपी(एक्स,y)

सशर्त एन्ट्रापी को निम्नानुसार परिभाषित किया गया है:

एच(एक्स|Y)=Σyपी(एक्स,y)लॉगपी(एक्स)पी(एक्स,y)या,एच(एक्स|Y)=एच(एक्स,Y)-एच(Y)

संभावना अनुपात के लॉग का उपयोग अचानक परिवर्तन का पता लगाने के लिए किया जाता है और इनका उपयोग करके व्युत्पन्न किया जाता है। (मेरे सामने व्युत्पत्ति नहीं है।)

Gini अशुद्धता:

  • GINI अशुद्धता का सामान्य रूपमैं=Σमैं=1मीटरमैं(1-मैं)

विचार:

  • विभाजन अशुद्धता के एक उपाय पर किया जाता है। उच्च "शुद्धता" की संभावना कम एन्ट्रॉपी के समान है। दृष्टिकोण एंट्रॉपी न्यूनीकरण से संबंधित होने की संभावना है।
  • यह संभावना है कि माना आधार वितरण समान है, या संभवतः हाथ से लहराते हुए, गौसियन। वे संभवतः वितरण का मिश्रण बना रहे हैं।
  • मुझे आश्चर्य है कि अगर शेहरत चार्ट व्युत्पत्ति यहां लागू हो सकती है?
  • Gini Impurity 2 परीक्षण और एक सफलता के साथ द्विपद वितरण के लिए प्रायिकता घनत्व फ़ंक्शन के अभिन्न अंग की तरह दिखता है। पी(एक्स=कश्मीर)=(21)पी(1-पी)

(अतिरिक्त)

  • प्रपत्र बीटा-द्विपद वितरण के साथ भी संगत है जो एक हाइपरजोमेट्रिक वितरण से पहले एक संयुग्म है। हाइपरजोमेट्रिक परीक्षणों का उपयोग अक्सर यह निर्धारित करने के लिए किया जाता है कि नमूने किस नमूने के ऊपर या नीचे हैं। फिशर के सटीक परीक्षण का भी एक संबंध है, जो कुछ भी है (स्वयं के लिए ध्यान दें, इस बारे में अधिक जानें)।

संपादित करें: मुझे संदेह है कि Gini का एक रूप है जो डिजिटल लॉजिक और / या आरबी-ट्रीज़ के साथ बहुत अच्छी तरह से काम करता है। मुझे उम्मीद है कि इस श्रेणी में इस गिरावट का पता लगाने के लिए।


1
अगर मैं अपने प्रश्न का उत्तर दूं तो क्या यह समस्याग्रस्त है?
एंग्रीस्टूडेंट -

1
नहीं, बिलकुल नहीं। अगर आपको लगता है कि आपके पास एक उचित जवाब है, तो आग लगाइए।
गूँग - मोनिका

@EngrStudent। अच्छा सवाल है, लेकिन आपके द्वारा संदर्भ अनुभाग में प्रदान की गई पहली कड़ी, जिन गुणांक से संबंधित है, जिसका कार्ट में इस्तेमाल किए गए गिन्नी उपाय से कोई लेना-देना नहीं है
एंटोनी

जीनी इंडेक्स के संबंध में मैंने केवल एक सरल व्याख्या पोस्ट की है: आंकड़े.stackexchange.com/questions/308885/…
पिकाउड विंसेंट

जवाबों:


11

मैं यहां उपयोग किए गए समान संकेतन का उपयोग करूंगा: वर्गीकरण और प्रतिगमन पेड़ों के पीछे गणित

Gini Gain और Information Gain ( ) दोनों अशुद्धता आधारित विभाजन मापदंड हैं। केवल अंतर अशुद्धता कार्य :मैंजीमैं

  1. गिनी:जीमैंnमैं()=1-Σj=1सीपीj2
  2. Entropy:एच()=-Σj=1सीपीjलॉगपीj

वे वास्तव में एक अधिक सामान्य एन्ट्रापी माप के विशिष्ट मूल्य हैं (Tsallis 'Entropy) पैराट्राइज्ड इन :β

एचβ()=1β-1(1-Σj=1सीपीjβ)

गिनी और साथ साथ प्राप्त किया जाता है ।β=2एचβ1

लॉग- लाइबिलिटी, जिसे -statistic भी कहा जाता है , सूचना लाभ का एक रैखिक परिवर्तन है:जी

जी-statistic=2||मैंजी

समुदाय (सांख्यिकी / डेटा खनन) के आधार पर लोग एक उपाय या दूसरे को पसंद करते हैं (संबंधित प्रश्न यहां )। वे निर्णय वृक्ष प्रेरण प्रक्रिया में बहुत अधिक समतुल्य हो सकते हैं। लॉग-आउट होने की संभावना संतुलित विभाजन के लिए उच्च स्कोर दे सकती है, हालांकि कई वर्ग हैं [तकनीकी नोट: विभाजन गुण के कुछ गुण। ब्रिमन 1996]।

गिनी गेन अच्छे हो सकते हैं क्योंकि इसमें लॉगरिदम नहीं है और आप यादृच्छिक विभाजन धारणा [अलिन डोबरा, जोहान्स गेहरके: बायस करेक्शन इन क्लासिफिकेशन ट्री कंस्ट्रक्शन) के तहत इसके अपेक्षित मूल्य और विचरण के लिए बंद फॉर्म पा सकते हैं। आईसीएमएल 2001: 90-97]। यह सूचना लाभ के लिए उतना आसान नहीं है (यदि आप रुचि रखते हैं, तो यहां देखें )।


1

अच्छा प्रश्न। दुर्भाग्य से मेरे पास उत्थान या टिप्पणी करने के लिए अभी तक पर्याप्त प्रतिष्ठा नहीं है, इसलिए उत्तर देने के बजाय!

मैं अनुपात परीक्षण से बहुत परिचित नहीं हूं, लेकिन यह मुझे चौंकाता है कि यह दो (या अधिक) विभिन्न वितरणों से उत्पन्न होने वाले डेटा की संभावना की तुलना करने के लिए इस्तेमाल किया जाने वाला एक औपचारिकता है , जबकि गिन्नी गुणांक एक एकल वितरण का एक सारांश सांख्यिकीय है।

गिनी गुणांक (आईएमओ) के बारे में सोचने का एक उपयोगी तरीका लोरेंज वक्र (सीएफडी से संबंधित) के तहत क्षेत्र है ।

ओपॉपी में एन्ट्रापी के लिए दी गई परिभाषा का उपयोग करके गिन्नी के साथ शैनन की एंट्रोपी की बराबरी करना संभव हो सकता है:

एच=Σमैंपी(एक्समैं)लॉगपी(एक्समैं)

और गिन्नी की परिभाषा:

जी=1-1μΣमैंपी(एक्समैं)(एसमैं-1+एसमैं)

एसमैं=Σj=1मैंपी(एक्समैं)एक्समैंएक्समैं

हालांकि यह एक आसान काम नहीं लगता है!


एक लॉग संभावना अनुपात उसी डेटा पर संचालित होता है। वितरण में से एक अन्य के समान सामान्य रूप हो सकता है, लेकिन इसके मापदंडों को डेटा के लिए फिट किया गया था जब कुछ अन्य मानदंड सत्य थे। उदाहरण के लिए, आपके पास एक ऐसा वितरण हो सकता है जिसके पैरामीटर स्वस्थ उत्पादन प्रक्रिया भिन्नता का वर्णन करते हैं (जरूरी नहीं कि गाऊसी) और दूसरा जो वर्तमान उत्पादन प्रक्रिया मूल्यों के लिए फिट है, और वर्तमान उत्पादन प्रक्रिया मूल्यों दोनों को संचालित करते हैं, लॉग-संभावना अनुपात की तुलना थ्रेशोल्ड वैल्यू से करते हैं। भ्रमण की संभावना। आदर्श के साथ तुलना की जा सकती है।
EngrStudent -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.