SHAP (Shapley Additive Explanation) और LIME (स्थानीय व्याख्यात्मक मॉडल-अज्ञेय स्पष्टीकरण) के बीच तुलना


21

मैं दो लोकप्रिय पोस्ट हॉक मॉडल व्याख्यात्मक तकनीकों के बारे में पढ़ रहा हूं: लिम और SHAP

मुझे इन दोनों तकनीकों में महत्वपूर्ण अंतर को समझने में परेशानी हो रही है।

स्कॉट लुंडबर्ग को उद्धृत करने के लिए , SHAP के पीछे दिमाग:

SHAP मान लिमे के ब्लैक बॉक्स स्थानीय अनुमान लाभ के साथ आते हैं, लेकिन गेम थ्योरी से स्थिरता और स्थानीय सटीकता के बारे में सैद्धांतिक गारंटी के साथ आते हैं (अन्य तरीकों से विशेषता जो हम एकीकृत करते हैं)

मुझे यह समझने में थोड़ी परेशानी हो रही है कि यह ' गेम थ्योरी से स्थिरता और स्थानीय सटीकता के बारे में सैद्धांतिक गारंटी ' क्या है। चूंकि SHAP को LIME के ​​बाद विकसित किया गया था, इसलिए मुझे लगता है कि यह कुछ अंतराल पर भरता है जिसे LIME संबोधित करने में विफल रहता है। वो क्या है?

शेफ़ी एस्टीमेशन पर एक अध्याय में क्रिस्टोफ़ मोलनार की पुस्तक :

भविष्यवाणी और औसत भविष्यवाणी के बीच का अंतर उदाहरण की विशेषताओं के मूल्यों के बीच काफी वितरित किया जाता है - जर्जर दक्षता संपत्ति। यह प्रॉपर्टी लिमए जैसी अन्य विधियों से अलग शापली मूल्य निर्धारित करती है। सीमा पूरी तरह से प्रभावों को वितरित करने की गारंटी नहीं देती है। यह पूर्ण विवरण देने के लिए एकमात्र विधि Shapley मान बना सकता है

इसे पढ़कर, मुझे समझ में आता है कि SHAP स्थानीय नहीं है, बल्कि डेटा बिंदु का एक मुखर स्पष्टीकरण है। मैं यहां गलत हो सकता हूं और उपरोक्त उद्धरण का मतलब क्या है, इसके बारे में कुछ जानकारी चाहिए। मेरे प्रश्न को संक्षेप में प्रस्तुत करने के लिए: सीमा स्थानीय स्पष्टीकरण का उत्पादन करती है। SHAP की व्याख्या लीमेई से कैसे भिन्न हैं?


2
अच्छा प्रश्न (+1), जब मुझे समय मिलेगा तब मैं इसका उत्तर देने की कोशिश करूंगा लेकिन ध्यान देने योग्य बात यह है कि लिम वैश्विक रूप से सुसंगत स्पष्टीकरण नहीं देता है जबकि SHAP करता है। इसके अलावा, SHAP निश्चित रूप से सीमा से पहले विकसित किया गया है। SHAP स्ट्रैम्बेलज और कोंनेंको के काम पर लेट 00 के शुरुआती / 10 के शुरुआती दिनों के साथ-साथ ट्रांसफ़रेबल यूटिलिटी कोऑपरेटिव गेम्स (जैसे लिप्टोवस्की और कोंक्लिन (2001)) पर अर्थशास्त्र पर काम करता है। इसके अलावा, संवेदनशीलता विश्लेषण माप (उदाहरण के लिए सोबोल इंडिस) पर भी बहुत काम किया जाता है। कोर SHAP विचारों को आम तौर पर NIPS 2017 से पहले जाना जाता था।
us11r11852

2
(बस मेरी टिप्पणी के दूसरे भाग के बारे में स्पष्ट होने के लिए ऊपर: मैं सुझाव नहीं दे रहा हूं कि एनआईपीएस 2017 का पेपर साहित्यिक चोरी या इस तरह के किसी भी चीज का उत्पाद है। यह सिर्फ इतना है कि मैं अक्सर लोगों को पिछले काम के बहुत से अवहेलना करते देखता हूं। क्षेत्र और ज्ञान के क्षेत्र के अन्यथा जैविक विकास के एक हाल के क्रॉस-सेक्शन का इलाज एक प्रमुख कार्यप्रणाली सफलता के रूप में। इस विशेष मामले में: एल्गोरिथम गेम सिद्धांत एआई के हिस्से के रूप में दशकों से रहा है, बस अब यह अर्ध- शांत हो गया है । )
us Monr11852

1
@ us @r11852 आपके उत्तर की प्रतीक्षा में। कृपया इस पर अपने विचारों का योगदान दें।
user248884

2
अभी तक सभी आवश्यक समय नहीं मिला है; मैंने लगभग 400 शब्द लिखे हैं, लेकिन इसमें कम से कम 6-7 घंटे काम करने की आवश्यकता है क्योंकि मुझे कुछ कागजों को फिर से पढ़ना है और अपने पाठ को कसना है - बिना सरलीकरण किए SHAP की व्याख्या करना थोड़ा चुनौतीपूर्ण है (मेरे लिए कम से कम)। संभवत: मैं इसे दिसंबर के मध्य से पहले बना दूंगा ... :)
us11r11852 का कहना है कि Monic

1
@ us @r11852 ज़रूर। इंतजार करेंगे :)
user248884

जवाबों:


8

LIME इकाई के चारों ओर स्थानीय रूप से एक सरोगेट मॉडल बनाता है जिसकी भविष्यवाणी आप समझना चाहते हैं। इस प्रकार यह स्वाभाविक है। प्रत्येक मूल्य के योगदान में अंतिम भविष्यवाणी को 'मानने' से अलग करते हैं - यह 'सुसंगत' से कुछ मतलब है (मान वास्तविक मॉडल की वास्तविक भविष्यवाणी को जोड़ते हैं, यह ऐसा कुछ नहीं है जो आपको लीम के साथ मिलता है)। लेकिन वास्तव में आकार के मूल्यों को प्राप्त करने के लिए कुछ निर्णय है जो कि 'बचे हुए' गुणों के मूल्यों को कैसे करना है / कैसे संभालना है, इस बारे में अवश्य निर्णय लिया जाना चाहिए। इस निर्णय में कुछ विकल्प हैं जो व्याख्या को बदल सकते हैं। यदि मैं एक विशेषता छोड़ता हूं तो क्या मैं सभी संभावनाओं को औसत कर सकता हूं? क्या कुछ 'आधार रेखा' चुनते हैं?

तो शेपली वास्तव में, आपको एक योज्य तरीके से बताता है कि आपको अपना स्कोर कैसे मिला, लेकिन 'शुरुआती बिंदु' (यानी छोड़ी गई विशेषताओं के बारे में निर्णय) के बारे में कुछ विकल्प है।

लिम आपको केवल एक स्थानीय अर्थ में बताता है कि ब्याज के डेटा बिंदु के आसपास सबसे महत्वपूर्ण विशेषता क्या है।


क्या आप यह भी जोड़ सकते हैं कि प्रत्येक मॉडल अपना स्कोर कैसे बनाता है (जैसे आकार स्कोर) - मैंने इन स्कोर को काफी परेशान किया क्योंकि वे सामान्य नहीं हैं और मुझे समझ में नहीं आता कि उनका क्या मतलब है!
user4581
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.