सबसे व्याख्यात्मक वर्गीकरण मॉडल


10

निर्णय पेड़ों और लॉजिस्टिक प्रतिगमन को छोड़कर, अन्य वर्गीकरण मॉडल क्या अच्छी व्याख्या प्रदान करते हैं? मुझे सटीकता या अन्य मापदंडों में कोई दिलचस्पी नहीं है, केवल परिणामों की व्याख्या महत्वपूर्ण है।


आपको कम से कम थोड़ी सटीकता या मापदंडों में रुचि होनी चाहिए। अन्यथा, वर्गीकृत करने में परेशान क्यों?
कोडियालॉजिस्ट

क्या आप इसमें रुचि रखते हैं कि सुविधाओं और कक्षाओं के बीच संबंध देखें?
Cem Kalyoncu

@CemKalyoncu हाँ, यह भी व्याख्या का हिस्सा है।
मिरोस्लाव सबो

जवाबों:


30

1) मेरा तर्क है कि निर्णय पेड़ उतने व्याख्यात्मक नहीं हैं जितना लोग उन्हें बताते हैं। वे व्याख्यात्मक दिखते हैं, क्योंकि प्रत्येक नोड एक सरल, द्विआधारी निर्णय है। समस्या यह है कि जैसे ही आप पेड़ के नीचे जाते हैं, प्रत्येक नोड उसके ऊपर प्रत्येक नोड पर सशर्त होता है। यदि आपका पेड़ केवल चार या पाँच स्तर गहरा है, तब भी एक टर्मिनल नोड के पथ (चार या पाँच विभाजन) को किसी व्याख्या में बदलना मुश्किल नहीं है (उदाहरण के लिए) यह नोड दीर्घकालिक ग्राहकों को दर्शाता है जो कई खातों वाले उच्च आय वाले पुरुष हैं। "), लेकिन कई टर्मिनल नोड्स का ट्रैक रखने की कोशिश करना मुश्किल है।

यदि आपको केवल एक ग्राहक को यह समझाना है कि आपका मॉडल व्याख्या करने योग्य है ("देखो, यहाँ के प्रत्येक सर्कल में एक साधारण हाँ / कोई निर्णय नहीं है, समझना आसान है, नहीं?") तो मैं आपकी सूची में निर्णय पेड़ रखूँगा । यदि आप कार्रवाई योग्य व्याख्या चाहते हैं, तो मेरा सुझाव है कि वे कटौती नहीं कर सकते।

2) एक और मुद्दा स्पष्ट कर रहा है कि "परिणामों की व्याख्या" से आपका क्या मतलब है। मैंने चार संदर्भों में व्याख्यायकता में भाग लिया है:

  1. ग्राहक कार्यप्रणाली को समझने में सक्षम है। (ऐसा नहीं है कि आप किस बारे में पूछ रहे हैं।) एक यादृच्छिक वन सादृश्य द्वारा स्पष्ट रूप से स्पष्ट रूप से समझा जा सकता है, और अधिकांश क्लाइंट इसे बस एक बार समझाने के साथ सहज महसूस करते हैं।

  2. यह बताते हुए कि कार्यप्रणाली एक मॉडल को कैसे फिट करती है। (मेरे पास एक ग्राहक था जिसने जोर देकर कहा कि एक निर्णय वृक्ष कैसे लगाया जाता है क्योंकि उन्हें लगा कि इससे उन्हें यह समझने में मदद मिलेगी कि परिणामों को अधिक समझदारी से कैसे उपयोग किया जाए। मैंने बहुत अच्छा लिखने के बाद, बहुत सारे अच्छे चित्र के साथ, उन्होंने विषय को गिरा दिया। यह व्याख्या / समझने में बिल्कुल भी मददगार नहीं है।) फिर, मेरा मानना ​​है कि यह वह नहीं है जिसके बारे में आप पूछ रहे हैं।

  3. एक बार एक मॉडल फिट होने के बाद, भविष्यवक्ताओं के बारे में मॉडल "विश्वास" या "कहता है" की व्याख्या करता है। यहां एक निर्णय वृक्ष व्याख्याय दिखता है, लेकिन पहले छापों की तुलना में कहीं अधिक जटिल है। यहां लॉजिस्टिक रिग्रेशन काफी सीधा है।

  4. जब किसी विशेष डेटा बिंदु को वर्गीकृत किया जाता है, तो यह बताते हुए कि निर्णय क्यों किया गया था। आपके लॉजिस्टिक रिग्रेशन को धोखाधड़ी का 80% मौका क्यों कहा जाता है? आपका निर्णय वृक्ष क्यों कहता है कि यह कम जोखिम वाला है? यदि क्लाइंट टर्मिनल नोड पर जाने वाले निर्णय नोड्स को प्रिंट करने से संतुष्ट है, तो यह निर्णय ट्री के लिए आसान है। यदि "क्यों" को मानव भाषण में संक्षेप में प्रस्तुत करने की आवश्यकता है ("इस व्यक्ति को कम जोखिम का दर्जा दिया गया है क्योंकि वे एक दीर्घकालिक पुरुष ग्राहक हैं, जिनके पास उच्च-आय और हमारी फर्म के साथ कई खाते हैं"), यह बहुत कठिन है।

तो व्याख्यात्मकता या व्याख्यात्मकता के एक स्तर पर (# 1 एक छोटे से # 4, ऊपर) के साथ, K- निकटतम पड़ोसी आसान है: "इस ग्राहक को उच्च जोखिम का अनुमान लगाया गया था क्योंकि 10 में से 8 ग्राहक जो पहले मूल्यांकन किए गए हैं और सबसे अधिक थे एक्स, वाई और जेड के संदर्भ में उनके समान ही उच्च जोखिम वाले पाए गए। " कार्रवाई योग्य, पूर्ण स्तर # 4 पर, यह इतनी व्याख्या योग्य नहीं है। (मैंने वास्तव में अन्य 8 ग्राहकों को उनके सामने पेश करने के बारे में सोचा है, लेकिन इससे उन्हें उन ग्राहकों को मैन्युअल रूप से पता लगाने की आवश्यकता होगी कि उन ग्राहकों के पास सामान्य रूप से क्या है, और इस प्रकार रेटेड ग्राहक के पास क्या है।)

मैंने हाल ही में टाइप -४ के स्वचालित स्पष्टीकरण के साथ आने की कोशिश करने के लिए संवेदनशीलता-विश्लेषण-जैसे तरीकों का उपयोग करने के बारे में कुछ कागजात पढ़े हैं। हालांकि मेरे पास कोई हाथ नहीं है। शायद कोई टिप्पणी में कुछ लिंक फेंक सकता है?


1
तकनीकी रूप से अपरिष्कृत और / या असंख्य दर्शकों के लिए विश्लेषण प्रस्तुत करने की कला पर उत्कृष्ट, विचारशील टिप्पणी।
माइक हंटर

1
+6, काफी सरल, सीधा सवाल का एक व्यापक और व्यावहारिक जवाब। एक दो दिन में मुझे याद दिलाओ और मैं इस पर एक इनाम दूंगा।
गुंग - को पुनः स्थापित मोनिका

@Wayne, यहां एक पेपर है जो # 4: arxiv.org/abs/1602.04938
पागलपन

7

यह आपके द्वारा उपयोग किए जा रहे डेटा पर निर्भर करता है। यदि आप सटीकता में रुचि नहीं रखते हैं, तो मेरा मानना ​​है कि डेटा और वर्गीकरण का विज़ुअलाइज़ेशन एल्गोरिदम के डेटा और प्रदर्शन की व्याख्या करने के सर्वोत्तम तरीकों में से एक है।

यहाँ विभिन्न सहपाठियों की तुलना का एक उदाहरण है। प्रत्येक पंक्ति एक अलग डेटा सेट है जिसमें डेटा अलग-अलग होता है। प्रत्येक स्तंभ प्रत्येक वर्गीकरणकर्ता का दृश्य है।

यहां छवि विवरण दर्ज करें

http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html


5

भेदभावपूर्ण विश्लेषण एक मूल वर्गीकरण मॉडल है, जो आरए फिशर ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ) के लिए एक सौ साल से अधिक पुराना है । यह सब अक्सर मशीन और सांख्यिकीय सीखने के मॉडल की आज की दुनिया में नजरअंदाज कर दिया गया है, सबसे हाल के शब्दजाल के साथ अधिक संगत हैं जो दृष्टिकोण से सुपरसीड किया गया है।

यह पेपर जर्नल ऑफ़ मशीन लर्निंग में था और इसमें कुछ अन्य तरीकों की एक लॉन्ड्री सूची है, क्या हमें वास्तविक विश्व वर्गीकरण समस्याओं को हल करने के लिए सैकड़ों क्लासिफायर की आवश्यकता है? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf


0

सुविधाओं और वर्गों के बीच संबंध खोजने के लिए आप एक संबंध विधियों का उपयोग कर सकते हैं। यह पता लगाने के लिए कि आप वर्ग के साथ जुड़ा हुआ है या नहीं, आप chi squared मेथड को नियोजित कर सकते हैं। ऐसा करने के लिए, आपको वर्ग लेबल समानता का उपयोग करना चाहिए। उदाहरण के लिए, यदि आप फ़ीचर 1 और क्लास 1 का परीक्षण कर रहे हैं, तो आपको फ़ीचर 1 के लिए बिनिंग का प्रदर्शन करना चाहिए और द्वैध संभावनाओं और सदस्यता सदस्यता के बीच chi ^ 2 की गणना करनी चाहिए, जिसका वर्ग 1 होने पर 1 का मान होता है, अन्यथा। इस तरह, यदि कक्षा 1 की विशेषता 1 पर निर्भर है, तो कुछ डिब्बे की कक्षा 1 होने की उच्च दर होगी, जबकि कुछ डिब्बे कम होंगे।

एक अतिरिक्त विधि जिसे मैंने मध्यम सफलता के साथ आजमाया है वह एक वर्ग की एक सुविधा को एक सामान्य वितरण में फिट करना था। फिर कक्षा में प्रत्येक नमूने के लिए, वितरण के लिए नमूना की फिटनेस द्वारा सुविधा के स्कोर में सुधार करें। प्रत्येक नमूने के लिए कक्षा में नहीं, फिटनेस के लिए सुविधा को दंडित करें। जाहिर है कि आपको उन नमूनों की संख्या को सामान्य करने की आवश्यकता है जो कक्षा में नहीं हैं। यह केवल उन सुविधाओं पर काम करता है जिन्हें सामान्य वितरण के करीब वितरित किया जाता है। मैंने हर वर्ग के लिए प्रति फीचर स्कोर असाइन करने के लिए इस पद्धति का उपयोग किया।


0

किसी ने निकटतम पड़ोसी वर्गीकरण का उल्लेख नहीं किया है। यह समझाने के लिए बहुत सरल है; एक अवलोकन को सबसे सामान्य वर्ग के अनुसार वर्गीकृत किया जाता है, जो उन निकटतम टिप्पणियों में से है। हम आम तौर पर देखने के लिए निकटतम पड़ोसियों की एक विषम संख्या चुनते हैं ताकि टूटने के लिए कोई संबंध न हो।


2
> किसी ने निकटतम पड़ोसी वर्गीकरण का उल्लेख नहीं किया है। वास्तव में? आपको एक बार फिर से जवाब पढ़ना चाहिए।
अल्लेओ

ठीक है, मुझे लगता है कि एक भूखंड के सीमांत लेबल के बारे में सिर्फ मायने रखता है। फिर भी, NN वहाँ से बाहर सबसे आसान-समझाने की विधि के बारे में है, खासकर यदि आपके दर्शक गणितीय नहीं हैं।
JDL
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.