निर्णय पेड़ों और लॉजिस्टिक प्रतिगमन को छोड़कर, अन्य वर्गीकरण मॉडल क्या अच्छी व्याख्या प्रदान करते हैं? मुझे सटीकता या अन्य मापदंडों में कोई दिलचस्पी नहीं है, केवल परिणामों की व्याख्या महत्वपूर्ण है।
निर्णय पेड़ों और लॉजिस्टिक प्रतिगमन को छोड़कर, अन्य वर्गीकरण मॉडल क्या अच्छी व्याख्या प्रदान करते हैं? मुझे सटीकता या अन्य मापदंडों में कोई दिलचस्पी नहीं है, केवल परिणामों की व्याख्या महत्वपूर्ण है।
जवाबों:
1) मेरा तर्क है कि निर्णय पेड़ उतने व्याख्यात्मक नहीं हैं जितना लोग उन्हें बताते हैं। वे व्याख्यात्मक दिखते हैं, क्योंकि प्रत्येक नोड एक सरल, द्विआधारी निर्णय है। समस्या यह है कि जैसे ही आप पेड़ के नीचे जाते हैं, प्रत्येक नोड उसके ऊपर प्रत्येक नोड पर सशर्त होता है। यदि आपका पेड़ केवल चार या पाँच स्तर गहरा है, तब भी एक टर्मिनल नोड के पथ (चार या पाँच विभाजन) को किसी व्याख्या में बदलना मुश्किल नहीं है (उदाहरण के लिए) यह नोड दीर्घकालिक ग्राहकों को दर्शाता है जो कई खातों वाले उच्च आय वाले पुरुष हैं। "), लेकिन कई टर्मिनल नोड्स का ट्रैक रखने की कोशिश करना मुश्किल है।
यदि आपको केवल एक ग्राहक को यह समझाना है कि आपका मॉडल व्याख्या करने योग्य है ("देखो, यहाँ के प्रत्येक सर्कल में एक साधारण हाँ / कोई निर्णय नहीं है, समझना आसान है, नहीं?") तो मैं आपकी सूची में निर्णय पेड़ रखूँगा । यदि आप कार्रवाई योग्य व्याख्या चाहते हैं, तो मेरा सुझाव है कि वे कटौती नहीं कर सकते।
2) एक और मुद्दा स्पष्ट कर रहा है कि "परिणामों की व्याख्या" से आपका क्या मतलब है। मैंने चार संदर्भों में व्याख्यायकता में भाग लिया है:
ग्राहक कार्यप्रणाली को समझने में सक्षम है। (ऐसा नहीं है कि आप किस बारे में पूछ रहे हैं।) एक यादृच्छिक वन सादृश्य द्वारा स्पष्ट रूप से स्पष्ट रूप से समझा जा सकता है, और अधिकांश क्लाइंट इसे बस एक बार समझाने के साथ सहज महसूस करते हैं।
यह बताते हुए कि कार्यप्रणाली एक मॉडल को कैसे फिट करती है। (मेरे पास एक ग्राहक था जिसने जोर देकर कहा कि एक निर्णय वृक्ष कैसे लगाया जाता है क्योंकि उन्हें लगा कि इससे उन्हें यह समझने में मदद मिलेगी कि परिणामों को अधिक समझदारी से कैसे उपयोग किया जाए। मैंने बहुत अच्छा लिखने के बाद, बहुत सारे अच्छे चित्र के साथ, उन्होंने विषय को गिरा दिया। यह व्याख्या / समझने में बिल्कुल भी मददगार नहीं है।) फिर, मेरा मानना है कि यह वह नहीं है जिसके बारे में आप पूछ रहे हैं।
एक बार एक मॉडल फिट होने के बाद, भविष्यवक्ताओं के बारे में मॉडल "विश्वास" या "कहता है" की व्याख्या करता है। यहां एक निर्णय वृक्ष व्याख्याय दिखता है, लेकिन पहले छापों की तुलना में कहीं अधिक जटिल है। यहां लॉजिस्टिक रिग्रेशन काफी सीधा है।
जब किसी विशेष डेटा बिंदु को वर्गीकृत किया जाता है, तो यह बताते हुए कि निर्णय क्यों किया गया था। आपके लॉजिस्टिक रिग्रेशन को धोखाधड़ी का 80% मौका क्यों कहा जाता है? आपका निर्णय वृक्ष क्यों कहता है कि यह कम जोखिम वाला है? यदि क्लाइंट टर्मिनल नोड पर जाने वाले निर्णय नोड्स को प्रिंट करने से संतुष्ट है, तो यह निर्णय ट्री के लिए आसान है। यदि "क्यों" को मानव भाषण में संक्षेप में प्रस्तुत करने की आवश्यकता है ("इस व्यक्ति को कम जोखिम का दर्जा दिया गया है क्योंकि वे एक दीर्घकालिक पुरुष ग्राहक हैं, जिनके पास उच्च-आय और हमारी फर्म के साथ कई खाते हैं"), यह बहुत कठिन है।
तो व्याख्यात्मकता या व्याख्यात्मकता के एक स्तर पर (# 1 एक छोटे से # 4, ऊपर) के साथ, K- निकटतम पड़ोसी आसान है: "इस ग्राहक को उच्च जोखिम का अनुमान लगाया गया था क्योंकि 10 में से 8 ग्राहक जो पहले मूल्यांकन किए गए हैं और सबसे अधिक थे एक्स, वाई और जेड के संदर्भ में उनके समान ही उच्च जोखिम वाले पाए गए। " कार्रवाई योग्य, पूर्ण स्तर # 4 पर, यह इतनी व्याख्या योग्य नहीं है। (मैंने वास्तव में अन्य 8 ग्राहकों को उनके सामने पेश करने के बारे में सोचा है, लेकिन इससे उन्हें उन ग्राहकों को मैन्युअल रूप से पता लगाने की आवश्यकता होगी कि उन ग्राहकों के पास सामान्य रूप से क्या है, और इस प्रकार रेटेड ग्राहक के पास क्या है।)
मैंने हाल ही में टाइप -४ के स्वचालित स्पष्टीकरण के साथ आने की कोशिश करने के लिए संवेदनशीलता-विश्लेषण-जैसे तरीकों का उपयोग करने के बारे में कुछ कागजात पढ़े हैं। हालांकि मेरे पास कोई हाथ नहीं है। शायद कोई टिप्पणी में कुछ लिंक फेंक सकता है?
यह आपके द्वारा उपयोग किए जा रहे डेटा पर निर्भर करता है। यदि आप सटीकता में रुचि नहीं रखते हैं, तो मेरा मानना है कि डेटा और वर्गीकरण का विज़ुअलाइज़ेशन एल्गोरिदम के डेटा और प्रदर्शन की व्याख्या करने के सर्वोत्तम तरीकों में से एक है।
यहाँ विभिन्न सहपाठियों की तुलना का एक उदाहरण है। प्रत्येक पंक्ति एक अलग डेटा सेट है जिसमें डेटा अलग-अलग होता है। प्रत्येक स्तंभ प्रत्येक वर्गीकरणकर्ता का दृश्य है।
http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html
भेदभावपूर्ण विश्लेषण एक मूल वर्गीकरण मॉडल है, जो आरए फिशर ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ) के लिए एक सौ साल से अधिक पुराना है । यह सब अक्सर मशीन और सांख्यिकीय सीखने के मॉडल की आज की दुनिया में नजरअंदाज कर दिया गया है, सबसे हाल के शब्दजाल के साथ अधिक संगत हैं जो दृष्टिकोण से सुपरसीड किया गया है।
यह पेपर जर्नल ऑफ़ मशीन लर्निंग में था और इसमें कुछ अन्य तरीकों की एक लॉन्ड्री सूची है, क्या हमें वास्तविक विश्व वर्गीकरण समस्याओं को हल करने के लिए सैकड़ों क्लासिफायर की आवश्यकता है? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
सुविधाओं और वर्गों के बीच संबंध खोजने के लिए आप एक संबंध विधियों का उपयोग कर सकते हैं। यह पता लगाने के लिए कि आप वर्ग के साथ जुड़ा हुआ है या नहीं, आप chi squared मेथड को नियोजित कर सकते हैं। ऐसा करने के लिए, आपको वर्ग लेबल समानता का उपयोग करना चाहिए। उदाहरण के लिए, यदि आप फ़ीचर 1 और क्लास 1 का परीक्षण कर रहे हैं, तो आपको फ़ीचर 1 के लिए बिनिंग का प्रदर्शन करना चाहिए और द्वैध संभावनाओं और सदस्यता सदस्यता के बीच chi ^ 2 की गणना करनी चाहिए, जिसका वर्ग 1 होने पर 1 का मान होता है, अन्यथा। इस तरह, यदि कक्षा 1 की विशेषता 1 पर निर्भर है, तो कुछ डिब्बे की कक्षा 1 होने की उच्च दर होगी, जबकि कुछ डिब्बे कम होंगे।
एक अतिरिक्त विधि जिसे मैंने मध्यम सफलता के साथ आजमाया है वह एक वर्ग की एक सुविधा को एक सामान्य वितरण में फिट करना था। फिर कक्षा में प्रत्येक नमूने के लिए, वितरण के लिए नमूना की फिटनेस द्वारा सुविधा के स्कोर में सुधार करें। प्रत्येक नमूने के लिए कक्षा में नहीं, फिटनेस के लिए सुविधा को दंडित करें। जाहिर है कि आपको उन नमूनों की संख्या को सामान्य करने की आवश्यकता है जो कक्षा में नहीं हैं। यह केवल उन सुविधाओं पर काम करता है जिन्हें सामान्य वितरण के करीब वितरित किया जाता है। मैंने हर वर्ग के लिए प्रति फीचर स्कोर असाइन करने के लिए इस पद्धति का उपयोग किया।
किसी ने निकटतम पड़ोसी वर्गीकरण का उल्लेख नहीं किया है। यह समझाने के लिए बहुत सरल है; एक अवलोकन को सबसे सामान्य वर्ग के अनुसार वर्गीकृत किया जाता है, जो उन निकटतम टिप्पणियों में से है। हम आम तौर पर देखने के लिए निकटतम पड़ोसियों की एक विषम संख्या चुनते हैं ताकि टूटने के लिए कोई संबंध न हो।