मैं एक ब्लैक-बॉक्स गैर-रेखीय मॉडल के लिए पूर्वानुमान के विभिन्न आदानों के महत्व की कल्पना कैसे कर सकता हूं?


9

मैं अपने संगठन में किए गए पूर्वानुमान के लिए सहायता के रूप में एक इंटरैक्टिव पूर्वानुमान उपकरण (अजगर में) का निर्माण कर रहा हूं। आज तक पूर्वानुमान प्रक्रिया काफी हद तक मानव चालित रही है, जिसमें पूर्वानुमान लगाने वाले अपने प्राकृतिक तंत्रिका नेटवर्क में डेटा को आत्मसात करते हैं और भविष्यवाणियां करने के लिए अपने सीखा आंत महसूस का उपयोग करते हैं। एक दीर्घकालिक पूर्वानुमान सत्यापन और भविष्य कहनेवाला मॉडलिंग अध्ययन से मैंने जो पाया है, उससे आप उम्मीद कर सकते हैं; अलग-अलग पूर्वानुमान अलग-अलग पूर्वाग्रहों को प्रदर्शित करते हैं, कुछ भविष्यवक्ताओं के प्रभाव अतिरंजित प्रतीत होते हैं और अन्य महत्वपूर्ण लोगों को नजरअंदाज किया जाता है और सामान्य तौर पर पूर्वानुमान प्रदर्शन अपेक्षाकृत सरल अनुभवजन्य मॉडल की तुलना में औसत दर्जे का होता है।

पूर्वानुमान मैन्युअल होते रहेंगे, लेकिन मैं भविष्यवाणियों के सापेक्ष प्रभावों का बेहतर मात्राकरण के साथ पूर्वानुमान प्रदान करने के लिए एक उपयोगी उपकरण बनाने की कोशिश कर रहा हूं। मौसमी प्रभावों जैसे महत्वपूर्ण प्रभाव भी हैं जिन्हें अक्सर अनदेखा किया जाता है कि मैं उपयोगकर्ता को हाइलाइट करने के लिए उपकरण चाहूंगा। मैं कुछ अधिक 'अनुभवी' पूर्वानुमानकर्ताओं (जिनमें से कई को आंकड़ों का बहुत कम औपचारिक ज्ञान है) से मॉडलिंग की प्रक्रिया के बारे में प्रतिक्रिया और संदेह की डिग्री की उम्मीद कर रहा हूं, इसलिए संचार कम से कम उतना ही महत्वपूर्ण है और मॉडल प्रदर्शन खुद के संदर्भ में पूर्वानुमान सटीकता में एक औसत दर्जे का सुधार प्राप्त करना।

जिन मॉडल का मैं विकास कर रहा हूं उनमें एक मजबूत ऑटो-रिग्रेसिव कंपोनेंट है, जो कई बार उन घटनाओं से काफी संशोधित होता है, जो गैर-ईवेंट के दौरान, शून्य के करीब, कुछ भविष्यवाणियों में मापा मूल्यों के रूप में दिखाई देते हैं। यह पूर्वानुमान वाले मानसिक मॉडल का उपयोग करता है। प्रमुख भाग यह प्रदर्शित करने में सक्षम हो रहा है कि किसी भी पूर्वानुमान के लिए ऑटो रिग्रेसिव मूल्य से दूर की भविष्यवाणी को चलाने में कौन सा 'ईवेंट' माप सबसे प्रभावशाली है। मैं इस तरह से प्रक्रिया की इमेजिंग करता हूं; फोरकास्टर ने अपना सर्वश्रेष्ठ अनुमान लगाया है, मॉडल एक अलग सुझाव देता है और फोरकास्टर पूछता है कि क्यों। मॉडल कुछ इस तरह से उत्तर देता है "यहां देखें, इस भविष्यवक्ता का मान समर में पूर्वानुमान मूल्य को बढ़ाता है। यदि यह सर्दी थी, तो यह दूसरे तरीके से आगे बढ़ेगा। मुझे पता है कि ये अन्य माप हैं।

अब, कल्पना कीजिए कि मॉडल एक सरल रेखीय प्रतिगमन था। मॉडल के सह-कुशल द्वारा मूल्य को गुणा करके और साधारण बार चार्ट के रूप में प्रदर्शित करके घटना आधारित भविष्यवक्ताओं के सापेक्ष 'प्रभाव' को प्रदर्शित करने की कल्पना की जा सकती है। विभिन्न भविष्यवाणियों से सभी बार एआर मान से कुल विचलन तक जोड़ते हैं, और यह स्पष्ट रूप से उन लोगों को दिखाता है जो इस उदाहरण में, एक मजबूत प्रभाव रखते हैं।

समस्या यह है कि पूर्वानुमान होने की प्रक्रिया भविष्यवाणियों में उच्च-रैखिकता का एक उच्च स्तर प्रदर्शित करती है, या कम से कम, मुझे ब्लैक-बॉक्स गैर-रैखिक मशीन लर्निंग एल्गोरिदम (यादृच्छिक वन और जीबीएम) के साथ जीएलएम की तुलना में बहुत अधिक सफलता मिली है। यह डेटा-सेट। आदर्श रूप में मैं उपयोगकर्ता अनुभव को बदलने के बिना 'हूड के तहत काम कर रहे मॉडल को मूल रूप से बदलने में सक्षम होना चाहूंगा, इसलिए मुझे कुछ सामान्य तरीके से कुछ एल्गोरिदम विशिष्ट दृष्टिकोण का उपयोग किए बिना अलग-अलग मापों के महत्व को प्रदर्शित करने के कुछ सामान्य तरीके की आवश्यकता है। मेरा वर्तमान दृष्टिकोण एक भविष्यवक्ता को छोड़कर सभी मानों को शून्य पर सेट करके प्रभावों को अर्ध-रेखीय करना होगा, पूर्वानुमानित विचलन को रिकॉर्ड करना और फिर सभी भविष्यवक्ताओं के लिए दोहराना, उपरोक्त बार चार्ट में परिणाम प्रदर्शित करना। मजबूत गैर-रैखिकता की उपस्थिति में, यह इतनी अच्छी तरह से काम नहीं कर सकता है।


1
आपने क्या किया - क्या आप एक तस्वीर या दो डाल सकते हैं? इसके अलावा, "सभी भविष्यवाणियों को शून्य करने के अलावा एक भविष्यवक्ता को छोड़कर" - क्या आप वर्तमान सर्वोत्तम मूल्यों के आसपास ढाल नहीं चाहते हैं, सभी 0 के आसपास नहीं?
डेनिस

जवाबों:


4

एक तरीका है कि आप पूर्वानुमानों पर भविष्यवक्ता के प्रभाव का आकलन कर सकते हैं, भविष्यवाणियों के संबंध में आउटपुट की ढाल का अनुमान लगा सकते हैं। यह गैर-रेखीय भविष्यवाणी समारोह के आंशिक व्युत्पन्न का अनुमान लगाकर किया जा सकता है।

आदर्श रूप से आप वास्तव में देखे गए परीक्षण इनपुट पर ऐसा करेंगे। उदाहरण के लिए, आप पिछले 2 दिनों में सभी परीक्षण इनपुट पर अनुमानित ग्रेडिएंट के निरपेक्ष मान को औसत कर सकते हैं। इस औसत ढाल के परिमाण का उपयोग भविष्यवक्ताओं के महत्व को सुलझाने के लिए किया जा सकता है। (आपको z- स्कोरिंग या कुछ ऐसी विधि द्वारा उपयुक्त इकाइयों का उपयोग करने के लिए ढाल अनुमान के साथ सावधानी बरतने की आवश्यकता होगी।) आप इन अनुमानित ग्रेडिएंट्स को तुलनात्मक विश्लेषण के लिए सीजन द्वारा बचा सकते हैं।

देखें " कैसे व्यक्तिगत शास्त्रीय फाई कटियन निर्णय के बारे में बताएं को , डेविड Baehrens एट द्वारा"। अल। इस विचार पर अधिक के लिए JMLR में। कागज वर्गीकरण से संबंधित है, लेकिन आसानी से प्रतिगमन को भी सामान्य करता है।


यह बढ़िया है! एक बहुत उपयोगी संदर्भ जो इस मुद्दे के लिए उपयोगी होगा जो मेरे पास है और कहीं और है।
बोगदानोविस्ट

2

क्या आपने अजगर में स्किकिट-लर्न मॉड्यूल की कोशिश की है ।

आप इसके randomForestClassifier की सुविधाओं के लिए "computer_importance" कर सकते हैं


1
पहले मैंने यह भी सोचा कि फीचर महत्व की गणना सहायक हो सकती है, लेकिन अंत में यह एक तुलनात्मक रूप से खराब दृष्टिकोण है जब कोई विशिष्ट उदाहरण के लिए अनुमानित मूल्य की व्याख्या करेगा। फ़ीचर महत्व मानव विशेषज्ञों को केवल अस्पष्ट संकेत देता है।
स्टीफन

इसके अलावा, ओपी ने एक मॉडल स्वतंत्र दृष्टिकोण के लिए कहा ...
स्टीफन

परिवर्तनीय महत्व के उपायों के साथ समस्या यह है कि वे पूरे डेटासेट पर औसतन लागू होते हैं, बजाय यह बताने के कि किसी एक विशेष मामले में वास्तव में क्या महत्वपूर्ण था।
बोगदानोविस्ट

वास्तव में मुझे लगता है कि यह एक मॉडल स्वतंत्र दृष्टिकोण है, आप वास्तव में इसे यादृच्छिक जंगलों की तुलना में अन्य क्लासिफायरियर पर लागू कर सकते हैं। ब्रेमेन की वेबसाइट में एक सूक्ष्म टिप्पणी है कि आप किसी एक मामले के लिए चर महत्व की गणना कैसे कर सकते हैं। stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp (अंतिम वाक्य) मुझे लगता है कि यह बड़े पैमाने पर अभी तक अध्ययन नहीं किया गया है, या कम से कम बड़े पैमाने पर परीक्षण किया गया है। माध्य चर महत्व हमेशा वही नहीं होता जो आप चाहते हैं। उदाहरण के लिए ऐसा नहीं है जब आप किसी मामले पर निर्णय लेने के लिए किसी चिकित्सक की मदद करना चाहते हैं। यह वास्तव में एक दिलचस्प विषय है।
सिमोन

एक दिलचस्प पेपर है जहां ब्रेमेन लॉजिस्टिक रिग्रेशन पर इस पद्धति के बारे में थोड़ी चर्चा करता है: "सांख्यिकीय मॉडलिंग: द टू कल्चर"। एक अच्छा पढ़ा। वाक्य जो मुझे सबसे ज्यादा पसंद है वह है: "परिवर्तनीय महत्व की मेरी परिभाषा भविष्यवाणी पर आधारित है। एक चर को महत्वपूर्ण माना जा सकता है यदि इसे हटाने से गंभीरता सटीकता को प्रभावित करती है।" यह कथन आपके द्वारा उपयोग किए जा सकने वाले किसी भी क्लासिफायर पर लागू होता है।
सिमोन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.