व्याख्यात्मक मॉडलिंग में पूर्वाग्रह को कम करना, क्यों? (गलित शुमेली का "समझाने या भविष्यवाणी करने के लिए")


15

यह सवाल गैलीट श्मुइली के पेपर "To Explain or Predict " का संदर्भ देता है ।

विशेष रूप से, धारा 1.5 में, "व्याख्या और भविष्यवाणी अलग हैं", प्रोफेसर श्मुइली लिखते हैं:

व्याख्यात्मक मॉडलिंग में ध्यान अंतर्निहित सिद्धांत का सबसे सटीक प्रतिनिधित्व प्राप्त करने के लिए पूर्वाग्रह को कम करने पर है।

जब भी मैंने पेपर पढ़ा है, इसने मुझे हैरान कर दिया है। किस अर्थ में अनुमानों में पूर्वाग्रह को कम करना अंतर्निहित सिद्धांत का सबसे सटीक प्रतिनिधित्व देता है?

मैं भी प्रोफेसर Shmueli की बात देखा यहाँ , जेएमपी डिस्कवरी शिखर सम्मेलन 2017 में वितरित, और वह कहता है:

... चीजें जो संकोचन मॉडल, पहनावा जैसी होती हैं, आप उन लोगों को कभी नहीं देख पाएंगे। क्योंकि वे मॉडल, कुल मिलाकर पूर्वाग्रह / विचरण को कम करने के लिए पूर्वाग्रह का परिचय देते हैं। इसलिए वे वहां नहीं होंगे, ऐसा करने के लिए कोई सैद्धांतिक समझ नहीं है। आप अपने मॉडल को उद्देश्य से पक्षपाती क्यों बनायेंगे?

यह वास्तव में मेरे सवाल पर प्रकाश नहीं डालता है, बस उस दावे को बहाल करता है जो मुझे समझ में नहीं आता है।

यदि सिद्धांत में कई पैरामीटर हैं, और उनके पास अनुमान लगाने के लिए हमारे पास डेटा है, तो अनुमान त्रुटि पर विचरण का प्रभुत्व होगा। इस स्थिति में रिज रिग्रेशन (जिसके परिणामस्वरूप कम विचरण का पूर्वाग्रह अनुमान है) जैसी पक्षपातपूर्ण आकलन प्रक्रिया का उपयोग करना अनुचित क्यों होगा?


1
अच्छा प्रश्न! +1 मैंने सांख्यिकी
एड्रियन

@ एड्रियन यह एक अच्छा सवाल है, अच्छी तरह से पूछा गया। मैं भी उस एक को पूरी तरह से जवाब देखने के लिए प्यार करता हूँ!
मैथ्यू ड्र्यू

जवाबों:


6

यह वास्तव में एक महान प्रश्न है, जिसे अर्थमितीय और सामाजिक विज्ञान अनुसंधान में सांख्यिकीय मॉडल के उपयोग की दुनिया में एक दौरे की आवश्यकता है (मैंने जो देखा है, सांख्यिकीविद और डेटा खनिकों को लागू किया है जो आमतौर पर वर्णनात्मक या पूर्वानुमान कार्य करते हैं। इस रूप का पूर्वाग्रह)। शब्द "पूर्वाग्रह" जो मैंने लेख में इस्तेमाल किया है, जो अर्थशास्त्री और सामाजिक वैज्ञानिक अनुभवजन्य अध्ययनों से कार्य-कारण की विफलता के लिए एक गंभीर खतरे के रूप में मानते हैं। यह आपके सांख्यिकीय मॉडल और कारण को समझने वाले मॉडल के बीच अंतर को संदर्भित करता है । एक संबंधित शब्द "मॉडल विनिर्देशन" है, यह विषय "आपके प्रतिगमन मॉडल को सही ढंग से निर्दिष्ट करने" (सिद्धांत के संबंध में) के महत्व के कारण अर्थमिति में बहुत अधिक पढ़ाया जाता है जब आपका लक्ष्य कारणपूर्ण स्पष्टीकरण होता है। देखसंक्षिप्त विवरण के लिए विशिष्टता पर विकिपीडिया लेख । एक प्रमुख गलत निर्धारण का मुद्दा अंडर-स्पेसिफिकेशन है , जिसे " ओडेबल वैरिएबल बायस" (OVB) कहा जाता है, जहां आप प्रतिगमन से एक व्याख्यात्मक चर को छोड़ देते हैं जो कि होना चाहिए था (सिद्धांत के अनुसार) - यह एक चर है जो आश्रित चर के साथ होता है और कम से कम एक व्याख्यात्मक चर के साथ। इस स्वच्छ विवरण को देखें ) जो बताता है कि इस प्रकार के पूर्वाग्रह के क्या निहितार्थ हैं। एक सिद्धांत के दृष्टिकोण से, OVB मॉडल से अनुमानित कार्य-क्षमता की आपकी क्षमता को नुकसान पहुँचाता है।

मेरे पेपर के परिशिष्ट में व्याख्या करने या भविष्यवाणी करने के लिए? एक उदाहरण है जिसमें दिखाया गया है कि एक अंडरस्क्राइब ("गलत") मॉडल कभी-कभी उच्च भविष्य कहनेवाला शक्ति हो सकता है। लेकिन अब उम्मीद है कि आप देख सकते हैं कि "अच्छे कारणपूर्ण व्याख्यात्मक मॉडल" के लक्ष्य के साथ विरोधाभास क्यों है।


2
मुझे लगता है कि अभी भी भविष्य कहनेवाला बनाम व्याख्यात्मक मॉडल के बारे में बहुत भ्रम है। मैंने एक प्रमुख बीमा कंपनी में एक डेटा वैज्ञानिक के साथ साक्षात्कार किया और पूछा कि क्या वे अपनी टीम में पूर्वानुमान या व्याख्यात्मक मॉडल बनाते हैं। उन्होंने कहा "यह वास्तव में कोई फर्क नहीं पड़ता" - मुझे नहीं लगता कि उन्हें अंतर पता था।
रोबर्टएफ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.