हम उपकरणों के अभाव में अवलोकन डेटा पर मॉडल के बारे में क्या कह सकते हैं?


10

मैंने अतीत में मुझसे कई ऐसे प्रश्न पूछे हैं, जो प्रकाशित कागजात से संबंधित हैं, जो कई क्षेत्रों में पंजीकृत हैं (और संबंधित मॉडल, जैसे पैनल मॉडल या GLM) अवलोकन डेटा पर उपयोग किए जाते हैं (अर्थात नियंत्रित नियंत्रण द्वारा उत्पादित डेटा नहीं। , कई मामलों में - लेकिन हमेशा नहीं - समय के साथ देखे गए डेटा) लेकिन जहां वाद्य चर पेश करने का कोई प्रयास नहीं किया जाता है।

मैंने प्रतिक्रिया में कई आलोचनाएँ की हैं (जैसे कि महत्वपूर्ण चर गायब होने पर पूर्वाग्रह के साथ मुद्दों का वर्णन करने के रूप में) लेकिन चूंकि यहां अन्य लोगों को इस विषय पर मुझसे अधिक संदेह नहीं होगा, मुझे लगा कि मैं पूछूंगा:

  1. रिश्तों के बारे में निष्कर्ष पर आने की कोशिश करने के प्रमुख मुद्दे / परिणाम (विशेषकर, लेकिन कारण निष्कर्ष तक सीमित नहीं) ऐसी स्थितियों में क्या हैं?

  2. क्या अध्ययन के साथ कुछ भी उपयोगी हो सकता है जो उपकरणों के अभाव में ऐसे मॉडलों को फिट करता है?

  3. इस तरह के मॉडलिंग के साथ मुद्दों पर कुछ अच्छे संदर्भ (किताबें या कागजात) हैं (अधिमानतः परिणामों की स्पष्ट गैर-तकनीकी प्रेरणा के साथ, क्योंकि आमतौर पर लोग पूछते हैं कि पृष्ठभूमि की एक किस्म है, कुछ बिना अधिक आँकड़े) जो लोग समीक्षकों को संदर्भित कर सकते हैं। एक पेपर? साधनों के साथ सावधानियों / समस्याओं की चर्चा भी उपयोगी होगी।

(इंस्ट्रूमेंटल वैरिएबल पर मूल संदर्भ यहां दिए गए हैं , हालांकि अगर आपको वहां जोड़ना है, तो यह भी उपयोगी होगा।)

साधनों की खोज और उपयोग के अच्छे व्यावहारिक उदाहरणों की ओर संकेत एक बोनस होगा, लेकिन इस प्रश्न के लिए केंद्रीय नहीं है।

[मैं दूसरों को यहाँ किसी भी अच्छे उत्तर की ओर इशारा करूँगा क्योंकि ऐसे प्रश्न मेरे पास आते हैं। मैं एक या दो उदाहरण जोड़ सकता हूं जैसा कि मैं उन्हें प्राप्त करता हूं।]

जवाबों:


8

इसलिए मेरे क्षेत्र का अधिकांश हिस्सा (हालांकि अधिकांश भाग में मैं काम नहीं करता) केवल इस बात से संबंधित है - अवलोकन डेटा के लिए GLM- प्रकार के मॉडल की फिटिंग। अधिकांश भाग के लिए, इंस्ट्रूमेंटल वैरिएबल एक दुर्लभ वस्तु है, या तो तकनीक के साथ परिचित की कमी के कारण या, जैसा कि महत्वपूर्ण है, एक अच्छे साधन की कमी। अपने प्रश्नों को क्रम में संबोधित करने के लिए:

  1. मुख्य मुद्दा यह है कि निश्चित रूप से, एक अव्याकृत चर द्वारा अवशिष्ट कन्फ्यूजन का कुछ प्रकार जो ब्याज के जोखिम और परिणाम दोनों से जुड़ा हुआ है। सादा भाषा संस्करण यह है कि आपका उत्तर गलत हो सकता है, लेकिन जरूरी नहीं कि आपको यह पता हो कि कैसे या क्यों। उस जानकारी पर किए गए निर्णय (जैसे कि किसी विशेष उपचार का उपयोग करना है या नहीं, चाहे वातावरण में एक्स चीज खतरनाक हो, आदि) गलत जानकारी का उपयोग करके किए गए निर्णय हैं।

  2. मैं दावा करता हूं कि इसका उत्तर हां में है, क्योंकि अधिकांश भाग के लिए, ये अध्ययन कुछ ऐसा करने की कोशिश कर रहे हैं जहां जरूरी नहीं कि एक अच्छा साधन हो, या जहां यादृच्छिकरण असंभव हो। इसलिए जब यह नीचे आता है, तो विकल्प "बस अनुमान" है। ये मॉडल हैं, अगर और कुछ नहीं, तो हमारे विचारों की औपचारिकता और उत्तर के करीब पहुंचने का ठोस प्रयास, और इनसे जूझना आसान है।

उदाहरण के लिए, आप पूछ सकते हैं कि अपने उत्तर को गुणात्मक रूप से बदलने के लिए पूर्वाग्रह कितना गंभीर होगा (यानी "हां, एक्स आपके लिए बुरा है ..."), और आकलन करें कि क्या आपको लगता है कि यह उचित नहीं है एक अज्ञात कारक है उस ताकत के कारण जो आपके डेटा से बाहर है।

उदाहरण के लिए, गर्भाशय ग्रीवा के कैंसर से एचपीवी संक्रमण बेहद मजबूती से जुड़ा हुआ है, यह एक महत्वपूर्ण खोज है, और एक असम्पीडित कारक की ताकत जो पूर्वाग्रह करेगी कि अशक्त होने के लिए सभी तरह से मजबूत होना होगा।

इसके अलावा, यह ध्यान दिया जाना चाहिए कि एक उपकरण इसे ठीक नहीं करता है - वे केवल अनुपस्थित कुछ संघों को अनुपस्थित करते हैं, और यहां तक ​​कि यादृच्छिक परीक्षण समस्याओं से ग्रस्त हैं (उपचार और नियंत्रण के बीच अंतर ड्रॉपआउट, किसी भी व्यवहार परिवर्तन के बाद यादृच्छिककरण, वास्तविक के लिए सामान्यता) लक्ष्य जनसंख्या) जो थोड़ा सा भी चमक जाता है।

  1. रोथमैन, ग्रीनलैंड और लैश ने आधुनिक महामारी विज्ञान का नवीनतम संस्करण लिखा है, जो अनिवार्य रूप से इन सबसे अच्छे तरीके से करने की कोशिश करने के लिए समर्पित है।

8

फोमाइट द्वारा दिखाए गए महामारी विज्ञान के पक्ष से दृश्य के विपरीत, इंस्ट्रूमेंटल वैरिएबल अर्थशास्त्र में एक आवश्यक टूलकिट है जिसे काफी पहले सिखाया जाता है। इसका कारण यह है कि आजकल आर्थिक अनुसंधान में कारण सवालों के जवाब देने की कोशिश पर बहुत अधिक ध्यान दिया जाता है जो एक ऐसे विस्तार तक जाता है जहाँ मात्र सहसंबंधों को भी निर्बाध माना जाता है। मुख्य सीमा यह है कि अर्थशास्त्र एक ऐसा क्षेत्र है जिसमें यादृच्छिक प्रयोगों को करना स्वाभाविक है। अगर मैं यह जानना चाहता हूं कि एक बच्चे की लंबे समय तक शैक्षिक परिणामों पर प्रारंभिक माता-पिता की मृत्यु का क्या प्रभाव होता है, तो ज्यादातर लोग यादृच्छिक नियंत्रण निशान के माध्यम से ऐसा करने पर आपत्ति करेंगे - और ठीक ही। एक एमआईटी कोर्स से यह हैंडआउट पेज 3-5 पर अन्य मुद्दों पर प्रयोगों के साथ है।

प्रत्येक बिंदु को बदले में संबोधित करने के लिए:

  1. जिस प्रश्न का उत्तर दिया जाना है, उसके आधार पर यह केवल छोड़े गए चर नहीं हैं जो गैर-प्रायोगिक तरीकों के उपयोग के बिना अवलोकन डेटा पर विश्लेषण को अमान्य कर सकते हैं। चयन समस्याएं, माप त्रुटि, रिवर्स कार्यशीलता, या एक साथ समानता समान रूप से महत्वपूर्ण हो सकती है। मुख्य मुद्दा यह है कि डेटा विश्लेषक को इस सेटिंग की सीमाओं के बारे में पता होना चाहिए। यह मुख्य रूप से व्यावसायिक मामले को संदर्भित करता है क्योंकि एक शैक्षिक परिदृश्य में यह जल्दी से उजागर होगा। कभी-कभी मैं बाजार विश्लेषकों को देखता हूं जो एक ग्राहक को सूचित करने के लिए मूल्य लोच का अनुमान लगाना चाहते हैं (उदाहरण के लिए, अगर हम कीमतों में वृद्धि करते हैं तो मांग में कितनी कमी आती है)एक्स%), इसलिए वे एक मांग समीकरण का अनुमान लगाते हैं और पूरी तरह से भूल जाते हैं या इस तथ्य को अनदेखा करते हैं कि मांग और आपूर्ति एक साथ निर्धारित की जाती है, और यह कि दूसरे को प्रभावित करता है। इसलिए परिणाम शोधकर्ता / डेटा विश्लेषक की जागरूकता पर डेटा की सीमाओं के बजाय डेटा की सीमाओं के संबंध में बहुत अधिक निर्भर करते हैं, लेकिन परिणामी परिणाम कुछ तुच्छ से लेकर विस्तार तक हो सकते हैं जहां वे लोगों के जीवन को नकारात्मक रूप से प्रभावित करते हैं।
  2. सहसंबंध दिखाना कभी-कभी उपयोगी हो सकता है, यह वास्तव में प्रश्न पर निर्भर करता है। जब एक कारण प्रभाव की तलाश होती है तो यह पर्याप्त होता है यदि आपके पास एक प्राकृतिक प्रयोग है। चिली में जनगणना के आंकड़े अवलोकन योग्य हो सकते हैं, लेकिन यदि आप जानना चाहते हैं कि पिछले भूकंप ने शैक्षिक प्राप्ति को कैसे प्रभावित किया (जहां भूकंप निश्चित रूप से बहिर्जात हैं) तो अवलोकन संबंधी डेटा भी एक कारण सवाल का जवाब देने के लिए ठीक है।
    उपकरणों के बिना एंडोजेनिटी का आकलन करने के लिए कुछ हद तक संभव है (उपरोक्त हैंडआउट में पृष्ठ 9 देखें, 'छोड़े गए चर पूर्वाग्रह की सीमा का अनुमान')। एक द्विआधारी गैर-प्रयोगात्मक उपचारडीमैंआप इस उपचार के प्रभाव की गणना कर सकते हैं, अप्राप्य वस्तुओं के लिए भी ऐसा ही कर सकते हैं और पूछ सकते हैं कि प्रेक्षित उपचार प्रभाव को स्पष्ट करने के लिए अपॉब्सबॉर्बल्स में शिफ्ट कितनी बड़ी होनी चाहिए। यदि अप्राप्य शिफ्ट बहुत बड़ी होनी चाहिए तो हम अपने निष्कर्षों के प्रति थोड़ा अधिक विश्वसनीय हो सकते हैं। इसके लिए संदर्भ एल्टनजी, एल्डर और टेबर (2000) हैं
  3. संभवत: कोई भी लागू अर्थशास्त्री एनग्रिस्ट और पिस्चके (2009) "ज्यादातर हानिकारक अर्थमिति" की सिफारिश करेगा । भले ही यह पुस्तक मुख्य रूप से स्नातक छात्रों और शोधकर्ताओं के लिए अभिप्रेत है, लेकिन यह संभव है कि गणित के कुछ हिस्सों को छोड़ दें और बस अंतर्ज्ञान प्राप्त करें जो अच्छी तरह से समझाया गया है। वे पहले एक प्रायोगिक सेटिंग के विचार का परिचय देते हैं, फिर ओएलएस की ओर जाते हैं और छोड़े गए चर, समकालिकता, चयन इत्यादि से एकरूपता के संबंध में इसकी सीमाएँ और फिर लागू साहित्य से उदाहरणों के एक अच्छे हिस्से के साथ बड़े पैमाने पर वाद्य चर पर चर्चा करते हैं। वे वाद्य यंत्रों के साथ समस्याओं पर भी चर्चा करते हैं जैसे कि कमजोर उपकरण या उनमें से कई का उपयोग करना। एनग्रिस्ट और क्रूगर (2001) वाद्य चर और संभावित नुकसान की एक गैर-तकनीकी अवलोकन भी प्रदान करते हैं, और उनके पास एक तालिका भी होती है जो कई अध्ययनों और उनके उपकरणों का सारांश प्रस्तुत करती है।

संभवतः यह सब एक विशिष्ट जवाब की तुलना में बहुत बड़ा था जो यहां होना चाहिए लेकिन सवाल बहुत व्यापक है। मैं सिर्फ इस बात पर जोर देना चाहूंगा कि इंस्ट्रुमेंटल वैरिएबल (जो अक्सर ढूंढना मुश्किल होता है) हमारी जेब में एकमात्र बुलेट नहीं है। अवलोकन डेटा से भिन्न प्रभावों को उजागर करने के लिए अन्य गैर-प्रयोगात्मक विधियाँ हैं जैसे अंतर-अंतर, प्रतिगमन विरूपता डिज़ाइन, मिलान, या निश्चित प्रभाव प्रतिगमन (यदि हमारे confounders समय-अपरिवर्तनीय हैं)। इन सभी पर एंग्रीस्ट और पिस्के (2009) में चर्चा की गई है और शुरुआत में इसे हैंडआउट में जोड़ा गया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.