दो चरण मॉडल: हेक्मैन मॉडल (नमूना चयन से निपटने के लिए) और वाद्य चर (अंतर्जात से निपटने के लिए) के बीच अंतर


16

मैं नमूना चयन और एंडोजेनिटी के बीच अंतर के बारे में अपना सिर पाने की कोशिश कर रहा हूं और बदले में हेक्मैन मॉडल (नमूना चयन से निपटने के लिए) वाद्य चर प्रतिगमन (एंडोजेनिटी से निपटने के लिए) से अलग हैं।

क्या यह कहना सही है कि नमूना चयन एंडोजेनिटी का एक विशिष्ट रूप है, जहां अंतर्जात चर का इलाज होने की संभावना है?

इसके अलावा, यह मुझे लगता है कि हेक्मैन मॉडल और IV प्रतिगमन 2-चरण मॉडल हैं, जहां पहले चरण में इलाज किए जाने की संभावना की भविष्यवाणी की जाती है - मुझे लगता है कि उन्हें अनुभवजन्य रूप से, उनके उद्देश्यों, और मान्यताओं के संदर्भ में अलग-अलग होना चाहिए, पर कैसे?

जवाबों:


23

अपने पहले प्रश्न का उत्तर देने के लिए, आप सही हैं कि नमूना चयन एंडोजेनिटी का एक विशिष्ट रूप है (एंडोगेनेटी और सामान्य उपचार की एक अच्छी बुनियादी समीक्षा के लिए एंटोनकिस एट अल। 2010 देखें), हालांकि आप यह कहने में सही नहीं हैं कि इलाज होने की संभावना है। अंतर्जात चर है, क्योंकि यह उपचार चर ("गैर-यादृच्छिक उपचार असाइनमेंट") है - इलाज किए जाने की संभावना के बजाय - जो कि नमूना चयन में अंतर्जात है। याद रखें कि एंडोजेनिटी एक ऐसी स्थिति को संदर्भित करता है, जहां आपने गलत तरीके से कारक एक्स और कारक वाई के बीच एक कारण संबंध की पहचान की है, जब मनाया गया "संबंध" वास्तव में एक और कारक जेड के कारण होता है जो एक्स और वाई दोनों को प्रभावित करता है। एक और तरीका है, एक प्रतिगमन मॉडल दिया। :

yi=β0+β1xi+...+ϵi

एंडोगेनेसी तब होती है जब आपके एक या एक से अधिक भविष्यवाणियों के मॉडल में त्रुटि शब्द से संबंधित होता है। है कि, जब Cov(x,ϵ)0

अंतर्जात के सामान्य कारणों में शामिल हैं:

  1. चर चर (कुछ चीजें जो हम अभी नहीं माप सकते हैं)
    • प्रेरणा / विकल्प
    • क्षमता / प्रतिभा
    • स्व चयन
  2. मापन त्रुटि (हम शामिल करना चाहते हैं , लेकिन हम केवल निरीक्षण एक्स जे * )xjxj
  3. Simultaneity / द्विदिश (5 वर्ष से कम उम्र के बच्चों में, पोषण संबंधी स्थिति संकेतक "उम्र के लिए वजन" और क्या बच्चे को हाल ही में बीमारी थी, के बीच संबंध एक साथ हो सकता है।

विभिन्न प्रकार की समस्याओं के लिए थोड़ा अलग समाधान की आवश्यकता होती है, जो कि IV और हेक्मैन-प्रकार के सुधारों के बीच अंतर होता है। बेशक, इन तरीकों के अंतर्निहित यांत्रिकी में अंतर हैं, लेकिन आधार एक ही है: जो कि एक बहिष्कार प्रतिबंध के माध्यम से आदर्श रूप से, एकांतता प्रतिबंध के माध्यम से आदर्श रूप से हटाने के लिए है, अर्थात IV या चर के मामले में एक या अधिक उपकरण जो चयन को प्रभावित करते हैं या नहीं हेकमैन के मामले में परिणाम।

अपने दूसरे प्रश्न का उत्तर देने के लिए, आपको उन डेटा सीमाओं के प्रकारों में अंतर के बारे में सोचना होगा जिन्होंने इन समाधानों के विकास को जन्म दिया। मुझे लगता है कि वाद्य चर (IV) दृष्टिकोण का उपयोग तब किया जाता है जब एक या एक से अधिक चर अंतर्जात होते हैं, और एंडोजीनिटी को दूर करने के लिए मॉडल में छड़ी करने के लिए बस कोई अच्छा सहारा नहीं होता है, लेकिन सभी टिप्पणियों के लिए सहसंयोजक और परिणाम देखे गए थे। दूसरी ओर, हेक्मैन-प्रकार के सुधार का उपयोग तब किया जाता है जब आपके पास ट्रंकेशन होता है, अर्थात नमूना में उन लोगों के लिए जानकारी नहीं देखी जाती है जहां चयन चर का मूल्य == 0 है।

वाद्य चर (IV) दृष्टिकोण

दो चरण के कम से कम वर्गों (2SLS) अनुमानक के साथ IV प्रतिगमन के लिए क्लासिक अर्थमितीय उदाहरण के बारे में सोचो: कमाई पर शिक्षा का प्रभाव।

(1)Earningsi=β0+β1OwnEdi+ϵi

यहां शैक्षिक उपलब्धि का स्तर अंतर्जात है क्योंकि यह आंशिक रूप से व्यक्ति की प्रेरणा और क्षमता से निर्धारित होता है, दोनों एक व्यक्ति की कमाई को भी प्रभावित करते हैं। प्रेरणा और योग्यता आमतौर पर घरेलू या आर्थिक सर्वेक्षण में नहीं मापी जाती है। समीकरण 1 में स्पष्ट रूप से प्रेरणा और क्षमता शामिल करने के लिए लिखा जा सकता है:

(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi

चूंकि और बी आई एल वास्तव में मनाया नहीं गया है, समीकरण 2 को इस प्रकार लिखा जा सकता है:MotivAbil

(3),Earningsi=β0+β1OwnEdi+ui

जहां (4)।ui=β2Motivi+β3Abili+ϵi

इसलिए, OLS के माध्यम से कमाई पर शिक्षा के प्रभाव का एक मामूली अनुमान पक्षपाती होगा। यह हिस्सा आप पहले से ही जानते हैं।

अतीत में, लोगों ने माता-पिता की शिक्षा का उपयोग विषय के शिक्षा के स्तर के लिए उपकरणों के रूप में किया है, क्योंकि वे एक वैध साधन ( ) के लिए 3 आवश्यकताओं को फिट करते हैं :z

  1. अंतर्जात भविष्यवक्ता से संबंधित होना चाहिए - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) 0 ,z𝐶𝑜𝑣(𝑧,𝑥)0
  2. सीधे परिणाम से संबंधित नहीं किया जा सकता - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 , औरz𝐶𝑜𝑣(𝑧,𝑦)=0
  3. , अप्रचलित (यू) विशेषता से संबंधित नहीं हो सकता है (अर्थात, z बहिर्जात है) - the the 𝑧 ( 𝑜 , 𝑢 ) = 0zz𝐶𝑜𝑣(𝑧,𝑢)=0

आप (विषय की शिक्षा का अनुमान है जब ) माता-पिता की शिक्षा का उपयोग कर ( एम एम डी और डी एक डी ) पहले चरण में और (शिक्षा की भविष्यवाणी मान का उपयोग ^ डब्ल्यू एन डी अनुमान के) एक r n मैं n रों दूसरे चरण में, आप (बहुत साधारण शब्दों में) कर रहे हैं, का आकलन एक r n मैं n रों के भाग पर आधारितOwnEdMomEdDadEdOwnEd^EarningsEarnings जो प्रेरणा / क्षमता द्वारा निर्धारित नहीं है।OwnEd

हेकमैन-प्रकार सुधार

जैसा कि हमने पहले स्थापित किया है, गैर-यादृच्छिक नमूना चयन एक विशिष्ट प्रकार की एंडोजेनिटी है। इस मामले में, छोड़ा गया चर है कि कैसे लोगों को नमूने में चुना गया था। आमतौर पर, जब आपको नमूना चयन समस्या होती है, तो आपका परिणाम केवल उन लोगों के लिए मनाया जाता है जिनके लिए नमूना चयन होता है variable == 1। इस समस्या को "आकस्मिक ट्रंकेशन" के रूप में भी जाना जाता है, और समाधान को सामान्यतः हेक्मैन सुधार के रूप में जाना जाता है। अर्थमिति में क्लासिक उदाहरण विवाहित महिलाओं का वेतन प्रस्ताव है:

(5 )Wagei=β0+β1Educi+β2Experiencei+β3Experiencei2+ϵi

यहाँ समस्या यह है कि केवल उन महिलाओं के लिए मनाया जाता है, जो मजदूरी के लिए काम करती हैं, इसलिए एक भोला-भाला व्यक्ति पक्षपाती होगा, क्योंकि हम नहीं जानते कि जो लोग श्रम बल में भाग नहीं लेते हैं, उनके लिए क्या प्रस्ताव है, चयन चर एस । समीकरण 5 को यह दिखाने के लिए फिर से लिखा जा सकता है कि यह दो अव्यक्त मॉडल द्वारा संयुक्त रूप से निर्धारित किया गया है:Wages

(6)Wagei=Xβ+ϵi

(7)LaborForcei=Zγ+νi

यही कारण है, आईएफएफ एल एक आर एफ आर सी * मैं > 0 और डब्ल्यू एक जी = आईएफएफ एल एक आर एफ आर सी * मैं0Wage=WageiLaborForcei>0Wage=.LaborForcei0

यहाँ समाधान इसलिए एक PROBIT मॉडल और बहिष्कार प्रतिबंध (मान्य साधन के लिए एक ही मापदंड यहाँ लागू) का उपयोग करते हुए पहले चरण में श्रम शक्ति में भागीदारी की संभावना की भविष्यवाणी करने, भविष्यवाणी मिल्स उलटा अनुपात (गणना है λ प्रत्येक अवलोकन के लिए) , और दूसरे चरण में, का उपयोग करते हुए मजदूरी प्रस्ताव का अनुमान λ मॉडल में एक कारक के रूप में (Wooldridge 2009)। तो पर गुणांक λ सांख्यिकीय शून्य के बराबर है, वहाँ नमूना चयन (endogeneity) का कोई सबूत नहीं है, और OLS परिणाम संगत कर रहे हैं और प्रस्तुत किया जा सकता। तो पर गुणांक λλ^λ^λ^λ^ सांख्यिकीय रूप से शून्य से काफी अलग है, आपको सही मॉडल से गुणांक की रिपोर्ट करने की आवश्यकता होगी।

संदर्भ

  1. एंटोनकिस, जॉन, सैमुअल बेंधन, फिलिप जैक्वार्ट और राफेल लाइव। 2010. "मेकिंग काउंसल क्लेम: ए रिव्यू एंड रिकमेंडेशन्स। " लीडरशिप क्वार्टरली 21 (6): 1086–1120। doi: 10.1016 / j.leaqua.2010.10.010।
  2. वोल्ड्रिज, जेफरी एम। 2009. परिचयात्मक अर्थमिति: एक आधुनिक दृष्टिकोण। 4 वां संस्करण। मेसन, ओह, यूएसए: साउथ-वेस्टर्न, सेंगेज लर्निंग।

1
हेकमैन-प्रकार के सुधार में, प्रत्येक अवलोकन के लिए व्युत्क्रम मिल्स अनुपात मानों की व्याख्या कैसे करें? क्या यह कहता है कि ऐसे लोगों की संख्या जो गैर-कार्यशील आबादी से एक निश्चित समय पर काम करेंगे?
क्वरिक

2

विशिष्ट हेकमैन नमूना चयन मॉडल (जहां केवल एक नमूना देखा गया है) और स्व-चयन के लिए हेक्मैन-प्रकार सुधार के बीच एक अंतर करना चाहिए , जो उस मामले के लिए भी काम कर सकता है जहां दो नमूने देखे गए हैं। उत्तरार्द्ध को नियंत्रण फ़ंक्शन दृष्टिकोण के रूप में संदर्भित किया जाता है , और आपके दूसरे चरण में शामिल होने के लिए मात्राओं को एक अवधि के लिए नियंत्रित किया जाता है।

हमें एक मानक डोज चर चर, एक उपकरण Z के साथ एक मानक मामला है:

Y=β+β1D+ϵ
D=γ+γ1Z+u

दोनों दृष्टिकोण एक पहले चरण (डी ऑन जेड) को चलाते हैं। IV एक मानक OLS का उपयोग करता है (भले ही D एक डमी हो) Heckman एक प्रोबेट का उपयोग करता है। लेकिन इसके अलावा, मुख्य अंतर इस तरह है कि वे इस पहले चरण का मुख्य समीकरण में उपयोग करते हैं:

  • ϵY=β+β1D^+ϵ
  • Y=β+β1D+β2[λ(D^)λ(D^)]+ϵ where λ() is the inverse Mills ratio

The advantage of the Heckman procedure is that it provides a direct test for endogeneity: the coefficient β2. On the other side, the Heckman procedure relies on the assumption of joint normality of the errors, while the IV does not make any such assumption.

So you have the standard story that with normal errors, the control function will be more efficient (especially if ones uses the MLE instead of the two-step shown here) than the IV, but that if the assumption does not hold, IV would be better. As researchers have become more suspicious about the assumption of normality, the IV is used more often.


0

From Heckman, Urzua and Vytlacil (2006):

Example of selection bias: Consider the effects of a policy on the outcome of a country (e.g. GDP). If the countries that would have done well in terms of the unobservable even in the absence of the policy are the ones that adopt the policy, then the OLS estimates are biased.

Two main approaches have been adopted to solve this problem: (a) selection models and (b) instrumental variable models.

The selection approach models levels of conditional means. The IV approach models the slopes of the conditional means. IV does not identify the constants estimated in selection models.

The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.

When using control functions with curvature assumptions, one does not require an exclusion restriction (does not require ZX) in the selection model. By assuming a functional form for the distribution of the error terms, one rules out the possibility that the conditional mean of the outcome equation equals the conditional control function, and thus you can correct for selection without exclusion restrictions. See also Heckman and Navarro (2004).

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.