सिम्पसन के विरोधाभास को समझना: सेक्स और ऊंचाई पर आय प्राप्त करने के साथ एंड्रयू जेलमैन का उदाहरण


22

एंड्रयू जेलमैन अपने हाल के ब्लॉग पोस्टों में से एक में कहते हैं:

  1. मुझे नहीं लगता कि सिम्पसन के विरोधाभास के लिए जवाबी कार्रवाई या संभावित परिणाम आवश्यक हैं। मैं यह कहता हूं क्योंकि कोई भी सिम्पसन के विरोधाभास को उन चरों के साथ स्थापित कर सकता है जिन्हें हेरफेर नहीं किया जा सकता है, या जिनके लिए जोड़तोड़ सीधे हित के नहीं हैं।

  2. सिम्पसन का विरोधाभास एक अधिक सामान्य मुद्दे का हिस्सा है जो प्रतिगमन coefs को बदल देता है यदि आप अधिक भविष्यवाणियों को जोड़ते हैं, तो संकेत की फ़्लिपिंग वास्तव में आवश्यक नहीं है।

यहाँ एक उदाहरण है जो मैं अपने शिक्षण में उपयोग करता हूँ जो दोनों बिंदुओं को दिखाता है:

मैं सेक्स और ऊंचाई से आय का अनुमान लगाने वाला एक प्रतिगमन चला सकता हूं। मुझे पता है कि सेक्स का योगफल $ 10,000 है (अर्थात, एक समान ऊंचाई के पुरुष और महिला की तुलना, औसतन पुरुष $ 10,000 अधिक बना देगा ) और ऊंचाई का गुणांक $ 500 है (यानी, दो पुरुषों या दो महिलाओं की तुलना अलग-अलग ऊँचाइयों पर, औसतन लंबा व्यक्ति $ 500 प्रति इंच की ऊँचाई बनाएगा )।

मैं इन coefs की व्याख्या कैसे कर सकता हूं? मुझे लगता है कि ऊँचाई के आघात की व्याख्या करना आसान है (एक ही लिंग के दो लोगों की अलग-अलग ऊँचाइयों पर तुलना करना आसान है), वास्तव में यह किसी भी तरह "गलत" होगा , सेक्स के लिए नियंत्रण के बिना ऊंचाई पर फिर से हासिल करने के लिए, जितना कच्चा पुरुषों और महिलाओं के बीच अंतर होने से छोटे और लंबे लोगों के बीच अंतर "समझाया" जा सकता है। लेकिन ऊपर दिए गए मॉडल में सेक्स की आड़ में व्याख्या करना बहुत मुश्किल लगता है: एक पुरुष और एक महिला की तुलना करना, जो दोनों 66 इंच लंबे हैं, उदाहरण के लिए? यह एक लंबी महिला के साथ एक छोटे आदमी की तुलना होगी। यह सब तर्क अस्पष्ट कारण लगता है, लेकिन मुझे नहीं लगता कि यह संभावित परिणामों का उपयोग करने के बारे में सोचने के लिए समझ में आता है।

मैंने इस पर विचार किया (और यहां तक ​​कि पोस्ट पर टिप्पणी भी की) और लगता है कि कुछ ऐसा है जो यहां अधिक स्पष्टता के साथ समझा जाता है।

लिंग की व्याख्या पर यह ठीक है। लेकिन मैं यह नहीं देखता कि एक छोटे आदमी और एक लंबी महिला की तुलना करने के पीछे क्या समस्या है। यहाँ मेरी बात है: वास्तव में यह और भी अधिक समझ में आता है (इस धारणा को देखते हुए कि पुरुष औसतन लम्बे होते हैं)। आप एक 'छोटे आदमी' और एक 'छोटी' महिला की तुलना एक ही कारण से नहीं कर सकते, कि आय में अंतर को ऊंचाइयों के अंतर से कुछ हिस्से में समझाया गया है। वही लम्बे पुरुषों और लम्बी महिलाओं के लिए जाता है और उससे भी ज्यादा छोटी महिलाओं और लम्बे पुरुषों के लिए (जो आगे सवाल से बाहर है, इसलिए बोलने के लिए)। तो मूल रूप से ऊंचाई का प्रभाव केवल उस स्थिति में समाप्त हो जाता है जब छोटे पुरुषों और लंबी महिलाओं की तुलना की जाती है (और यह लिंग पर गुणांक की व्याख्या करने में मदद करता है)। क्या यह लोकप्रिय मिलान मॉडल के पीछे समान अंतर्निहित अवधारणाओं पर घंटी नहीं बजाता है?

सिम्पसन के विरोधाभास के पीछे विचार यह है कि जनसंख्या प्रभाव उप-समूह वार प्रभाव (एस) से अलग हो सकता है। यह उनके बिंदु 2 से संबंधित कुछ अर्थों में है और यह तथ्य कि वह स्वीकार करते हैं कि ऊंचाई को अकेले के लिए नियंत्रित नहीं किया जाना चाहिए (जिसे हम छोड़े गए चर पूर्वाग्रह कहते हैं)। लेकिन मैं इसे लिंग पर गुणांक के विवाद से संबंधित नहीं कर सका।

शायद आप इसे और अधिक स्पष्ट रूप से व्यक्त करने में सक्षम हो सकते हैं? या मेरी समझ पर टिप्पणी करें?


क्रॉस सत्यापन जनसंख्या के यादृच्छिक सबसेट पर दिखता है, न्यूनतम ओवर-फिट और सर्वश्रेष्ठ सामान्यीकरण की कोशिश कर रहा है।
एंग्रीस्टूडेंट -

1
अगर मैं आपकी चिंताओं को सही ढंग से समझता हूं तो मुझे लगता है कि आप भगवान के विरोधाभास को देखकर भी लाभान्वित हो सकते हैं। @article {lord67, author = {Lord, FM}, title = {समूह तुलनाओं की व्याख्या में एक विरोधाभास}}, जर्नल = {साइकोलॉजिकल बुलेटिन}, वर्ष = {1967}, वॉल्यूम = {68}, पेज = 304- -305}, कीवर्ड = {परिवर्तन स्कोर}} @ कार्टिकल {लॉर्ड69, लेखक = {लॉर्ड, एफएम}, शीर्षक = {सांख्यिकीय समूहों की तुलना करते समय सांख्यिकीय समायोजन}, जर्नल = {साइकोलॉजिकल बुलेटिन}, वर्ष = {1969, वॉल्यूम = {72}, पेज = {336--337}, कीवर्ड्स = {चेंज स्कोर}}
mdewey

1
जूडिया पर्ल ने हाल ही में सिम्पसन के विरोधाभास पर एक और पोस्ट किया । मुझे पूरा यकीन है कि वह गेलमैन की प्रस्तुति से सहमत नहीं है। एक बार के लिए, दूसरा बिंदु "विरोधाभास" नहीं है। एक गणितीय तथ्य यह है कि आप जिस स्थिति में हैं, उसके परिणामस्वरूप अनुमानों का उलटा। जब यह संभावित रूप से विरोधाभासी हो जाता है तो आप दोनों अनुमानों का कारण व्याख्या करते हैं। दूसरा, यह प्रतिबंध केवल छेड़छाड़ का कारण क्यों बनता है?
एनआरएच

जवाबों:


9

मुझे आपके प्रश्न पर पूरा यकीन नहीं है , लेकिन उदाहरण के मॉडल में उनके दावों और आपकी उलझन पर टिप्पणी कर सकते हैं।

एंड्रयू काफी स्पष्ट नहीं है अगर वैज्ञानिक रुचि ऊंचाई समायोजित सेक्स-आय संघ या सेक्स समायोजित ऊंचाई-आय संघ में निहित है । एक कारण मॉडल फ्रेमवर्क में सेक्स ऊंचाई का कारण बनता है लेकिन ऊंचाई सेक्स का कारण नहीं बनती है । इसलिए यदि हम सेक्स के प्रभाव को चाहते हैं, तो ऊंचाई के लिए समायोजन करना मध्यस्थ पूर्वाग्रह (संभवतः कोलाइडर पूर्वाग्रह भी पेश करेगा , क्योंकि अमीर लोग लम्बे होते हैं!)। जब मैं दूसरे की व्याख्या करने वाले अनुप्रयुक्त अनुसंधान को देखता हूं तो मुझे यह भ्रामक और मजेदार लगता है"कोवरिएट्स" (कन्फ़्यूडर और सटीक चर) जो एक मॉडल में शामिल हैं। वे बकवास कर रहे हैं, लेकिन तुलना करने के लिए पर्याप्त स्तरीकरण प्रदान करना आवश्यक है। ऊंचाई के लिए समायोजन, यदि आप आय में सेक्स आधारित मतभेदों पर निष्कर्ष के इच्छुक हैं, तो गलत काम करना है।

मैं सहमत हूँ कि सिम्पसन के विरोधाभास को समझाने के लिए प्रतिवाद आवश्यक नहीं है। वे केवल डेटा के लिए एक विशेषता आंतरिक हो सकते हैं। मुझे लगता है कि क्रूड और एडजस्टेड आरआर, दोनों कुछ अर्थों में सही हैं, बिना कारण के। यह अधिक समस्याग्रस्त है, निश्चित रूप से, जब उद्देश्य कारण विश्लेषण है, और अतिवृद्धि गैर-ढहने की समस्याओं (जो एक OR को फुलाती है) और अपर्याप्त नमूना आकार का खुलासा करती है।

पाठकों के लिए एक अनुस्मारक के रूप में: सिम्पसन का विरोधाभास एक बहुत विशिष्ट घटना है जो एक उदाहरण को संदर्भित करता है जिसमें एक संघटित चर के लिए नियंत्रित करने के बाद एक एसोसिएशन दिशा को प्रवाहित करता है। बर्कले प्रवेश डेटा प्रेरक उदाहरण था। वहां, कच्चे आरआर ने दिखाया कि महिलाओं को बर्कले के लिए स्वीकार किए जाने की संभावना कम थी। हालांकि, एक बार विभागों द्वारा स्तरीकृत होने के बाद , आरआर ने दिखाया कि महिलाओं को हर एक विभाग में स्वीकार किए जाने की अधिक संभावना थी । वे सिर्फ उन कठिन विभागों पर लागू होने की संभावना रखते थे जो कई लोगों को अस्वीकार कर देते थे।

अब कारण निष्कर्ष सिद्धांत में, हम गर्भ धारण करने के लिए तैयार होंगे कि विभाग ने लिंग के कारणों पर लागू किया। लिंग आंतरिक सही है? खैर, हाँ और नहीं। Miettenen ऐसी समस्याओं के लिए एक "अध्ययन आधार" दृष्टिकोण के लिए तर्क देता है: जनसंख्या कौन है? यह सभी योग्य छात्र नहीं है, यह वही है जो विशेष रूप से बर्कले पर लागू होता है। अधिक प्रतिस्पर्धी विभागों ने बर्कले में आवेदन करने के लिए महिलाओं को आकर्षित किया है जब उन्होंने अन्यथा आवेदन नहीं किया होगा। विस्तार करने के लिए: एक महिला जो गहरा बुद्धिमान है, इंजीनियरिंग कार्यक्रम में सबसे अच्छा, कहना चाहती है। यदि बर्कले के पास एक महान इंजीनियरिंग कार्यक्रम नहीं था, तो वह बर्कले के लिए वैसे भी लागू नहीं होता था, उसने एमआईटी या कैलपोली के लिए आवेदन किया होता। तो उस प्रकाश में, "आवेदन करने वाले छात्र" आबादी, विभाग लिंग का कारण बनता है और एक कन्फ़्यूज़न है। (कैविएट: मैं एक पहला जीन कॉलेज छात्र हूं, इसलिए मुझे इस बारे में ज्यादा जानकारी नहीं है कि कौन से कार्यक्रम प्रसिद्ध हैं)।

तो हम इस डेटा को कैसे सारांशित करते हैं? यह सच है कि बर्कले एक ऐसे व्यक्ति को स्वीकार करने की संभावना रखते थे जो एक महिला की तुलना में आवेदन करता है। और यह सच है कि बर्कले के विभागों में पुरुषों की तुलना में महिलाओं को स्वीकार करने की अधिक संभावना थी। क्रूड और स्तरीकृत आरआर गैर-कारण होने पर भी समझदार उपाय हैं। यह रेखांकित करता है कि सांख्यिकीविदों के रूप में हमारे शब्दों के साथ सटीक होना कितना महत्वपूर्ण है (विनम्र लेखक खुद को दूरस्थ रूप से सटीक नहीं मानता है)।

कॉन्फाउंडिंग गैर-ढहने से अलग एक घटना है, लोप किए गए वैरिएबल पूर्वाग्रह का एक और रूप है, लेकिन एक जिसे अनुमानों पर सैन्य प्रभाव उत्पन्न करने के लिए जाना जाता है। लॉजिस्टिक रिग्रेशन के विपरीत, गैर-कोलेप्सिबिलीटी रैखिक रिग्रेशन में पूर्वाग्रह पैदा नहीं करता है और जेलमैन के उदाहरण में एक निरंतरता के विचार को अधिक अच्छी तरह से वर्णित किया जाना चाहिए था।

अपने सेक्स / ऊंचाई समायोजित आय मॉडल में सेक्स गुणांक के एंड्रयू की व्याख्या से मॉडल की मान्यताओं की प्रकृति का पता चलता है: रैखिकता की धारणा। वास्तव में रैखिक मॉडल में, पुरुषों और महिलाओं के बीच ऐसी तुलना सक्षम होती है क्योंकि एक विशिष्ट महिला के लिए, हम भविष्यवाणी कर सकते हैंएक समान ऊंचाई पुरुष ने अर्जित की हो सकती है, भले ही वह मनाया न गया हो। यह भी मामला है अगर कोई प्रभाव संशोधन की अनुमति देता है, ताकि महिलाओं में प्रवृत्ति का ढलान पुरुषों की तुलना में अलग हो। दूसरी ओर, मुझे नहीं लगता कि यह एक ही ऊंचाई के पुरुषों और महिलाओं को गर्भ धारण करने के लिए इतना पागल है, 66 इंच वास्तव में एक लंबी महिला और छोटा आदमी होगा। सकल स्थूलता के बजाय यह मेरे लिए एक हल्का प्रक्षेपण है। इसके अलावा, चूंकि मॉडल मान्यताओं को स्पष्ट रूप से कहा जा सकता है, यह पाठकों को यह समझने में मदद करता है कि सेक्स स्तरीकृत आय-ऊंचाई एसोसिएशन जानकारी को उधार लेता है जो कि बीच में उधार ली गई है या औसत हैपुरुषों और महिलाओं के नमूने। यदि इस तरह की संगति आक्षेप की वस्तु थी, तो बयाना सांख्यिकीविद् स्पष्ट रूप से प्रभाव संशोधन की संभावना पर विचार करेंगे।


2
बड़ी चर्चा है। एक सांख्यिकीविद् के रूप में, यह मुझे कोई अंत नहीं है जब लोग एक अध्ययन के परिणामों के बारे में बात करते हैं, लेकिन यह सुनिश्चित नहीं है कि वे सीमांत या सशर्त प्रभावों के बारे में बात कर रहे हैं।
क्लिफ एबी

1

"उदाहरण के लिए, एक पुरुष और एक महिला की तुलना क्यों की जाती है, जो दोनों 66 इंच लंबे होते हैं? यह एक लंबी लड़की के साथ एक छोटे आदमी की तुलना होगी "

मॉडल मानता है कि आय लिंग और ऊंचाई पर निर्भर करती है। हालांकि, जिस तरह से उच्च आय उत्पन्न होती है, वह पुरुषों और महिलाओं के लिए समान नहीं हो सकती है। महिलाओं को ऊंचाई पर "पर्याप्त" माना जा सकता है, जिसके लिए एक आदमी को अभी भी छोटा माना जा सकता है।

निम्नलिखित तरीके से मॉडल को सरल बनाना उपयोगी हो सकता है।

मान लें कि आप बड़े कपड़े के खुदरा विक्रेताओं की दुकानों में दुकान सहायक के रूप में नियोजित होने की संभावना को फिर से प्राप्त करना चाहते हैं और निम्नलिखित पहचान रणनीति पर विचार करें।

आप मानते हैं कि नियोक्ता एक न्यूनतम न्यूनतम ऊंचाई को पूरा करने वाले श्रमिकों को काम पर रखने की अधिक संभावना रखते हैं, जहां "न्यूनतम" लिंग के सापेक्ष है।

सेमी में ऊंचाई को मापने के बजाय, मान लीजिए कि दो ऊंचाई वाले मान मौजूद हैं, जिनमें से क्रमशः एक पुरुष और एक महिला "लंबा" है:> = पुरुषों के लिए 180 सेमी और महिलाओं के लिए = = 170 सेमी।

यह मानते हुए कि थ्रेसहोल्ड वास्तविकता में मौजूद हैं (अर्थात नियोक्ता महिला और 169cm या 171cm लंबा होने के बीच एक वास्तविक चिह्नित अंतर बनाते हैं), और यह कि वे सही हैं, आप लम्बे / छोटे पुरुषों और महिलाओं को परिभाषित करने वाली डमी बनाने में सक्षम हैं। विभिन्न ऊंचाई के पुरुष और महिलाएं अभी भी आपकी डमी की एक ही श्रेणी में आ सकते हैं और एक ही समय में आपका उपाय उस विशेष श्रम बाजार की वास्तविक गतिशीलता के अनुरूप है।


-1

क्या आप (अधिक स्पष्ट शब्दों में) बता रहे हैं कि पुरुषों के मुकाबले महिलाओं की तुलना में सामान्य लिंग की लड़ाई अधिक होती है क्योंकि उनकी आय p% अधिक है जो विरोधाभासी रूप से पक्षपाती होगी?

शायद यह एक बिंदु है। हम चीजों को देखने के लिए जाते हैं कि वे कैसे दिखते हैं और अंतर्निहित निहितार्थों का विश्लेषण नहीं करते हैं।

सिम्पसन के विरोधाभास के ऊपर जाने के लिए हमें इस सवाल का जवाब देना होगा "एक आदमी की तुलना में एक महिला एक ही राशि के निष्पक्ष काम को कितना अधिक पैसा देती है?" तब कोई कह सकता है कि उन्हें गर्भवती होना है और बच्चों को और अधिक बढ़ाना है कि उनके समकक्ष जो सच है, लेकिन महत्वपूर्ण मुद्दा यह है कि यह सिर्फ कहने के लिए छंटनी है, "महिलाओं के होने के तथ्य के लिए महिलाओं के पास कम अवसर हैं" और एक गहरा सशर्त आँकड़ों के साथ विश्लेषण हमें यह देखने के लिए प्रेरित करेगा कि संक्षेप में समान अवसर होते हैं और वे अन्य कारक हैं जो सेक्स से संबंधित नहीं हैं जो आंकड़े देखते हैं जैसे कि यौन मुद्दों से संबंधित भेदभाव हैं।


यह समझना उपयोगी हो सकता है कि इस तरह के विश्लेषण के लिए न तो कारण हो सकता है और न ही व्याख्यात्मक, बल्कि मौजूदा घटना का विवरणात्मक होना चाहिए।
एडमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.