क्या सिम्पसन का विरोधाभास एक छिपे हुए चर से उलट के सभी उदाहरणों को कवर करता है?


10

निम्नलिखित सिम्पसन के विरोधाभास के अस्तित्व के 'चित्र द्वारा सबूत' के रूप में पेश किए गए कई विज़ुअलाइज़ेशन के बारे में एक सवाल है, और संभवतः शब्दावली के बारे में एक सवाल है।

सिम्पसन के विरोधाभास का वर्णन करने के लिए और इसके (और क्यों गहरी और दिलचस्प हो सकता है) का संख्यात्मक उदाहरण देने के लिए एक काफी सरल घटना है । विरोधाभास यह है कि 2x2x2 आकस्मिक तालिकाओं (एग्रेस्टी, कंजोरिकल डेटा एनालिसिस) मौजूद हैं, जहां सीमांत संघ की प्रत्येक सशर्त एसोसिएशन से एक अलग दिशा है।

अर्थात्, दो उप-वर्गों में अनुपातों की तुलना दोनों एक दिशा में जा सकती है लेकिन संयुक्त जनसंख्या में तुलना दूसरी दिशा में जाती है। प्रतीकों में:

इसमें जैसे कि एक + a,b,c,d,e,f,g,h

a+bc+d>e+fg+h

लेकिन और

ac<eg

bd<fh

यह निम्नलिखित विज़ुअलाइज़ेशन ( विकिपीडिया से ) में सटीक रूप से दर्शाया गया है :

वैक्टर में सिम्पसन का विरोधाभास

एक अंश बस संबंधित वैक्टर का ढलान है, और उदाहरण में यह देखना आसान है कि छोटे बी वैक्टर में संबंधित एल वैक्टर की तुलना में बड़ा ढलान है, लेकिन संयुक्त बी वेक्टर में संयुक्त एल वेक्टर की तुलना में छोटा ढलान है।

कई रूपों में एक बहुत ही सामान्य दृश्य है, विशेष रूप से सिम्पसन पर उस विकिपीडिया संदर्भ के सामने एक:

उप आबादी में विपरीत ढलान

यह एक शानदार उदाहरण है, कैसे एक छिपा हुआ चर (जो दो उप आबादी को अलग करता है) एक अलग पैटर्न दिखा सकता है।

हालांकि, गणितीय रूप से, इस तरह की छवि किसी भी तरह से आकस्मिक तालिकाओं के प्रदर्शन से मेल नहीं खाती है, जो सिम्पसन के विरोधाभास के रूप में जानी जाने वाली घटना के आधार पर हैं । सबसे पहले, प्रतिगमन लाइनें वास्तविक-मूल्यवान बिंदु सेट डेटा पर होती हैं, एक आकस्मिक तालिका से डेटा की गणना नहीं करती हैं।

इसके अलावा, कोई प्रतिगमन लाइनों में ढलानों के मनमाने ढंग से संबंध के साथ डेटा सेट बना सकता है, लेकिन आकस्मिक तालिकाओं में, इस बात पर प्रतिबंध है कि ढलान कितने अलग हो सकते हैं। यही है, किसी आबादी की प्रतिगमन रेखा दिए गए उप- योगों के सभी प्रतिगमन के लिए रूढ़िवादी हो सकती है। लेकिन सिम्पसन के विरोधाभास में उप-वर्गों के अनुपात, हालांकि प्रतिगमन ढलान नहीं, समामेलित आबादी से बहुत दूर नहीं भटक सकते हैं, भले ही दूसरी दिशा में (फिर से, विकिपीडिया से अनुपात तुलना छवि देखें)।

मेरे लिए, हर बार जब मैं सिम्पसन के विरोधाभास के दृश्य के रूप में बाद की छवि को देखता हूं, तो वह काफी परेशान हो सकता है। लेकिन जब से मैं हर जगह (जिसे मैं गलत कहता हूं) उदाहरण देखते हैं, मैं यह जानने के लिए उत्सुक हूं:

  • क्या मैं वास्तविक मूल्यों में आकस्मिक तालिकाओं के मूल सिम्पसन / यूल उदाहरणों से एक सूक्ष्म परिवर्तन को याद कर रहा हूं जो प्रतिगमन दृश्य को सही ठहराते हैं?
  • निश्चित रूप से सिम्पसन एक त्रुटि का एक विशेष उदाहरण है। क्या 'सिम्पसन का विरोधाभास' शब्द अब उलझी हुई त्रुटि के बराबर हो गया है , ताकि जो कुछ भी गणित, किसी छिपे हुए चर के माध्यम से दिशा में बदलाव को सिम्पसन का विरोधाभास कहा जा सके?

परिशिष्ट: यहां एक 2xmxn (या 2 m द्वारा निरंतर) तालिका के सामान्यीकरण का एक उदाहरण है: दूरी के संबंध में बनाए गए प्रतिशत बास्केट, छिपे हुए चर शॉट का प्रकार है

यदि शॉट प्रकार पर समामेलित किया जाता है, तो ऐसा लगता है कि डिफेंडर के करीब होने पर खिलाड़ी अधिक शॉट लगाता है। शॉट टाइप (वास्तव में टोकरी से दूरी) के आधार पर समूह, अधिक सहज रूप से अपेक्षित स्थिति होती है, और अधिक शॉट्स को दूर के रक्षक बना दिया जाता है।

यह छवि वह है जिसे मैं सिम्पसन के एक अधिक निरंतर स्थिति (रक्षकों की दूरी) के सामान्यीकरण के रूप में मानता हूं। लेकिन मैं अभी भी नहीं देखता कि कैसे प्रतिगमन लाइन उदाहरण सिम्पसन का एक उदाहरण है।


5
सिम्पसन का विरोधाभास केवल श्रेणीबद्ध लक्ष्य डेटा पर लागू नहीं होता है। एक स्पष्ट कारक के साथ निरंतर लक्ष्य डेटा, जो इसे प्रभावित करता है, जैसा कि आपके अंतिम ग्राफ़ में विरोधाभास के अधीन हो सकता है। कुंजी यह है कि "श्रेणीगत कारक", ब्याज के चर को श्रेणीबद्ध करता है या नहीं, या ब्याज के चर को प्रभावित करने वाले अन्य कारकों में से कोई भी स्पष्ट नहीं है या नहीं।
बृहस्पतिवार

@ जंबोमैन ओके, मैं संभवतः देख सकता हूं कि एसपी सामान्य डेटा से परे सामान्य हो सकता है निरंतर (मैंने उस सामान्यीकरण को नहीं देखा है; एसपी को हमेशा आकस्मिक तालिकाओं के साथ प्रस्तुत किया गया लगता है), लेकिन मैं यह नहीं देखता कि दूसरा ग्राफ कैसे मेल खाता है। मेरा मतलब है कि मैं स्पष्ट लेकिन अस्पष्ट रूपक देखता हूं "एक छिपा हुआ चर दिशा बदल सकता है", लेकिन मैं अभी यह नहीं देखता कि सामान्यीकरण गणितीय रूप से कैसे कार्य करता है / ठीक है।
मिच

1
आपके पास एक छिपी हुई श्रेणीगत कारक है जो "वास्तविक" डेटा को दो रंगीन लाइनों का पालन करने का कारण बनता है, लेकिन इसके बारे में जानकारी के बिना डेटा बिंदीदार रेखा का पालन करता प्रतीत होता है। अपने लक्ष्य और एक्स-अक्ष चर के रूप में उम्र के अनुसार ड्राइविंग दुर्घटनाओं पर विचार करें - स्पष्ट नहीं। वे उम्र के साथ नीचे जाते दिखाई देते हैं, है ना? अब नशे में "ड्राइविंग के" छिपे हुए कारक को जोड़ें। नीली रेखा "नशे में गाड़ी चलाते हुए" होगी, लाल "नशे में नहीं गाड़ी चलाते हुए"। उस छिपे हुए कारक को देखते हुए, युवाओं के साथ सहसंबंधित, दुर्घटनाएं उम्र के साथ बढ़ती हैं! (सबसे यथार्थवादी उदाहरण नहीं, मुझे स्वीकार करना होगा, लेकिन यह विचार है कि मायने रखता है ...)
जुम्मन

@ जंबोमैन जो एसपी के बजाय केवल भ्रम की स्थिति के स्पष्टीकरण की तरह लग रहा है। हो सकता है आप कह रहे हों कि एसपी और कंफ्यूजन एक ही हैं। लेकिन वह एक उत्तर की दिशा में लगता है; शायद आप इसे थोड़ा और औपचारिक बना सकते हैं और एसपी के साथ संबंध को और अधिक स्पष्ट कर सकते हैं (गणितीय रूप से इस बात के लिए कि प्रतिगमन लाइनें किसी तरह आकस्मिक तालिका मामले में अनुपात की तुलना में कैसे होती हैं)।
मिच

1
मैं मानता हूं कि आपके प्रश्न में प्रतिगमन उदाहरण से आकस्मिक संस्करण कुछ तरीकों से अलग है। (1) कन्फ़्यूडर वेरिएबल एक कोवरिएट नहीं है जो एक व्यक्तिगत नमूने का वर्णन करता है, यह कुछ अनुपात है जो उपचार और नियंत्रण समूह के बीच भिन्न होता है। में गुर्दा पत्थर उदाहरण बड़े पत्थर रोगियों के अनुपात में दो समूहों के बीच अलग है और कि विरोधाभास का कारण बनता है। (२) किडनी उदाहरण में, ट्रीटमेंट कंफ्यूजनिंग वैरिएबल में बदलाव से संबंधित नहीं है, यह एक अलग प्रभाव है। xp
पॉल

जवाबों:


8

विरोधाभास यह है कि 2x2x2 आकस्मिक तालिकाओं (अग्रेंजी, श्रेणीबद्ध डेटा विश्लेषण) मौजूद हैं जहां सीमांत संघ के प्रत्येक सशर्त संघ से एक अलग दिशा है [...] मैं मूल सिम्पसन से सूक्ष्म परिवर्तन याद कर रहा हूँ / आकस्मिक तालिकाओं के यूल उदाहरण। वास्तविक मूल्य जो प्रतिगमन लाइन विज़ुअलाइज़ेशन को सही ठहराते हैं?

मुख्य मुद्दा यह है कि आप विरोधाभास को स्वयं विरोधाभास दिखाने के लिए एक सरल तरीके से बराबरी कर रहे हैं। आकस्मिक तालिका का सरल उदाहरण प्रति व्यक्ति विरोधाभास नहीं है। सिम्पसन की विडंबना सीमांत और सशर्त संघों की तुलना करते समय परस्पर विरोधी कारण अंतर्विरोधों के बारे में है, जो अक्सर साइन रिवर्सल (या स्वतंत्रता जैसे चरम क्षीणन, जैसे सिम्पसन द्वारा दिए गए मूल उदाहरण में, जिसमें साइन रिवर्सल नहीं है) के कारण होता है। विरोधाभास तब उत्पन्न होता है जब आप दोनों अनुमानों को यथोचित रूप से व्याख्या करते हैं, जिससे विभिन्न निष्कर्ष निकल सकते हैं --- क्या उपचार रोगी को मदद या चोट पहुंचाता है? और आपको किस अनुमान का उपयोग करना चाहिए?

क्या विरोधाभासी पैटर्न किसी आकस्मिक तालिका पर या प्रतिगमन में दिखाई देता है, इससे कोई फर्क नहीं पड़ता। सभी चर निरंतर हो सकते हैं और विरोधाभास अभी भी हो सकता है --- उदाहरण के लिए, आपके पास एक मामला हो सकता है जहां अभी तक ।E(Y|X)X>0E(Y|X,C=c)X<0,c

निश्चित रूप से सिम्पसन एक त्रुटि का एक विशेष उदाहरण है।

यह गलत है! सिम्पसन की विडंबना यह है कि त्रुटि का एक विशेष उदाहरण नहीं है - यदि यह बस था, तो कोई विरोधाभास नहीं होगा। आखिरकार, यदि आप सुनिश्चित हैं कि कुछ संबंध उलझन में हैं, तो आप आकस्मिक तालिका या प्रतिगमन गुणांक में साइन रिवर्सल या एटेन्यूएशन देखकर आश्चर्यचकित नहीं होंगे --- शायद आप भी उम्मीद करेंगे।

इसलिए जबकि सिम्पसन का विरोधाभास सीमांत और सशर्त संघों की तुलना करते समय "प्रभाव" के एक उलट (या चरम क्षीणन) को संदर्भित करता है, यह संभवतः भ्रम के कारण नहीं हो सकता है और एक प्राथमिकता के कारण आप यह नहीं जान सकते हैं कि सीमांत या सशर्त तालिका "सही है" "आपके कारण का जवाब देने के लिए परामर्श करने के लिए एक। ऐसा करने के लिए, आपको समस्या के कारण की संरचना के बारे में अधिक जानना होगा।

पर्ल में दिए गए इन उदाहरणों पर विचार करें : यहां छवि विवरण दर्ज करें

कल्पना कीजिए कि आप में रुचि कर रहे हैं कुल कारण प्रभाव की पर । संघों का उलटफेर इन सभी ग्राफों में हो सकता है। में (ए) और (डी) हमारे पास भ्रम की स्थिति है, और आप लिए समायोजित करेंगे । (बी) में कोई उलझन नहीं है, एक मध्यस्थ है, और आपको लिए समायोजित नहीं करना चाहिए । इन (c) एक कोलाइडर है और इसमें कोई गड़बड़ नहीं है, इसलिए आपको लिए एडजस्ट नहीं करना चाहिए । यही है, इन दो उदाहरणों में (b और c) आप सिम्पसन के विरोधाभास का निरीक्षण कर सकते हैं, फिर भी, इसमें कोई उलझन नहीं है और आपके कारण क्वेरी के लिए सही उत्तर को गलत अनुमान द्वारा दिया जाएगा।XYZZZZZ

पर्ल की यह व्याख्या कि क्यों इसे "विरोधाभास" समझा गया और क्यों यह अभी भी लोगों को बहुत पहेली लगता है। उदाहरण के लिए (ए) में दर्शाए गए साधारण मामले को लें: कारण प्रभाव केवल उसी तरह उल्टा नहीं हो सकता। इसलिए, यदि हम गलती से दोनों अनुमानों को कारण (सीमांत और सशर्त) मान रहे हैं, तो हम ऐसी बात को देखकर आश्चर्यचकित होंगे --- और मनुष्य अधिकांश संघों में कार्य को देखने के लिए तार-तार हो रहे हैं।

तो अपने मुख्य (शीर्षक) प्रश्न पर वापस जाएं:

क्या सिम्पसन का विरोधाभास एक छिपे हुए चर से उलट के सभी उदाहरणों को कवर करता है?

एक मायने में, यह सिम्पसन के विरोधाभास की वर्तमान परिभाषा है। लेकिन स्पष्ट रूप से कंडीशनिंग चर छिपा नहीं है, इसे देखा जाना चाहिए अन्यथा आप विरोधाभास होते हुए नहीं देखेंगे। विरोधाभास के अधिकांश गूढ़ पक्ष कारण संबंधी विचारों से उपजा है और यह "छिपा हुआ" चर आवश्यक रूप से एक कन्फ्यूडर नहीं है।

आकस्मिकता तालिकाओं और प्रतिगमन

जैसा कि टिप्पणियों में चर्चा की गई है, द्विआधारी डेटा के साथ एक प्रतिगमन चलाने और आकस्मिक तालिकाओं से अनुपात के अंतर की गणना करने की बीजगणितीय पहचान यह समझने में मदद कर सकती है कि प्रतिगमन में दिखा विरोधाभास समान प्रकृति का क्यों है। कल्पना करें कि आपका परिणाम , आपका उपचार और आपके समूह , सभी चर बाइनरी हैं।yxz

फिर अनुपात में समग्र अंतर केवल पर का प्रतिगमन गुणांक है । अपने अंकन का उपयोग करना:yx

a+bc+de+fg+h=cov(y,x)var(x)

और एक ही बात से प्रत्येक उपसमूह के लिए रखती है यदि आप अलग प्रतिगमन, के लिए एक चलाने :zz=1

aceg=cov(y,x|z=1)var(x|z=1)

और लिए दूसरा :z=0

bdfh=cov(y,x|z=0)var(x|z=0)

इसलिए प्रतिगमन के संदर्भ में, विरोधाभास एक दिशा में पहले गुणांक और दो उपसमूहों के दो गुणांक से मेल खाती है एक अलग दिशा में गुणांक की तुलना में पूरी आबादी के लिए अलग है ।(cov(y,x|z)(cov(y,x)var(x))(cov(y,x)(cov(y,x|z)var(x|z))(cov(y,x)var(x))


1
ऐसा लगता है, आपके विचार में, सिम्पसन का विरोधाभास न केवल सीमांत और सशर्त संघों में अंतर की संभावना को संदर्भित करता है, बल्कि यह भी भ्रम है कि डेटा की व्याख्या करते समय किसका उपयोग करना "सही" है? और पर्ल से पता चलता है कि इसका कारण क्या है?
पॉल

2
"सीम्पसन का विरोधाभास सीमांत और सशर्त संघों की तुलना करते समय परस्पर विरोधी अंतर्विरोधों के बारे में है।" मैं यहाँ असहमत हूँ, सिम्पसन का विरोधाभास विशेष रूप से एक फ्लिप-ऑफ-साइन को संदर्भित करता है जब क्रूड की तुलना स्तरीकृत परिणामों से करता है।
एडम डे

2
@AdamO जबकि ज्यादातर लोग सिम्पसन के विरोधाभास की "सख्त" परिभाषा के रूप में साइन रिवर्सल के चरम मामले का उपयोग करते हैं, सिम्पसन के मूल उदाहरण में वास्तव में कोई साइन रिवर्सल नहीं था।
कार्लोस सिनेली

1
@Paul यह बिल्कुल सही है।
कार्लोस सिनेली

2
@ अदमो मुझे लगता है कि पर्ल के स्पष्टीकरण को यह "विरोधाभास" क्यों माना गया था और क्यों यह अभी भी लोगों के लिए पहेली है। उदाहरण के लिए (ए) के साधारण मामले में, कारण प्रभाव बस की तरह रिवर्स नहीं कर सकते। इसलिए, यदि हम दोनों मामलों के लिए यथोचित विचार कर रहे हैं, तो हम इस तरह की बात को देखकर आश्चर्यचकित होंगे --- और मनुष्यों को अधिकांश संघों में कार्य करने के लिए तार-तार होने लगते हैं।
कार्लोस सिनेली

2

क्या मैं वास्तविक मूल्यों में आकस्मिक तालिकाओं के मूल सिम्पसन / यूल उदाहरणों से एक सूक्ष्म परिवर्तन को याद कर रहा हूं जो प्रतिगमन दृश्य को सही ठहराते हैं?

हाँ। वाई-अक्ष पर प्रतिक्रिया की लॉग-ऑड की कल्पना करके श्रेणीबद्ध विश्लेषण का एक समान प्रतिनिधित्व संभव है। सिम्पसन का विरोधाभास उसी तरह दिखाई देता है जैसे "क्रैट" लाइन जो स्ट्रैटम-रेफ़रेंट लॉग-ऑड्स के परिणाम के अनुसार दूरी में स्ट्रैटम-विशिष्ट ट्रेंड के विरुद्ध चल रही है।

यहां बर्कले के प्रवेश डेटा के साथ एक उदाहरण दिया गया है

यहां छवि विवरण दर्ज करें

यहाँ लिंग एक पुरुष / महिला कोड है, एक्स-एक्सिस पर पुरुष बनाम महिला के लिए क्रूड एडमिशन लॉग-ऑड्स है, भारी धराशायी ब्लैक लाइन लिंग वरीयता को दर्शाती है: सकारात्मक ढलान पुरुष प्रवेश की ओर एक पूर्वाग्रह का सुझाव देता है। रंग विशिष्ट विभागों में प्रवेश का प्रतिनिधित्व करते हैं। सभी लेकिन दो मामलों में, विभाग-विशिष्ट लिंग-वरीयता रेखा का ढलान नकारात्मक है। यदि इन परिणामों को एक लॉजिस्टिक मॉडल में एक साथ औसतन बातचीत के लिए लेखांकन नहीं किया जाता है, तो कुल मिलाकर प्रभाव महिला प्रवेश के विपरीत होता है। उन्होंने कठिन विभागों में पुरुषों की तुलना में अधिक बार आवेदन किया।

निश्चित रूप से सिम्पसन एक त्रुटि का एक विशेष उदाहरण है। क्या 'सिम्पसन का विरोधाभास' शब्द अब उलझी हुई त्रुटि के बराबर हो गया है, ताकि जो कुछ भी गणित, किसी छिपे हुए चर के माध्यम से दिशा में बदलाव को सिम्पसन का विरोधाभास कहा जा सके?

संक्षेप में, नहीं। सिम्पसन का विरोधाभास केवल "क्या" है जबकि भ्रम "क्यों" है। प्रमुख चर्चा ने इस बात पर ध्यान केंद्रित किया है कि वे कहां सहमत हैं। कन्फ़्यूज़निंग का अनुमानों पर न्यूनतम या नगण्य प्रभाव हो सकता है, और वैकल्पिक रूप से सिम्पसन के विरोधाभास, जबकि नाटकीय, गैर-कंफ़्यूडर के कारण हो सकते हैं। एक नोट के रूप में, शब्द "छिपी" या "गुप्त" चर अप्रभावी हैं। एक महामारी विज्ञान के नजरिए से, सावधानीपूर्वक नियंत्रण और अध्ययन के डिजाइन को भ्रम पैदा करने वाले पूर्वाग्रह के मापन या नियंत्रण में सक्षम बनाना चाहिए। उन्हें समस्या होने के लिए "छिपा" होने की आवश्यकता नहीं है।

ऐसे समय होते हैं, जिनमें बिंदु का अनुमान बहुत भिन्न हो सकता है, उलट-पुलट के बिंदु तक, जो कि भ्रम का परिणाम नहीं होता है। कोलाइडर और मध्यस्थ भी प्रभाव बदल रहे हैं , संभवतः उन्हें उलट रहा है। कारण तर्क यह चेतावनी देता है कि प्रभाव का अध्ययन करने के लिए, मुख्य प्रभाव को इन के लिए समायोजित करने के बजाय अलगाव में अध्ययन किया जाना चाहिए क्योंकि स्तरीकृत अनुमान गलत है। (यह गलत तरीके से जिक्र है, गलत है कि डॉक्टर को देखकर आप बीमार हो जाते हैं, या फिर बंदूकें लोगों को मार देती हैं, इसलिए लोग लोगों को नहीं मारते)।


तो आप कहेंगे कि सिम्पसन का मूल उदाहरण "सिम्पसन के विरोधाभास" का मामला नहीं है?
कार्लोस सिनेली

@CarlosCinelli आप किस उदाहरण का जिक्र करेंगे? मेरे पास सिम्पसन के 1951 के पेपर तक पहुंच नहीं है, लेकिन यह जेआरएसएस में प्रकाशित है और सार में लागू उदाहरण का कोई संदर्भ नहीं है, यह विशुद्ध रूप से सैद्धांतिक काम लगता है।
एडमो

यह पैराग्राफ 9 और 10 पर संख्यात्मक उदाहरण है, जहां वह दो अलग-अलग कहानियों के साथ एक ही आकस्मिक तालिकाओं को देता है जिससे दो अलग-अलग कारण व्याख्याएं हो सकेंगी। उस उदाहरण में कोई साइन रिवर्सल नहीं है, बस सीमांत स्वतंत्रता है।
कार्लोस सिनेली

2
यह देखने के लिए कि साइन उलटना यहां क्यों असंगत है, बस एक ऐसी स्थिति की कल्पना करें जहां एक उपचार दोनों पुरुषों और महिलाओं के लिए एक अत्यंत मजबूत संघ दिखाता है, लेकिन कुल मिलाकर आबादी में केवल एक छोटा संघ दिखाता है। यह अभी भी विडंबनापूर्ण होगा कि ज्यादातर लोगों को, अगर इसकी व्याख्या की जाए।
कार्लोस सिनेली

@CarlosCinelli मैंने कहा है कि सत्यानाशी का एक उदाहरण नहीं बल्कि सिम्पसन की विरोधाभास था असल लेकिन मुझे नहीं बिंदु belabor, मुझे लगता है कि आप एक अच्छा तर्क कर दिया है और शायद मैं क्या था के बारे में कुछ गलत मान्यताओं पकड़ रखी थी और नहीं था सिम्पसन के विरोधाभास की मायावी घटना।
एडमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.