निम्नलिखित सिम्पसन के विरोधाभास के अस्तित्व के 'चित्र द्वारा सबूत' के रूप में पेश किए गए कई विज़ुअलाइज़ेशन के बारे में एक सवाल है, और संभवतः शब्दावली के बारे में एक सवाल है।
सिम्पसन के विरोधाभास का वर्णन करने के लिए और इसके (और क्यों गहरी और दिलचस्प हो सकता है) का संख्यात्मक उदाहरण देने के लिए एक काफी सरल घटना है । विरोधाभास यह है कि 2x2x2 आकस्मिक तालिकाओं (एग्रेस्टी, कंजोरिकल डेटा एनालिसिस) मौजूद हैं, जहां सीमांत संघ की प्रत्येक सशर्त एसोसिएशन से एक अलग दिशा है।
अर्थात्, दो उप-वर्गों में अनुपातों की तुलना दोनों एक दिशा में जा सकती है लेकिन संयुक्त जनसंख्या में तुलना दूसरी दिशा में जाती है। प्रतीकों में:
इसमें जैसे कि एक + ख
लेकिन और
यह निम्नलिखित विज़ुअलाइज़ेशन ( विकिपीडिया से ) में सटीक रूप से दर्शाया गया है :
एक अंश बस संबंधित वैक्टर का ढलान है, और उदाहरण में यह देखना आसान है कि छोटे बी वैक्टर में संबंधित एल वैक्टर की तुलना में बड़ा ढलान है, लेकिन संयुक्त बी वेक्टर में संयुक्त एल वेक्टर की तुलना में छोटा ढलान है।
कई रूपों में एक बहुत ही सामान्य दृश्य है, विशेष रूप से सिम्पसन पर उस विकिपीडिया संदर्भ के सामने एक:
यह एक शानदार उदाहरण है, कैसे एक छिपा हुआ चर (जो दो उप आबादी को अलग करता है) एक अलग पैटर्न दिखा सकता है।
हालांकि, गणितीय रूप से, इस तरह की छवि किसी भी तरह से आकस्मिक तालिकाओं के प्रदर्शन से मेल नहीं खाती है, जो सिम्पसन के विरोधाभास के रूप में जानी जाने वाली घटना के आधार पर हैं । सबसे पहले, प्रतिगमन लाइनें वास्तविक-मूल्यवान बिंदु सेट डेटा पर होती हैं, एक आकस्मिक तालिका से डेटा की गणना नहीं करती हैं।
इसके अलावा, कोई प्रतिगमन लाइनों में ढलानों के मनमाने ढंग से संबंध के साथ डेटा सेट बना सकता है, लेकिन आकस्मिक तालिकाओं में, इस बात पर प्रतिबंध है कि ढलान कितने अलग हो सकते हैं। यही है, किसी आबादी की प्रतिगमन रेखा दिए गए उप- योगों के सभी प्रतिगमन के लिए रूढ़िवादी हो सकती है। लेकिन सिम्पसन के विरोधाभास में उप-वर्गों के अनुपात, हालांकि प्रतिगमन ढलान नहीं, समामेलित आबादी से बहुत दूर नहीं भटक सकते हैं, भले ही दूसरी दिशा में (फिर से, विकिपीडिया से अनुपात तुलना छवि देखें)।
मेरे लिए, हर बार जब मैं सिम्पसन के विरोधाभास के दृश्य के रूप में बाद की छवि को देखता हूं, तो वह काफी परेशान हो सकता है। लेकिन जब से मैं हर जगह (जिसे मैं गलत कहता हूं) उदाहरण देखते हैं, मैं यह जानने के लिए उत्सुक हूं:
- क्या मैं वास्तविक मूल्यों में आकस्मिक तालिकाओं के मूल सिम्पसन / यूल उदाहरणों से एक सूक्ष्म परिवर्तन को याद कर रहा हूं जो प्रतिगमन दृश्य को सही ठहराते हैं?
- निश्चित रूप से सिम्पसन एक त्रुटि का एक विशेष उदाहरण है। क्या 'सिम्पसन का विरोधाभास' शब्द अब उलझी हुई त्रुटि के बराबर हो गया है , ताकि जो कुछ भी गणित, किसी छिपे हुए चर के माध्यम से दिशा में बदलाव को सिम्पसन का विरोधाभास कहा जा सके?
परिशिष्ट: यहां एक 2xmxn (या 2 m द्वारा निरंतर) तालिका के सामान्यीकरण का एक उदाहरण है:
यदि शॉट प्रकार पर समामेलित किया जाता है, तो ऐसा लगता है कि डिफेंडर के करीब होने पर खिलाड़ी अधिक शॉट लगाता है। शॉट टाइप (वास्तव में टोकरी से दूरी) के आधार पर समूह, अधिक सहज रूप से अपेक्षित स्थिति होती है, और अधिक शॉट्स को दूर के रक्षक बना दिया जाता है।
यह छवि वह है जिसे मैं सिम्पसन के एक अधिक निरंतर स्थिति (रक्षकों की दूरी) के सामान्यीकरण के रूप में मानता हूं। लेकिन मैं अभी भी नहीं देखता कि कैसे प्रतिगमन लाइन उदाहरण सिम्पसन का एक उदाहरण है।