सांख्यिकीय उपकरणों के अनुचित उपयोग से महंगा परिणाम के उदाहरण हैं


12

मुझे संदेह है कि सांख्यिकीय उपकरणों के अधिकांश उपयोगकर्ता सहायक उपयोगकर्ता हैं (ऐसे लोग जिनके पास सांख्यिकी में कोई औपचारिक प्रशिक्षण नहीं है)। यह शोधकर्ताओं और अन्य पेशेवरों के लिए अपने डेटा में सांख्यिकीय तरीकों को लागू करने के लिए बहुत ही लुभावना है क्योंकि उन्होंने इसे "पहले पहले किया" देखा है पीयर-रिव्यू किए गए पेपर, ग्रे साहित्य, वेब या एक सम्मेलन में। हालाँकि, आवश्यक मान्यताओं की स्पष्ट समझ के बिना ऐसा करने और सांख्यिकीय उपकरण की सीमाएँ गलत परिणाम पैदा कर सकती हैं - त्रुटियां अक्सर अनजाने में!

मुझे लगता है कि स्नातक छात्र (विशेष रूप से सामाजिक और प्राकृतिक विज्ञान में) या तो सांख्यिकीय नुकसान से अनजान हैं या इन नुकसानों को असंगत पाते हैं (बाद वाला मामला सबसे अधिक बार होता है)। यद्यपि सांख्यिकीय उपकरणों के अनुचित उपयोग के उदाहरण कई परिचयात्मक स्तर की पाठ्य पुस्तकों, वेब या स्टैकएक्सचेंज में पाए जा सकते हैं, मेरे पास वास्तविक-दुनिया के उदाहरणों को खोजने में एक कठिन समय है, जिनके हानिकारक परिणाम हुए हैं (जैसे कि लागत $ में, जीवन प्रभावित और करियर खो गया) । उस अंत तक, मैं वास्तविक दुनिया के उदाहरणों की तलाश कर रहा हूं जो सांख्यिकीय विधियों के दुरुपयोग को उजागर करते हैं:

  1. आमतौर पर इस्तेमाल की जाने वाली सांख्यिकीय विधियाँ परिचयात्मक सांख्यिकी पाठ्यक्रम (अर्थात अनुमानक आँकड़े, प्रतिगमन, आदि…) में शामिल हैं।
  2. अंतिम परिणाम के परिणामी परिणाम हुए (डॉलर का नुकसान हुआ, जीवन प्रभावित हुआ, करियर बिखर गया आदि ...)
  3. डेटा आसानी से उपलब्ध हैं एक कोर्स में उदाहरण काम कर के रूप में उपयोग के लिए (उद्देश्य वास्तविक दुनिया उदाहरण है कि असली दुनिया परिणाम पड़ा है के माध्यम से छात्रों को काम करने के लिए है।)

एक गैर-सांख्यिकीय उदाहरण मैं एक शोध परियोजना में इकाइयों को ठीक से परिभाषित करने के महत्व पर चर्चा करते हुए छात्रों को ऊपर लाना पसंद करता हूं, "मीट्रिक दुर्घटना" है जिसके कारण $ 125M उपग्रह का नुकसान हुआ! यह आमतौर पर छात्रों से एक -o कारक का आह्वान करता है और लगता है कि एक स्थायी छाप (कम से कम उनके छोटे शैक्षणिक जीवन में)।


2
एडवर्ड टफ्टे का एक और गैर-सांख्यिकीय उदाहरण, पावरपॉइंट रॉकेट साइंस करता है । यद्यपि यह आपके द्वारा उल्लिखित मीट्रिक दुर्घटना से सामान्य रूप से सांख्यिकीय सोच से तार्किक प्रगति से थोड़ा अधिक निकट है। साथ ही आप इस पुस्तक, द कल्ट ऑफ़ स्टैटिस्टिकल सिग्नेचर से परिचित हैं ?
एंडी डब्ल्यू

@AndyW, मैं "सांख्यिकीय महत्व का पंथ" से परिचित नहीं हूँ। क्या आप जानते हैं कि मेरे प्रश्न में तत्व २ / और ३ / उस पुस्तक में दिए गए हैं?
मैन्नीगेज

मैं 3 के बारे में नहीं जानता, लेकिन यदि आप पुस्तक समीक्षा पढ़ते हैं, तो मैं इससे जुड़ा हुआ आपके प्रश्न 2 का उत्तर दूंगा (या पुस्तक के शेष भाग को पढ़ूंगा!) वास्तव में पूरी पुस्तक आपके प्रश्न # 2 के संदर्भ में होगी। महत्व परीक्षणों की व्याख्या करने के लिए।
एंडी डब्ल्यू

@AndyW वह किताब है जिसका मैं उल्लेख करने जा रहा हूं।
पीटर Flom - को पुनः स्थापित मोनिका

@AndyW, यद्यपि आप जिस समीक्षा को लिंक करते हैं, वह किसी पुस्तक की वास्तविक दुनिया के आंकड़ों के अनुचित उपयोग का उदाहरण देती है, यदि परिणामी लागत को संबोधित किया जाता है, तो यह मेरे लिए स्पष्ट नहीं है। यदि पुस्तक में परिणामी लागत को संबोधित किया जाता है तो क्या वे स्वतंत्र विश्लेषण या लेखकों की विशेषण राय पर आधारित हैं?
मनिग

जवाबों:


8

मैं डेटा उपलब्धता के बारे में निश्चित नहीं हूं, लेकिन एक महान (यदि यह सही शब्द है) गरीब आंकड़ों का उदाहरण रजोनिवृत्त महिलाओं में हार्मोन रिप्लेसमेंट थेरेपी (एचआरटी) की प्रभावशीलता पर हार्वर्ड नर्सों का अध्ययन है।

सामान्य विचार क्या है? नर्सों के अध्ययन ने सुझाव दिया कि एचआरटी रजोनिवृत्ति के बाद की महिलाओं के लिए फायदेमंद था। यह पता चला कि यह परिणाम उत्पन्न हुआ क्योंकि नियंत्रण समूह उपचार समूह से बहुत अलग था और विश्लेषण में इन अंतरों का कोई हिसाब नहीं था। बाद के यादृच्छिक परीक्षणों में, एचआरटी को कैंसर, दिल का दौरा, स्ट्रोक और रक्त के थक्कों से जोड़ा गया है। उचित सुधार के साथ, नर्सों के अध्ययन से इन प्रतिमानों का भी पता चलता है।

मुझे एचआरटी से संबंधित अमेरिकी मौतों के लिए अनुमान नहीं मिल सकता है, लेकिन परिमाण हजारों की संख्या में था। एक लेख ब्रिटेन में 1000 मौतों को HRT से जोड़ता है।

इस न्यूयॉर्क टाइम्स पत्रिका लेख अध्ययन में मौजूद सत्यानाशी के मुद्दों की अच्छी सांख्यिकीय पृष्ठभूमि प्रदान करता है।

अमेरिकन जर्नल ऑफ एपिडेमियोलॉजी के इस अंक में अकादमिक चर्चा है । लेख महिलाओं के स्वास्थ्य पहल के अवलोकन संबंधी परिणामों के परिणामों की तुलना यादृच्छिक परीक्षण के आधार पर करते हैं।

बायोमेट्रिक्स देखें फ्रीडमैन और पेटीटी की विशेष रूप से [ प्रीपब संस्करण ] टिप्पणी में एक ही व्यक्ति द्वारा (कई व्यक्तियों द्वारा) भी चर्चा की गई है ।


1
मैं वास्तव में इस उदाहरण के उपयोग के खिलाफ तर्क दूंगा। 2005 के बाद से और अधिक काम किया गया है, विशेष रूप से मिगुएल हर्नन द्वारा, अवलोकन अध्ययनों को यादृच्छिक प्रयोगों की तरह विश्लेषण किया गया है: पोस्टमेनोपॉज़ल हार्मोन थेरेपी और कोरोनरी हृदय रोग , महामारी विज्ञान (2008) के लिए एक आवेदन । निष्कर्ष: "संक्षेप में, हमारे निष्कर्ष बताते हैं कि डब्ल्यूएचआई और एनएचएस आईटीटी अनुमानों के बीच की विसंगतियां काफी हद तक रजोनिवृत्ति और अनुवर्ती की लंबाई के बाद से समय के वितरण में अंतर द्वारा समझाया जा सकता है। चिकित्सा दीक्षा के प्रभाव के लिए अवशिष्ट भ्रमित। एनएचएस थोड़ी भूमिका निभाती है। ”
फोमाइट

भले ही किसी ने कहा कि अध्ययन के बारे में कैसा महसूस हो रहा है, उनके बीच मतभेद पेचीदा और ओपी की प्रस्तावित सेटिंग में शायद उपयोगी होने की तुलना में अधिक जटिल हैं।
फोमाइट

@EpiGrad, यह निश्चित रूप से मेरा क्षेत्र नहीं है और मुझे यकीन है कि आप इस विशेष उदाहरण के बारे में अधिक जानते हैं जो मैं करता हूं। लेकिन, मुझे लगता है कि आप जिस पेपर का हवाला देते हैं, वह उस बिंदु को बनाता है जो अन्य पेपर करते हैं। ओएसएएलआरईआर पेपर में, वे एनएचएस अध्ययन से महिलाओं को बाहर निकालते हैं जो डब्ल्यूएचआई अध्ययन के मानदंडों को पूरा नहीं करते हैं। त्याग की गई महिलाओं का अनुपात एनएचएस उपचार और नियंत्रण समूहों में भिन्न होना चाहिए (अन्यथा परिणाम नहीं बदलेगा)। वे इस प्रकार एनएचएस अध्ययन में पाई गई चयन समस्या को पूर्ववत कर रहे हैं। [[जारी]]
चार्ली

1
जो पेपर मुझे पसंद आया, वह कम से कम मेरे लिए, एकमुश्त उलझने की समस्या के बजाय "यह सुनिश्चित करें कि आप एक ही सवाल पूछ रहे हैं" की तर्ज पर कुछ और करें। मुझे गलत मत समझिए, एनएचएस / डब्ल्यूएचआई मुद्दा एक सांख्यिकीय और सार्वजनिक स्वास्थ्य अभ्यास प्रश्न के रूप में बेहद दिलचस्प है । प्रारंभिक असहमति की तुलना में यह सिर्फ और अधिक जटिल है, और मुझे लगता है कि यह ओपी के अनुरोध के बिंदु 1 के लिए कुछ हद तक अनुचित है। प्वाइंट 3 भी सही है।
फोमाइट

2
@ ईपीग्रैड, फेयर काफी। लेकिन मुझे गंभीरता से संदेह है कि आपको एक अध्ययन मिलेगा जिसमें एक चमकदार सांख्यिकीय त्रुटि है जिसे समझने के लिए कुछ खुदाई की आवश्यकता नहीं है जो कि व्यापक, पर्याप्त परिणाम थे। शायद अन्य उत्तरदाताओं ने शोधकर्ताओं में मेरे आशावाद को मार दिया, हालांकि (हेह)।
चार्ली

8

एक अद्भुत ऐतिहासिक उदाहरण 1933 में होरेस सेक्रिस्टस ट्रायम्फ ऑफ़ मेडियोक्रिटिस ऑफ बिजनेस में प्रकाशित हुआ । उस समय, सेक्रिस्ट एक अच्छी तरह से स्थापित सांख्यिकीविद्, एक पाठ्यपुस्तक के लेखक (सी। 1919, आई रिकॉल), अमेरिकी सांख्यिकी संघ में अच्छी तरह से जुड़े हुए थे, और नॉर्थवेस्टर्न विश्वविद्यालय में एक सांख्यिकीय अनुसंधान समूह के प्रमुख थे। उन्होंने और उनके कर्मचारियों ने पिछले दशक के बिज़नेस डेटा की समय श्रृंखला को संकलित किया था, जिसे पुस्तक में पुन: प्रस्तुत और श्रमसाध्य विश्लेषण किया गया है। इसका मतलब एक महत्वाकांक्षी सांख्यिकीविद् द्वारा शेफ डी'ओवरे से था।

पुस्तक की हेरोल्ड हॉटेलिंग की समीक्षा, जो उस वर्ष बाद में जेएएसए में दिखाई दी, ने बताया कि सिक्रिस्ट ने अर्थ के प्रतिगमन के सैकड़ों उदाहरणों को प्रलेखित किया था (आज किसी भी परिचयात्मक सांख्यिकी पाठ्यक्रम में एक मौलिक विषय, प्रश्न का # 1 बिंदु)। सेक्रिस्ट ने एक प्रकाशित जवाब में आपत्ति जताई। हॉटेलिंग की प्रतिक्रिया एक क्लासिक है:

एक महंगा और लंबे समय तक संख्यात्मक अध्ययन द्वारा इस तरह के गणितीय परिणाम को "साबित" करने के लिए ... पंक्तियों और स्तंभों में हाथियों की व्यवस्था करके गुणन तालिका को साबित करने के लिए अनुरूप है, और फिर कई अन्य प्रकार के जानवरों के लिए भी ऐसा ही किया जाता है। प्रदर्शन, हालांकि शायद मनोरंजक है, और एक निश्चित शैक्षणिक मूल्य होने के लिए, या तो जूलॉजी या गणित के लिए एक महत्वपूर्ण योगदान नहीं है।

[जेएएसए वी। २ ९ # १ ,६, जून १ ९ ३४, पी। 199]

लगता है कि कुछ ही समय बाद सांख्यिकीय दृश्य से जल्दी से फीका पड़ गया है ("करियर बर्बाद हो गया," प्रश्न में # 2 बिंदु)। उनकी पुस्तक अभी भी उपलब्ध है। (कुछ साल पहले मैंने एक अच्छी साफ-सुथरी कॉपी प्राप्त की, जाहिर है कि बहुत कम पढ़ा, इंटरलाॅयर्स लोन के माध्यम से।) इसमें से आप किसी भी संख्या के उदाहरण डेटासेट (प्रश्न के # 3 बिंदु) निकाल सकते हैं।

स्टीवन स्टिगलर ने 1933 में एक किताब और एक पेपर, द हिस्ट्री ऑफ स्टैटिस्टिक्स में इस कहानी को सुनाया ।


4

मुझे लगता है कि वायर्ड 2008 स्टॉक मार्केट क्रैश पर ले जाता है एक जानकारीपूर्ण उदाहरण हो सकता है। इस पर टिप्पणी नहीं कर सकते कि यह निष्कर्ष सही है या नहीं, लेकिन डेटा पर सहसंबंधों का उपयोग करने का विचार जो एक प्रतिनिधि नमूना नहीं है, ऐसा लगता है कि आपके द्वारा सुझाई गई परिस्थितियों के लिए उपयुक्त हो सकता है। यह भी वर्तमान है, और इसलिए उन्हें रुचि रख सकते हैं।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.