क्या डेटा की सफाई सांख्यिकीय विश्लेषण के परिणामों को खराब कर सकती है?


17

वायरस के प्रचलन के कारण महामारी (संख्या में अचानक वृद्धि) के दौरान होने वाले मामलों और मौतों की संख्या में वृद्धि (2002 में संयुक्त राज्य अमेरिका में वेस्ट नाइल वायरस) या लोगों की प्रतिरोधक क्षमता में कमी या भोजन या पानी के दूषित होने या संख्या में वृद्धि के कारण होती है। मच्छरों। ये महामारी आउटलेयर के रूप में पेश करेंगे जो हर 1 से 5 साल में हो सकते हैं। इन आउटलेर्स को हटाकर हम महामारी के सबूत निकाल रहे हैं जो पूर्वानुमान और बीमारी की समझ का एक महत्वपूर्ण हिस्सा है।

क्या महामारी के कारण होने वाले प्रकोप से निपटने के लिए डेटा की सफाई आवश्यक है?

क्या यह परिणामों में सुधार करने जा रहा है या सांख्यिकीय विश्लेषण के परिणामों को खराब कर रहा है?

जवाबों:


12

यह वास्तव में आपके शोध के उद्देश्य पर निर्भर करता है। मेरी राय में, कई हो सकते हैं:

  1. आप यह समझना चाहते हैं कि ऐसे कौन से विशिष्ट कारक हैं जो मामलों और मौतों का कारण बनते हैं और जो महामारी से प्रभावित नहीं होते हैं और ऐसे कारक जो महामारी का कारण बनते हैं (इसलिए आप विशिष्ट नहीं प्रमुख संभावनाओं पर बल देते हैं) - इस मामले में आपको स्पष्ट रूप से महामारी को हटाने की आवश्यकता है डेटा से अवधि, के रूप में वे अनुसंधान के उद्देश्य से कर रहे हैं बाहरी कारकों के कारण आप समाप्त करने के लिए चाहते हैं क्या करने के लिए
  2. आप अपने मॉडल में महामारी परिवर्तन (शासन-स्विचिंग मॉडल, उदाहरण के लिए, समुदाय से किसी भी अच्छे लिंक और मॉडल सुझावों का यहां स्वागत कर सकते हैं) को शामिल करना चाहते हैं, क्योंकि आप महामारी की अवधि होने की संभावना जानना चाहते हैं (और यह भी लंबे समय तक) यह चलेगा), स्थिरता का परीक्षण करने और पूर्वानुमान लगाने के लिए - इस मामले में आप महामारी को बाहर नहीं करते हैं, लेकिन हथौड़ा-अर्थमितीय-टूल एल एस के लिए जाने के बजाय अधिक जटिल मॉडल खोजें।OLS या कुछ और के
  3. आपका मुख्य लक्ष्य महामारी की अवधि का पता लगाना और वास्तविक समय में उनके लिए निगरानी करना है - यह अर्थमिति में एक विशेष क्षेत्र है, मेरे कई साथी विल्नुस विश्वविद्यालय में काम कर रहे हैं (निश्चित रूप से, आप इससे निपटने के लिए बहुत अधिक महामारी अवलोकन करना चाहेंगे। )

इसलिए यदि आपका मुख्य लक्ष्य 2 जैसा कुछ है, तो डेटा को साफ़ करना भविष्य के पूर्वानुमानों के बारे में गलत निष्कर्ष का कारण होगा, अर्थात् गलत पूर्वानुमान। यह भी सच है कि दूसरा मामला बेहतर पूर्वानुमान प्रदान नहीं करता है, लेकिन आप कम से कम महामारी की अवधि और उनकी लंबाई की संभावनाओं के बारे में निष्कर्ष निकाल सकते हैं। यह बीमांकिक गणितज्ञों के लिए महत्वपूर्ण है, तो क्या आप एक हो सकते हैं?


शानदार और सरल जवाब। आपको कम उम्र में एक सराहनीय ज्ञान है।
DrWho

15

मैं व्यक्तिगत रूप से इसे "डेटा क्लीनिंग" नहीं कहूंगा। मुझे लगता है कि डेटा एडिटिंग के लिहाज से डेटा की सफाई ज्यादा है - डेटा सेट में विसंगतियों को साफ करना (जैसे कि एक रिकॉर्ड में 1000 की उम्र बताई गई है, या 4 साल की उम्र का एक व्यक्ति एक ही माता-पिता है, आदि)।

आपके डेटा में एक वास्तविक प्रभाव की उपस्थिति इसे "गड़बड़" नहीं बनाती है (इसके विपरीत, वास्तविक प्रभावों की उपस्थिति इसे समृद्ध बना देगी) - हालांकि यह आपके गणितीय कार्य को अधिक शामिल कर सकता है। मैं सुझाव दूंगा कि डेटा को "इस तरह" साफ किया जाए अगर यह भविष्यवाणी करने का एकमात्र संभव तरीका है। यदि कोई व्यवहार्य तरीका है जो जानकारी को दूर नहीं फेंकता है, तो उसका उपयोग करें।

ऐसा लगता है कि आप किसी प्रकार के चक्रीय विश्लेषण से लाभ उठा सकते हैं, यह कहते हुए कि आप कहते हैं कि यह प्रभाव समय-समय पर आता है (एक "व्यापार चक्र" की तरह)।

मेरे दृष्टिकोण से, यदि आप किसी चीज का पूर्वानुमान लगा रहे हैं, तो उस स्रोत से वास्तविक प्रभाव को हटाने से आपकी भविष्यवाणियाँ ही खराब हो सकती हैं। इसका कारण यह है कि आपने प्रभावी ढंग से "बहुत दूर फेंक दी" है कि आप भविष्यवाणी करना चाहते हैं!

दूसरा बिंदु यह है कि यह निर्धारित करना मुश्किल हो सकता है कि महामारी के कारण कितनी मौतें हुईं और साधारण उतार-चढ़ाव के कारण कितनी मौतें हुईं।

सांख्यिकीय शब्दावली में, महामारी जैसा लगता है, आपके दृष्टिकोण से, यह "उपद्रव" है जिसे आप वास्तव में विश्लेषण करना चाहते हैं। इसलिए आप इसमें विशेष रूप से रुचि नहीं रखते हैं, लेकिन आपको अपने विश्लेषण में किसी तरह इसका हिसाब देना होगा। एक प्रतिगमन सेटिंग में ऐसा करने का एक "त्वरित और गंदा" तरीका है कि एक प्रतिगमन चर के रूप में महामारी वर्ष / अवधि के लिए एक संकेतक शामिल करना है। यह आपको महामारी के प्रभाव का औसत अनुमान देगा (और प्रत्येक महामारी के लिए समान रूप से प्रभाव को मानता है)। हालांकि, यह दृष्टिकोण केवल प्रभाव का वर्णन करने के लिए काम करता है, क्योंकि पूर्वानुमान में, आपका प्रतिगमन चर अज्ञात है (आप नहीं जानते कि भविष्य में कौन सी अवधि महामारी वाले होंगे)।

महामारी के लिए खाते का एक और तरीका दो घटकों के साथ एक मिश्रण मॉडल का उपयोग करना है: महामारी भाग के लिए एक मॉडल और "साधारण" भाग के लिए एक मॉडल। मॉडल फिर दो चरणों में आगे बढ़ता है: 1) एक अवधि को महामारी या सामान्य के रूप में वर्गीकृत करें, फिर 2) उस मॉडल पर लागू करें जिस पर इसे वर्गीकृत किया गया था।


(+1) अच्छे सुझाव, हालांकि अधिक संभव नहीं-गंदे-चालें।
1125 में पैपर सेलोव

+1; पोस्टरिटी के लिए, मैं निम्नलिखित टिप्पणी करना चाहता हूं: आप "वास्तविक प्रभाव को हटाते हैं ... केवल आपकी भविष्यवाणियों को बदतर बना सकते हैं"। संदर्भ में, आप स्पष्ट रूप से सही हैं, हालांकि, सामान्य मामले में यह जरूरी सच नहीं है। (मैं 'पूर्वाग्रह-भिन्नता व्यापार' के बारे में सोच रहा हूं, जो भविष्य कहनेवाला मॉडलिंग में एक बड़ा सौदा है।) फिर से, मुझे लगता है कि आप यहीं हैं, और मुझे पता है कि आप पूर्वाग्रह-भिन्नता व्यापार के बारे में जानते हैं; मैं भविष्य में इस उत्तर पर आने वाले किसी भी व्यक्ति के लिए इसका उल्लेख करना चाहता हूं और उस कथन का गलत अर्थ लगा सकता हूं।
गूँग - मोनिका

5

आपको अपने प्रश्न का सामान्य उत्तर देने के लिए, मुझे अपने पुराने महाप्रबंधकों में से एक के बारे में बताएं: अनुसंधान के अवसर आपके द्वारा फिटिंग किए जा रहे मॉडल के आउटलेयर में पाए जाते हैं।

स्थिति एक इलेक्ट्रॉन के प्रभार का निर्धारण करने में मेरे रॉबर्ट मिलिकन द्वारा किए गए प्रयोग के समान है। उनके प्रयोग के लिए नोबेल पुरस्कार जीतने के बाद, उनके नोटों की जांच की गई और यह पाया गया कि उन्होंने बड़ी संख्या में डेटा बिंदुओं को बाहर फेंक दिया क्योंकि वे उन परिणामों से असहमत थे जिनकी उन्हें तलाश थी। क्या वह बुरा विज्ञान है?

यदि आप कुछ आउटलेयर पाते हैं, तो हो सकता है कि वे "सांख्यिकीय एबेरेशंस" के कारण हों। हालाँकि, यदि आप कुछ आउटलेर्स से अधिक पाते हैं, तो आपको अपने डेटा को अधिक बारीकी से एक्सप्लोर करने की आवश्यकता है। यदि आप गर्भपात के लिए एक कारण नहीं बता सकते हैं, तो आप प्रक्रिया को नहीं समझते हैं और एक सांख्यिकीय मॉडल आपकी समस्या का समाधान नहीं करेगा। एक मॉडल का उद्देश्य एक प्रक्रिया को संक्षेप में प्रस्तुत करना है, मॉडल जादुई प्रक्रिया को संक्षेप में प्रस्तुत नहीं करेगा जो प्रयोगकर्ता को समझ में नहीं आता है।


यह मानवीय प्रवृत्ति है। रॉबर्ट मिलिकन कोई अपवाद नहीं था। मैं बहुत खुश हूं कि इतनी सारी नई चीजें प्रबुद्ध हुई हैं और एक सांख्यिकीय मॉडल के पीछे दर्शन पर जोर दिया गया है।
DrWho

5

"डेटा क्लींजिंग" की भूमिका यह जानना है कि "हमारे कानून (मॉडल) काम नहीं करते हैं"। आउटलेयर या असामान्य डेटा बिंदुओं के लिए समायोजन करना हमें वर्तमान मॉडल में मापदंडों के "मजबूत अनुमान" प्राप्त करने की अनुमति देता है जो हम मनोरंजक हैं। ये "आउटलेयर" यदि अनुपचारित मॉडल मापदंडों में एक अवांछित विरूपण की अनुमति देते हैं, तो अनुमान है कि "इन डेटा बिंदुओं को समझाने के लिए प्रेरित है" जो "हमारे परिकल्पित मॉडल के अनुसार व्यवहार नहीं कर रहे हैं"। दूसरे शब्दों में "खलनायकों" पर ध्यान केंद्रित करके वर्गों के स्पष्ट योग के संदर्भ में बहुत अधिक वापसी है। आनुभविक रूप से पहचाने जाने वाले बिंदु जिनकी सफाई की आवश्यकता होती है, उन्हें संभावित रूप से विकसित करने / सुझाव देने के लिए सावधानीपूर्वक छानबीन करनी चाहिए, जो वर्तमान मॉडल में नहीं हैं।

वार्षिक स्थिति घातक दर का उपयोग करके एक राज्य बनाम दूसरे में हस्तक्षेप के प्रभाव का आकलन कैसे करें?

विज्ञान के लिए बार-बार पैटर्न की खोज करना है।

विसंगतियों का पता लगाने के लिए उन मूल्यों की पहचान करना है जो दोहराया पैटर्न का पालन नहीं करते हैं। आपको और कैसे पता चलेगा कि एक बिंदु ने उस मॉडल का उल्लंघन किया है? वास्तव में, आउटलेर्स को बढ़ने, समझने, खोजने और जांचने की प्रक्रिया पुनरावृत्त होनी चाहिए। यह कोई नई सोच नहीं है।

सर फ्रांसेस बेकन ने नोवम ऑर्गम में लगभग 400 साल पहले लिखा था: “प्रकृति, खेल और राक्षस की गलतियाँ सामान्य चीजों के संबंध में समझ को सही करती हैं, और सामान्य रूपों को प्रकट करती हैं। जो कोई भी प्रकृति के तरीकों को जानता है, वह आसानी से उसके विचलन को नोटिस करेगा; और, दूसरी ओर, जो कोई भी जानता है कि विध्वंस उसके तरीकों का अधिक सटीक वर्णन करेगा। "

वर्तमान नियमों के विफल होने पर हम अपने नियमों को बदलते हैं।

यदि वास्तव में पहचाने गए आउटलेर सभी दालें हैं और उनके समान प्रभाव (आकार) हैं तो हम निम्नलिखित सुझाव देते हैं (दूसरे पोस्टर से उद्धृत)

एक प्रतिगमन सेटिंग में ऐसा करने के लिए "एक त्वरित और गंदा" तरीका एक महामारी चर के रूप में महामारी वर्ष / अवधि के लिए एक संकेतक शामिल करना है। इससे आपको महामारी के प्रभाव का एक औसत अनुमान मिलेगा (और निहितार्थ प्रभाव को मानता है। प्रत्येक महामारी के लिए एक ही)। हालांकि, यह दृष्टिकोण केवल प्रभाव का वर्णन करने के लिए काम करता है, क्योंकि पूर्वानुमान में, आपका प्रतिगमन चर अज्ञात है (आप नहीं जानते कि भविष्य में कौन सी अवधि महामारी वाले होंगे)। "

यदि इस पाठ्यक्रम के लिए आवश्यक है कि व्यक्तिगत विसंगतियों (पल्स वर्ष) के समान प्रभाव हों। यदि वे भिन्न होते हैं तो ऊपर वर्णित एक पोर्टमैंटो चर गलत होगा।


@IrishStat: शानदार व्याख्या और एक यादगार उद्धरण। आपने अपनी वरिष्ठता और विशेषज्ञता को बनाए रखा। क्या आप कृपया मेरे पहले के प्रश्न आँकड़े के
questions

1
@ दिल्ली: 2014 में लेवल शिफ्ट की पहचान जिसने बहुत खराब दिखने वाले अवशिष्ट भूखंड को हटा दिया, यह "खोज की प्रतीक्षा कर रहा ज्ञान" का एक उदाहरण है क्योंकि इसने एक नीति परिवर्तन तिथि के बीच स्पष्ट देरी का खुलासा किया और यह पूर्ण कार्यान्वयन / प्राप्ति तिथि है। यह कथन कि एक स्थायी स्तर (स्टेप) शिफ्ट पूरी तरह से 2004 (17 का वर्ष 11) में महसूस किया गया था, वास्तव में उस तारीख को दर्शाता है, जहां कुछ साल पहले डे ज्यूर की तारीख थी।
आयरिशस्टैट

@IrishStat: स्पष्टीकरण के लिए धन्यवाद। नीति निर्माताओं, डॉक्टरों और जनता को यह समझाना बहुत मुश्किल है कि किसी विशेष उपचार से रोग के परिणामों में भारी बदलाव हो सकता है। इसमें दशकों लग जाते हैं। 2004 में इस स्तर की बदलाव को कुछ नया स्वीकार करने में देरी को दर्शाता है। प्रश्न आँकड़े.स्टैकएक्सचेंज.com
questions

1
ऊपर मेरी टिप्पणी 2004 में LEVEL SHIFT होनी चाहिए थी। भ्रम के बारे में क्षमा करें।
आयरिशस्टैट

1
@DrWHO: आपके प्रश्न के उत्तर में "क्या प्रश्न से निपटने के दौरान लेवल शिफ्ट को छोड़ना या केस 1 के स्टेट फैटलिटी रेट्स की गणना के लिए एक बाहरी के रूप में व्यवहार करना बेहतर है"। यदि आप इसका इलाज नहीं करते हैं, तो कोई बस कह सकता है कि STATE1 में 2004 में एक स्तर बदलाव हुआ था जबकि STATE2 इस प्रकार नहीं था कि वे अलग-अलग हों, लेकिन कोई उस कथन पर संभावना नहीं रख सकता है। STATE1 को लेवल शिफ्ट के लिए ट्रीट करने के बाद 2004 में स्टेटस चेंज के लिए डेटा को नॉर्मल कर दिया गया। नॉर्मलाइज्ड डेटा (क्लियर किया हुआ डेटा) की तुलना एसटीईटी 2 के नॉर्मलाइज्ड डेटा से की जा सकती है।
आयरिशस्टैट

5

पूर्वव्यापी डेटा में महामारी खोजने के लिए सबसे अधिक इस्तेमाल की जाने वाली विधियों में से एक है में से वास्तव में आउटलेर्स की तलाश में है - कई फ़्लू शोधकर्ता, उदाहरण के लिए, मुख्य रूप से अपने फिट किए गए मॉडल के अवशेषों पर ध्यान केंद्रित करते हैं, न कि स्वयं मॉडलों की तुलना में, उन स्थानों को देखने के लिए जहां "दिन"। , दिन में "मॉडल की भविष्यवाणियां विफल हो जाती हैं - जिस तरह से मॉडल विफल हो सकता है उनमें से एक महामारी की उपस्थिति के साथ है।

हालांकि यह जरूरी है कि आप अपने परिणामों में शिकार करने वालों के बीच भेद करें - शायद सबसे बड़ा विचार नहीं है - और अधिकांश लोग "डेटा सफाई" के रूप में संदर्भित करते हैं। यहां, आप बाहरी लोगों की तलाश कर रहे हैं, क्योंकि वे एक सांख्यिकीय समस्या का प्रतिनिधित्व करते हैं, लेकिन क्योंकि वे डेटा गुणवत्ता के मुद्दों को उठाते हैं।

उदाहरण के लिए, मेरे पास मौजूद डेटा सेट में बीमारी की शुरुआत के लिए एक चर है। एक विषय के लिए, यह तिथि 1929 के नवंबर में है। क्या मुझे लगता है कि यह सही है? नहीं। यह एक डेटा गुणवत्ता समस्या को इंगित करता है जिसे ठीक करने की आवश्यकता है - इस मामले में विषय के बारे में अन्य जानकारी के आधार पर तारीख को सही करना। इस प्रकार की डेटा सफाई आपके सांख्यिकीय परिणामों की गुणवत्ता में सक्रिय रूप से सुधार करेगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.