नमूना आकार बहुत बड़ा होने पर आत्मविश्वास अंतराल


14

मेरे प्रश्न को "बड़े डेटा का उपयोग करके एक नमूना त्रुटि का आकलन कैसे करें" के रूप में प्रतिरूपित किया जा सकता है, विशेष रूप से एक जर्नल प्रकाशन के लिए। यहाँ एक चुनौती को चित्रित करने के लिए एक उदाहरण है।

एक बहुत बड़े डेटासेट से (> 100 अस्पतालों से अद्वितीय रोगी और उनकी निर्धारित दवाएं), मैं एक विशिष्ट दवा लेने वाले रोगियों के अनुपात का अनुमान लगाने में दिलचस्पी रखता हूं। इस अनुपात को प्राप्त करना सीधा है। इसका आत्मविश्वास अंतराल (जैसे, पैरामीट्रिक या बूटस्ट्रैप) अविश्वसनीय रूप से तंग / संकीर्ण है, क्योंकि n बहुत बड़ा है। हालांकि, बड़े आकार का नमूना होना सौभाग्य की बात है, मैं अभी भी त्रुटि क्षमताओं के कुछ रूपों का आकलन, वर्तमान, और / या कल्पना करने का एक तरीका खोज रहा हूं। हालांकि यह विश्वास अंतराल (उदाहरण के लिए, 95% CI: .65878 - -65881) डालने / कल्पना करने के लिए अनहेल्दी (यदि भ्रामक नहीं है) लगता है, तो अनिश्चितता के बारे में कुछ बयानों से बचना भी असंभव लगता है।

मुझे बताओ कि तुम क्या सोचते हो। मैं इस विषय पर किसी भी साहित्य की सराहना करूंगा; बड़े नमूना आकार के साथ भी डेटा में अति-आत्मविश्वास से बचने के तरीके।


7
आप यह याद करके अति-आत्मविश्वास से बच सकते हैं कि गैर-नमूनाकरण त्रुटियां अछूती रहें। यदि नमूने और माप में पक्षपात होते हैं, तो वे अभी भी वहां हैं। इसके अलावा, चाहे आप अनूठे तरीके से गिन रहे हों (मैं "अलग-अलग कहूंगा") मरीजों या टिप्पणियों को किसी अन्य तरीके से परिभाषित किया गया है, वहाँ (मैं अनुमान लगाता हूं) एक ही रोगी के लिए दवाओं को जोड़ने वाली क्लस्टर संरचनाएं और दवाएं जो किसी भी तरह से एक साथ दी जाती हैं, जो सबसे सरल विश्वास अंतराल गणनाओं के लिए जिम्मेदार नहीं हैं। अन्य डेटासेट के साथ तुलना करने और डेटा उत्पादन का दस्तावेजीकरण करने से परे इसका कोई समाधान नहीं है।
निक कॉक्स

जवाबों:


10

यह समस्या मेरे कुछ शोधों में भी सामने आई है (एक महामारी मॉडलर के रूप में, मेरे पास अपने डेटा सेट बनाने की लक्जरी है, और बड़े पर्याप्त कंप्यूटरों के साथ, वे अनिवार्य रूप से मनमाने ढंग से आकार ले सकते हैं। कुछ विचार:

  • रिपोर्टिंग के संदर्भ में, मुझे लगता है कि आप अधिक सटीक आत्मविश्वास अंतराल की रिपोर्ट कर सकते हैं, हालांकि इस की उपयोगिता वैध रूप से थोड़ा संदिग्ध है। लेकिन यह गलत नहीं है, और इस आकार के डेटा सेटों के साथ, मुझे नहीं लगता कि दोनों डिमांड अंतरालों के लिए बहुत अधिक कॉल किए गए हैं और फिर शिकायत करते हैं कि हम वास्तव में उन सभी को दो अंकों में गोल करना चाहते हैं, आदि।
  • अति आत्मविश्वास से बचने के संदर्भ में, मुझे लगता है कि कुंजी को याद रखना है कि सटीकता और सटीकता अलग-अलग चीजें हैं, और दोनों को भ्रमित करने की कोशिश से बचने के लिए। यह बहुत ही लुभावना होता है, जब आपके पास एक बड़ा नमूना होता है, तो यह माना जाता है कि अनुमानित प्रभाव कितना सटीक है और यह गलत नहीं है। मुझे लगता है कि कुंजी है - एक पक्षपाती डेटा सेट में वह पूर्वाग्रह N = 10, या 100, या 1000 या 100,000 पर होगा।

बड़े डेटा सेट का पूरा उद्देश्य सटीक अनुमान प्रदान करना है, इसलिए मुझे नहीं लगता कि आपको उस सटीकता से दूर हटने की आवश्यकता है। लेकिन आपको यह याद रखना होगा कि खराब डेटा का बड़ा वॉल्यूम इकट्ठा करके आप खराब डेटा को बेहतर नहीं बना सकते।


मुझे लगता है कि खराब डेटा की बड़ी मात्रा अभी भी खराब डेटा की छोटी मात्रा से बेहतर है।
अक्कल

@ अक्षल क्यों? एक सटीक गलत उत्तर अभी भी गलत है।
फोमाइट

@Fomite - हाँ, लेकिन आप अधिक आश्वस्त हैं कि यह गलत है :)
डंकन

6

यह समस्या मेरी अपनी पांडुलिपियों में सामने आई है।

1. रिपोर्टिंग विकल्प: यदि आपके पास रिपोर्ट करने के लिए सिर्फ एक या कुछ सीआई हैं, तो रिपोर्टिंग "(उदाहरण के लिए, 95% सीआई: .65878 - -65881)" अत्यधिक क्रिया नहीं है, और यह सीआई की सटीकता पर प्रकाश डालता है। हालांकि, यदि आपके पास कई सीआई हैं, तो एक कंबल बयान पाठक के लिए अधिक उपयोगी हो सकता है। उदाहरण के लिए, मैं आमतौर पर "इस नमूने के आकार के साथ" के प्रभाव के बारे में कुछ रिपोर्ट करूंगा, प्रत्येक अनुपात के लिए त्रुटि का 95% विश्वास मार्जिन +/--010 से कम था। " मैं आमतौर पर इस विधि में, या तालिका या चित्र के कैप्शन में या दोनों में कुछ इस तरह की रिपोर्ट करता हूं।

2. बड़े नमूना आकार के साथ भी "अति-आत्मविश्वास" से बचना: 100,000 के नमूने के साथ, अनुपात के लिए CI की रिपोर्ट करते समय केंद्रीय सीमा प्रमेय आपको सुरक्षित रखेगा। इसलिए, आपके द्वारा बताई गई स्थिति में, आपको ठीक होना चाहिए, जब तक कि अन्य धारणा के उल्लंघन न हों, मुझे इसकी जानकारी नहीं है (उदाहरण के लिए, उल्लंघन किए गए iB)।


0

विश्वास अंतराल की रिपोर्ट न करें। इसके बजाय सटीक नमूना आकार और अनुपात की रिपोर्ट करें। पाठक किसी भी तरह से अपनी इच्छा से अपने सीआई की गणना कर सकेगा।


4
क्वांटिटेटिव डेटा की सभी रिपोर्टिंग के लिए इसे बहुत तर्कपूर्ण क्यों नहीं लागू किया जाना चाहिए ?
whuber

@ शुभ, अच्छा सवाल। मैं सभी प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के लिए हूँ, काश हर कोई अपने डेटासेट प्रकाशित करता।
अक्कल '

6
मेरा मतलब यह नहीं था कि इसे एक सुझाव के रूप में लिया जाए। यहां तक ​​कि अगर सभी ने अपने डेटासेट प्रकाशित किए, तो वे अपने वैज्ञानिक कर्तव्यों का पालन कर रहे होंगे यदि वे उनमें से एक विश्लेषण की आपूर्ति करने में विफल रहे - और इसमें अनिश्चितता का विश्लेषण शामिल है। आप एक ऐसी दिशा में जा रहे हैं जो तार्किक रूप से इस सुझाव के साथ समाप्त होगी कि वैज्ञानिक डेटा को प्रकाशित करने के अलावा कुछ भी नहीं करते हैं, जिसका कोई विश्लेषण नहीं है! यह सिफारिश की गई है कि सीआई को सूचित नहीं किया जाएगा। यह इसके विपरीत इंगित करता है कि किसी भी मामले में नमूना आकार की परवाह किए बिना किसी भी तरह के सांख्यिकीय विश्लेषण की पेशकश की जानी चाहिए।
whuber

0

इस संभावना पर विचार करें कि 100 विभिन्न अस्पतालों के अनुपात समान माध्य मान में परिवर्तित नहीं होते हैं। क्या आपने समूह-समूह विचरण के लिए परीक्षण किया था? यदि अस्पतालों के बीच एक औसत दर्जे का अंतर है, तो यह धारणा कि नमूने सामान्य सामान्य वितरण से उत्पन्न होते हैं, समर्थित नहीं हैं और आपको उन्हें पूल नहीं करना चाहिए।

हालांकि यदि आपका डेटा वास्तव में सामान्य रूप से वितरित बड़े नमूने से आता है, तो आप डेटा की संपत्ति के रूप में उपयोगी "अनिश्चितताओं के बारे में बयान" नहीं ढूंढने जा रहे हैं, लेकिन आपके आंकड़ों के सामान्य होने या न होने के बारे में प्रतिबिंब के कारण - संग्रह में कुछ अंतर्निहित पूर्वाग्रह, या स्थिरता की कमी, आदि जो आपको इंगित करना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.