मेरे प्रश्न को "बड़े डेटा का उपयोग करके एक नमूना त्रुटि का आकलन कैसे करें" के रूप में प्रतिरूपित किया जा सकता है, विशेष रूप से एक जर्नल प्रकाशन के लिए। यहाँ एक चुनौती को चित्रित करने के लिए एक उदाहरण है।
एक बहुत बड़े डेटासेट से (> 100 अस्पतालों से अद्वितीय रोगी और उनकी निर्धारित दवाएं), मैं एक विशिष्ट दवा लेने वाले रोगियों के अनुपात का अनुमान लगाने में दिलचस्पी रखता हूं। इस अनुपात को प्राप्त करना सीधा है। इसका आत्मविश्वास अंतराल (जैसे, पैरामीट्रिक या बूटस्ट्रैप) अविश्वसनीय रूप से तंग / संकीर्ण है, क्योंकि n बहुत बड़ा है। हालांकि, बड़े आकार का नमूना होना सौभाग्य की बात है, मैं अभी भी त्रुटि क्षमताओं के कुछ रूपों का आकलन, वर्तमान, और / या कल्पना करने का एक तरीका खोज रहा हूं। हालांकि यह विश्वास अंतराल (उदाहरण के लिए, 95% CI: .65878 - -65881) डालने / कल्पना करने के लिए अनहेल्दी (यदि भ्रामक नहीं है) लगता है, तो अनिश्चितता के बारे में कुछ बयानों से बचना भी असंभव लगता है।
मुझे बताओ कि तुम क्या सोचते हो। मैं इस विषय पर किसी भी साहित्य की सराहना करूंगा; बड़े नमूना आकार के साथ भी डेटा में अति-आत्मविश्वास से बचने के तरीके।