एक गिनती की मानक त्रुटि


14

मेरे पास एक दुर्लभ बीमारी के मौसम द्वारा घटना के मामलों का डेटासेट है। उदाहरण के लिए, कहते हैं कि वसंत में 180 मामले थे, गर्मियों में 90, गिरावट में 45 और सर्दियों में 210। मैं इस बात से जूझ रहा हूं कि क्या इन नंबरों में मानक त्रुटियों को संलग्न करना उचित है। अनुसंधान के लक्ष्य इस अर्थ में हीन हैं कि हम भविष्य में होने वाली बीमारी की घटनाओं में एक मौसमी पैटर्न की तलाश कर रहे हैं। इस प्रकार, यह सहज रूप से महसूस करता है जैसे कि यह कुल योग की अनिश्चितता को मापने के लिए संभव होना चाहिए। हालाँकि, मुझे यकीन नहीं है कि हम इस मामले में एक मानक त्रुटि की गणना कैसे करेंगे क्योंकि हम साधारण काउंट के बजाय व्यवहार कर रहे हैं, उदाहरण के लिए, अनुपात या अनुपात।

अंत में, यह उत्तर इस बात पर निर्भर करेगा कि क्या डेटा मामलों की आबादी (हर मामले जो कभी घटित हुआ है) का प्रतिनिधित्व करता है या एक यादृच्छिक नमूना? अगर मैं गलत नहीं हूं, तो आम तौर पर जनसंख्या के आंकड़ों के साथ मानक त्रुटियों को पेश करने का कोई मतलब नहीं है, क्योंकि कोई निष्कर्ष नहीं है।


गणना सिर्फ अप्राकृतिक अनुपात है जिससे आप सेंट की गणना कर सकते हैं। अनुपात की त्रुटि और इसे इकाइयों में "अप्राकृतिक" करने के लिए, यदि यह आपके लिए सार बनाता है। आप सही हैं कि सेंट। त्रुटि केवल नमूने के लिए लागू होती है। जनसंख्या में, कोई त्रुटि नहीं है।
ttnphns

जवाबों:


14

जनसंख्या उन सभी लोगों का (काल्पनिक) सेट है, जिन्हें बीमारी होने का खतरा है; आमतौर पर, इसमें सभी लोग (या कुछ स्पष्ट रूप से पहचाने जाने योग्य उपसमूह) होते हैं जो अध्ययन क्षेत्र में रहते हैं। इस आबादी को स्पष्ट रूप से परिभाषित करना महत्वपूर्ण है, क्योंकि यह अध्ययन का लक्ष्य है और डेटा से बने सभी निष्कर्षों का है।

जब रोग के मामले स्वतंत्र होते हैं (जो एक उचित परिकल्पना हो सकती है जब बीमारी लोगों के बीच आसानी से संप्रेषित नहीं होती है और स्थानीय पर्यावरणीय परिस्थितियों के कारण नहीं होती है) और वे दुर्लभ हैं, तो काउंट्स को पॉइसन वितरण का बारीकी से पालन करना चाहिए । इस वितरण के लिए, इसके मानक विचलन का एक अच्छा अनुमान गिनती का वर्गमूल है

इन अनुमानों का उपयोग करते हुए, डेटा में ( 13.4 , 9.5 , 6.7 , 14.5 ) के मानक विचलन होंगे , जिसे हम त्रुटि के किसी न किसी आकलन के रूप में अनंतिम रूप से ले सकते हैं । वैचारिक रूप से, प्रत्येक मौसम में एक काल्पनिक सच्ची बीमारी की घटना दर होती है - उस मौसम में हर किसी की आबादी में इस बीमारी के होने का जोखिम कम (कम) होता है - लेकिन क्योंकि इस बीमारी को एक बेतरतीब माना जाता है(180,90,45,210)(13.4,9.5,6.7,14.5)घटना, एक सीज़न के दौरान देखी गई बीमारियों की वास्तविक संख्या उस वास्तविक दर से भिन्न होगी। सही (लेकिन अज्ञात!) दर का वर्गमूल भिन्न होने की संभावना की मात्रा निर्धारित करता है। क्योंकि प्रेक्षित गणनाओं को वास्तविक दरों के करीब होना चाहिए , क्योंकि उनकी वर्गमूल वास्तविक दरों के वर्गमूल के लिए उचित प्रॉक्सी होनी चाहिए। ये समीपताएं वास्तव में "मानक त्रुटि" से होती हैं।

1657714.577

9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28.5,20,44)

जहाँ तक इन सीमित डेटा के साथ जाने की बात है। इन सरल गणनाओं से पता चला है कि:

  • जनसंख्या की विशेषता महत्वपूर्ण है,

  • एक गिनती का वर्गमूल अपनी मानक त्रुटि का आकलन करने के लिए एक प्रारंभिक बिंदु है,

  • वर्गमूल को रोग के मामलों में स्वतंत्रता की कमी को प्रतिबिंबित करने के लिए कुछ कारक द्वारा (लगभग) गुणा किया जाना है (और यह कारक लगभग रोग समूहों के आकार से संबंधित हो सकता है)

  • इन मामलों में भिन्नता मुख्य रूप से अनिश्चितता (अंतर्निहित पॉइज़न तीव्रता के बारे में) के बजाय समय के साथ रोग दर में भिन्नता को दर्शाती है।


1
बहुत विचारशील, पूरी तरह से जवाब! बहुत बहुत धन्यवाद।
पास

2

जब मैंने पूछा, "मानक त्रुटि क्या है?" आप इन चार आंकड़ों का मतलब निकाल सकते हैं, और आप उस माध्य की मानक त्रुटि की गणना कर सकते हैं। यदि आप मानते हैं कि आप 4 सत्रों के सभी सेटों के प्रतिनिधि के रूप में उन 4 सत्रों को मानने के लिए उचित थे, जो कि आप सामान्यीकृत कर सकते हैं, तो यह सांख्यिकीय और एक परिणामी आत्मविश्वास अंतराल होगा। इस हद तक कि आप इतने न्यायसंगत हैं, आपके पास मौजूद डेटा वास्तव में आबादी का एक यादृच्छिक नमूना होगा। आपके द्वारा उल्लिखित नमूने में नमूने की एक अतिरिक्त परत होगी - आप इसे क्लस्टर नमूना कह सकते हैं, जहाँ प्रत्येक वर्ष एक क्लस्टर बनता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.