एक 95% सीआई मतलब रखने के 95% संभावना क्यों नहीं करता है?
इस प्रश्न में और दिए गए प्रतिक्रियाओं के बहुमत में कई मुद्दों को स्पष्ट किया जाना है। मैं खुद को उनमें से केवल दो तक ही सीमित रखूंगा।
ए। जनसंख्या का क्या मतलब है? क्या एक सही आबादी मौजूद है?
जनसंख्या की अवधारणा का अर्थ मॉडल-निर्भर है। जैसा कि सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं, इस जनसंख्या का मतलब एक कल्पना है जिसे केवल उपयोगी व्याख्याएं प्रदान करने के लिए परिभाषित किया गया है। कल्पना एक संभावना मॉडल के साथ शुरू होती है।
संभावना मॉडल को ट्रिपलेट द्वारा परिभाषित किया गया है
जहां नमूना स्थान (एक गैर-खाली सेट) है, एक परिवार है और के सबसेट, एक अच्छी तरह से परिभाषित प्रायिकता उपाय है, जिसे पर परिभाषित किया जाता है (यह डेटा व्यवहार को नियंत्रित करता है)। व्यापकता के नुकसान के बिना, केवल असतत मामले पर विचार करें। जनसंख्या का मतलब परिभाषित किया गया है
अर्थात यह अंतर्गत केंद्रीय प्रवृत्ति का प्रतिनिधित्व करता है और इसे व्याख्या के द्रव्यमान के केंद्र के रूप में भी समझा जा सकता है सभी अंक , जहां प्रत्येक का वजन एक्स एफ एक्स पी एफ μ = Σ एक्स ∈ एक्स एक्स पी ( एक्स = एक्स ) , पी एक्स एक्स ∈ एक्स पी ( एक्स = एक्स )
( एक्स), एफ, पी) ,
एक्सएफएक्सPFμ=∑x∈XxP(X=x),
PXx∈X द्वारा दिया जाता है ।
P(X=x)
संभाव्यता सिद्धांत में, माप को माना जाता है, इसलिए जनसंख्या का मतलब उपरोक्त सरल ऑपरेशन के माध्यम से सुलभ है। हालांकि, व्यवहार में, संभावना शायद ही जाना जाता है। संभाव्यता बिना , कोई डेटा के संभाव्य व्यवहार का वर्णन नहीं कर सकता है। जैसा कि हम डेटा व्यवहार की व्याख्या करने के लिए एक सटीक संभावना सेट नहीं कर सकते हैं, हम डेटा व्यवहार को नियंत्रित (या व्याख्या) करने वाले प्रायिकता उपायों से युक्त एक पारिवारिक सेट करते हैं। फिर, शास्त्रीय सांख्यिकीय मॉडल उभरता है
उपर्युक्त मॉडल को पैरामीट्रिक मॉडल कहा जाता है यदि साथ मौजूद हैP P P M ( X , F , M ) । Θ ⊆ आर पी पी < ∞ एम ≡ { पी θ : θ ∈ Θ }PPPPM
(X,F,M).
Θ⊆Rpp<∞ जैसे कि । आइए इस पोस्ट में सिर्फ पैरामीट्रिक मॉडल पर विचार करें।
M≡{Pθ: θ∈Θ}
ध्यान दें कि, प्रत्येक संभाव्यता के लिए , एक संबंधित औसत परिभाषा है
अर्थात्, जनसंख्या का एक परिवार है जिसका अर्थ है जो कसकर की परिभाषा पर निर्भर करता है । परिवार को सीमित मनुष्यों द्वारा परिभाषित किया गया है और इसलिए इसमें डेटा व्यवहार को नियंत्रित करने वाली सही संभावना माप नहीं हो सकती है। वास्तव में, चुने हुए परिवार में शायद ही सही माप होगा, इसके अलावा इस सच्चे उपाय का अस्तित्व भी नहीं हो सकता है। जैसा कि जनसंख्या माध्य की अवधारणा में संभाव्यता उपायों पर निर्भर करती है , जनसंख्या का मतलब मॉडल-निर्भर है।μ θ = Σ एक्स ∈ एक्स एक्स पी θ ( एक्स = एक्स ) । { Μ θ : θ ∈ Θ } एम एम एमPθ∈M
μθ=∑x∈XxPθ(X=x).
{μθ: θ∈Θ}MMM
बायेसियन दृष्टिकोण (या, समतुल्य, ) के सबसेट पर एक पूर्व संभाव्यता पर विचार करता है , लेकिन इस पोस्ट में मैं केवल शास्त्रीय संस्करण पर ध्यान केंद्रित करूंगा। ΘMΘ
ख। आत्मविश्वास अंतराल की परिभाषा और उद्देश्य क्या है?
उपर्युक्त के रूप में, जनसंख्या का मतलब मॉडल-निर्भर है और उपयोगी व्याख्याएं प्रदान करता है। हालाँकि, हमारे पास जनसंख्या का एक परिवार का मतलब है, क्योंकि सांख्यिकीय मॉडल को संभाव्यता उपायों के परिवार द्वारा परिभाषित किया गया है (प्रत्येक प्रायिकता उपाय जनसंख्या का मतलब उत्पन्न करता है)। इसलिए, एक प्रयोग के आधार पर, एक छोटे से सेट (अंतराल) का अनुमान लगाने के लिए हीनतापूर्ण प्रक्रियाओं को नियोजित किया जाना चाहिए, जिसमें जनसंख्या के अच्छे उम्मीदवार शामिल हैं। एक अच्छी तरह से ज्ञात प्रक्रिया है ( ) विश्वास क्षेत्र, जिसे एक सेट द्वारा परिभाषित किया जाता है, जैसे कि, सभी ,
जहांसी अल्फा θ ∈ Θ पी θ ( सी अल्फा ( एक्स ) ∋ μ θ ) ≥ 1 - अल्फा और inf θ ∈ Θ पी θ ( सी अल्फा ( एक्स ) ∋ μ θ ) = 1 - अल्फा , पी θ ( सी α ( एक्स ) = ∅ ) = 0 पी θ1−αCαθ∈Θ
Pθ(Cα(X)∋μθ)≥1−α and infθ∈ΘPθ(Cα(X)∋μθ)=1−α,
Pθ(Cα(X)=∅)=0 varn सुखदायक (Schervish, 1995 देखें)। यह एक बहुत ही सामान्य परिभाषा है और इसमें लगभग किसी भी प्रकार के आत्मविश्वास अंतराल शामिल हैं। यहाँ, की संभावना है कि में को मापने के तहत । यह प्रायिकता हमेशा की तुलना में (या बराबर) से अधिक होनी चाहिए , समानता सबसे खराब स्थिति में होती है।
Pθ(Cα(X)∋μθ)Cα(X)μθPθ1−α
टिप्पणी: पाठकों को ध्यान देना चाहिए कि वास्तविकता की स्थिति पर धारणा बनाने के लिए आवश्यक नहीं है, आत्मविश्वास क्षेत्र को किसी भी "सही" अर्थ के संदर्भ के बिना एक अच्छी तरह से परिभाषित सांख्यिकीय मॉडल के लिए परिभाषित किया गया है। यहां तक कि अगर "सही" संभावना माप मौजूद नहीं है या यह , तो विश्वास क्षेत्र की परिभाषा काम करेगी, क्योंकि धारणाएं वास्तविकता के राज्यों के बजाय सांख्यिकीय मॉडलिंग के बारे में हैं।M
एक ओर, पहले डेटा को देख, एक यादृच्छिक सेट (या यादृच्छिक अंतराल) और संभावना है कि "है मतलब होता है है, कम से कम," सभी के लिए । यह लगातार प्रतिमान के लिए एक बहुत ही वांछनीय विशेषता है।Cα(X)Cα(X)μθ(1−α)θ∈Θ
दूसरी ओर, डेटा अवलोकन करने के बाद , केवल एक निश्चित सेट है और संभावना है कि " में माध्य " {0,1} के लिए होना चाहिए ऑल ।xCα(x)Cα(x)μθθ∈Θ
अर्थात्, डेटा अवलोकन करने के बाद , हम अब संभाव्य तर्क को नियोजित नहीं कर सकते हैं। जहां तक मुझे पता है, एक मनाया नमूना के लिए विश्वास सेट का इलाज करने के लिए कोई सिद्धांत नहीं है (मैं इस पर काम कर रहा हूं और मुझे कुछ अच्छे परिणाम मिल रहे हैं)। थोड़ी देर के लिए, frequentist विश्वास होना चाहिए कि मनाया सेट (या अंतराल) में से एक है सेट स्थापित करता है, सभी के लिए ।सी α ( एक्स ) ( 1 - α ) 100 % μ θ θ ∈ ΘxCα(x)(1−α)100%μθθ∈Θ
पुनश्च: मैं अपनी पोस्ट पर किसी भी टिप्पणी, समीक्षा, आलोचना, या यहां तक कि आपत्तियां आमंत्रित करता हूं। आइए इसकी गहराई से चर्चा करें। जैसा कि मैं एक देशी अंग्रेजी वक्ता नहीं हूं, मेरी पोस्ट में निश्चित रूप से टाइपो और व्याकरण की गलतियाँ हैं।
संदर्भ:
शर्विश, एम। (1995), थ्योरी ऑफ़ स्टेटिस्टिक्स, सेकंड एड, स्प्रिंगर।