एक पर्याप्त आंकड़े में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी क्यों होती है?


16

मैंने अभी-अभी आँकड़ों का अध्ययन शुरू किया है और मुझे पर्याप्तता की सहज समझ नहीं मिल पा रही है। अधिक सटीक होने के लिए मैं यह नहीं समझ सकता कि कैसे दिखाया जाए कि निम्नलिखित दो पैराग्राफ बराबर हैं:

मोटे तौर पर, एक अज्ञात पैरामीटर पर सशर्त रूप से वितरित किए गए स्वतंत्र रूप से वितरित किए गए डेटा का एक सेट दिया गया,, एक पर्याप्त आंकड़ा एक फ़ंक्शन T (X) है, जिसके मूल्य में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी शामिल है।

एक सांख्यिकीय T (X) अंतर्निहित पैरामीटर के लिए पर्याप्त है the ठीक है अगर डेटा X की सशर्त संभाव्यता वितरण, सांख्यिकीय T (X) दिया जाता है, पैरामीटर on पर निर्भर नहीं करता है।

(मैंने पर्याप्त आंकड़े से उद्धरण लिए हैं )

हालांकि मैं दूसरे कथन को समझता हूं, और मैं यह दर्शाने के लिए कि क्या कोई स्टेटिस्टिक पर्याप्त है, यह दर्शाने के लिए फैक्टराइजेशन प्रमेय का उपयोग कर सकता हूं, मैं यह नहीं समझ सकता कि ऐसी प्रॉपर्टी के साथ स्टेटिस्टिक के पास भी वह संपत्ति क्यों होती है "जिसमें किसी भी कंप्यूटर की गणना करने के लिए आवश्यक सभी जानकारी होती है पैरामीटर का अनुमान "। मैं एक औपचारिक प्रमाण की तलाश नहीं कर रहा हूं, जो मेरी समझ को परिष्कृत करने के लिए किसी भी तरह से मदद करेगा, मैं एक सहज स्पष्टीकरण प्राप्त करना चाहूंगा कि दोनों कथन समान क्यों हैं।

पुनर्कथन करने के लिए, मेरे प्रश्न हैं: दो कथन समान क्यों हैं? क्या कोई उनकी समानता के लिए सहज स्पष्टीकरण प्रदान कर सकता है?


1
मुख्य सहज विचार यह है कि आपको कभी-कभी पूरे नमूने को देखने की आवश्यकता नहीं है क्योंकि आप एक ऐसा आँकड़ा पा सकते हैं जो नमूने से आवश्यक सभी जानकारी को संक्षेप में प्रस्तुत करता है। उदाहरण के लिए, एक द्विपद वितरण: आप सभी को अपने मॉडल के लिए जानने की आवश्यकता है सफलताओं का योग है। आप अगर मैं केवल आपको बता दूँ कि मूल्य का कुछ भी नहीं खो कर बजाय आप नमूना मूल्यों के पूरे सेट दिखाने का, एक्स = { 1 , 0 , 0 , 1 , 0 , 1 , }inxi=cx={1,0,0,1,0,1,...}
मगन

मैं समझता हूं कि मुझे एक पर्याप्त आँकड़े की आवश्यकता क्यों है और यह दिखाने के लिए कि सफलताओं का योग बर्नौली प्रक्रिया में पी के लिए एक पर्याप्त आंकड़ा है। मुझे समझ में नहीं आता है कि दूसरे पैराग्राफ में वर्णित इस तरह के एक आंकड़े में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी शामिल है।
gcoll

3
कड़ाई से बोलना, पहला उद्धरण सिर्फ सादा गलत है। पूरे डेटासेट से गणना की जा सकती है, जो पर्याप्त आँकड़ों से पूरी तरह से गणना नहीं की जा सकती है। यही कारण है कि बोली शुरू होती है "मोटे तौर पर।" एक और कारण यह है कि यह "सूचना" की मात्रात्मक या कठोर परिभाषा की आपूर्ति नहीं करता है। चूंकि पूर्ववर्ती पैराग्राफ में अधिक सटीक (लेकिन अभी भी सहज) लक्षण वर्णन दिया गया था, हालांकि, उचित संदर्भ में
whuber

1
इसका अधिकतम संभावना से संबंध है और यह अनिवार्य रूप से अधिकतम संभावना में आवश्यक जानकारी है
कामस्टर

1
व्हीबर और @ कामस्टर की टिप्पणियों के बाद, मुझे शायद बेहतर समझ मिली। जब हम कहते हैं कि एक पर्याप्त सांख्यिकीय में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी होती है, तो क्या वास्तव में हमारा मतलब है कि यह अधिकतम संभावना अनुमानक (जो सभी पर्याप्त आंकड़ों का एक फ़ंक्शन है) की गणना करने के लिए पर्याप्त है? यह सच है, मुद्दा "जानकारी" की (गैर-) परिभाषा से संबंधित था, जैसा कि व्हीबर ने सुझाव दिया था, और मेरे सवाल का जवाब दिया गया है।
22 अक्टूबर को gcoll

जवाबों:


3

@Whuber और @Kamster की टिप्पणियों के बाद, मुझे शायद बेहतर समझ मिली। जब हम कहते हैं कि एक पर्याप्त आंकड़े में पैरामीटर के किसी भी अनुमान की गणना करने के लिए आवश्यक सभी जानकारी शामिल है, तो हमारा वास्तव में मतलब यह है कि यह अधिकतम संभावना अनुमानक (जो सभी पर्याप्त आंकड़ों का एक फ़ंक्शन है) की गणना करने के लिए पर्याप्त है।

यह देखते हुए कि मैं अपने प्रश्न का उत्तर दे रहा हूं, और इसलिए मैं उत्तर का 100% सुनिश्चित नहीं हूं, जब तक मुझे कुछ प्रतिक्रिया नहीं मिलती मैं इसे सही नहीं मानूंगा। अगर आपको लगता है कि मैं गलत / अभेद्य / आदि हो रहा हूं, तो कृपया कोई टिप्पणी और डाउन-वोट डालें।

(मुझे पता है अगर यह एसई शिष्टाचार के साथ संगत नहीं है, तो यह मेरा पहला सवाल है कि अगर मैं किसी भी नियम का उल्लंघन कर रहा हूं तो मैं आपकी क्षमादान मांगता हूं)


1

जैसा कि मैं पर्याप्तता के बारे में अध्ययन कर रहा था, मैं आपके सवाल पर आया था क्योंकि मैं भी इस बारे में अंतर्ज्ञान को समझना चाहता था कि मैंने जो यह इकट्ठा किया है, वह वही है जिसके साथ मैं आया हूं (मुझे पता है कि आप क्या सोचते हैं, अगर मैंने कोई गलती की है, आदि)।

चलो मतलब के साथ एक प्वासों बंटन से नमूने के तौर पर हो θ > 0X1,,Xnθ>0

हम जानते हैं कि , θ के लिए एक पर्याप्त आँकड़ा है , क्योंकि X 1 का सशर्त वितरण , , X n दिया गया T ( X ) अन्य शब्दों में, θ से मुक्त है , नहीं θ पर निर्भर हैं ।T(X)=i=1nXiθX1,,XnT(X)θθ

अब, सांख्यिकीविद् जानता है कि एक्स 1 , , एक्स एन आई मैं d ) P o i s s o n ( 4 ) और इस वितरण से n = 400 यादृच्छिक मान बनाता है :A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

सांख्यिकीविद् ने जो मूल्य बनाए हैं, उसके लिए वह इसका योग लेता है और सांख्यिकीविद् बी से निम्नलिखित पूछता है :AB

"इन नमूना मान रहा है एक प्वासों बंटन से लिया। जानने कि Σ n मैं = 1 एक्स मैं = y = 4068- , क्या आप मुझे इस वितरण के बारे में बता सकते हैं?"x1,,xni=1nxi=y=4068

तो, जानते हुए भी केवल कि (और तथ्य यह है कि नमूना एक प्वासों बंटन से पैदा हुई) सांख्यिकीविद् के लिए पर्याप्त है बी के बारे में कुछ भी कहने के लिए θ ? चूँकि हम जानते हैं कि यह एक पर्याप्त आँकड़ा है जिसे हम जानते हैं कि इसका उत्तर "हाँ" है।i=1nxi=y=4068Bθ

इसके अर्थ के बारे में कुछ जानकारी हासिल करने के लिए, आइए निम्न कार्य करें (हॉग और मैकेन और क्रेग के "गणितीय सांख्यिकी का परिचय", 7 वें संस्करण, व्यायाम 7.1.9):

" कुछ नकली टिप्पणियों को बनाने का फैसला करता है, जिसे वह z 1 , z 2 , ... , z n (जैसा कि वह जानता है कि वे शायद मूल x- समानों के बराबर नहीं होंगे ) निम्नानुसार हैं। वह कहते हैं कि स्वतंत्र पॉइसन की सशर्त संभावना है। यादृच्छिक परिवर्तनीय जेड 1 , जेड 2 ... , जेड एन के बराबर किया जा रहा z 1 , जेड 2 , ... , जेड एन , यह देखते हुए Σ z मैं = y , हैBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

के बाद से मतलब के साथ एक प्वासों बंटन है n θ । बाद के वितरण के साथ बहुपद है y स्वतंत्र प्रयासों, में से एक में प्रत्येक समाप्त n परस्पर अनन्य और व्यापक तरीके, जिनमें से प्रत्येक एक ही संभावना है 1 / n । तदनुसार, बी इस तरह के एक बहुराष्ट्रीय प्रयोग y स्वतंत्र परीक्षण चलाता है और z 1 , , z n प्राप्त करता है । "Y=Zinθyn1/nByz1,,zn

यह वही है जो अभ्यास बताता है। तो, चलो ठीक है कि:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

और देखते हैं कि कैसा दिखता है (मैं भी k = 0 , 1 , , 13 के लिए Poisson (4) के वास्तविक घनत्व की साजिश रच रहा हूँ - 13 से ऊपर की कुछ भी, शून्य से तुलनात्मक रूप से - तुलना के लिए है):Zk=0,1,,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

enter image description here

तो, बारे में कुछ नहीं जानते हुए भी और जानते हुए भी केवल पर्याप्त आंकड़ा Y = Σ एक्स मैं हम एक "वितरण" है कि एक प्वासों की तरह एक बहुत लग रहा है recriate करने में सक्षम थे (4) वितरण (के रूप में एन बढ़ जाती है, दो घटता अधिक समान हो जाते हैं)।θY=Xin

अब, और Z की तुलना करना | y :XZ|y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

हम देखते हैं कि वे बहुत समान हैं, साथ ही (उम्मीद के मुताबिक)

XiY=X1+X2++Xn


0

मुझे एक और परिप्रेक्ष्य दें जो मदद कर सकता है। यह गुणात्मक भी है, लेकिन विशेष रूप से सूचना सिद्धांत में इसका एक कठोर संस्करण है - जिसे मार्कोव संपत्ति के रूप में जाना जाता है।

θθθθसंबंधित है। ध्यान दें कि जहां सभी अनिश्चितताओं को पकड़ लिया जाता है, वहां संभावनाएं होती हैं, और इसलिए "(कोई भी अनुमान") जब (सशर्त) संभावनाएं स्वतंत्र होती हैं (जैसे सशर्त घनत्व घनत्व कारक)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.