सुसंगत होने के लिए हमें एक अनुमानक की आवश्यकता क्यों है?


15

मुझे लगता है, मैं एक सुसंगत अनुमानक की गणितीय परिभाषा को पहले ही समझ चुका हूं। यदि मैं गलत हूं तो मुझे सही करों:

Wn लिए एक सुसंगत अनुमानक है अगरθϵ>0

limnP(|Wnθ|>ϵ)=0,θΘ

कहाँ, Θ पैरामीट्रिक स्पेस है। लेकिन मैं एक अनुमानक के अनुरूप होने की आवश्यकता को समझना चाहता हूं। एक अनुमानक जो लगातार नहीं है वह खराब क्यों है? क्या आप मुझे कुछ उदाहरण दे सकते हैं?

मैं आर या अजगर में सिमुलेशन स्वीकार करता हूं।


3
एक अनुमानक जो सुसंगत नहीं है वह हमेशा एक बुरा नहीं होता है। उदाहरण के लिए एक असंगत लेकिन निष्पक्ष आकलनकर्ता को लें।
निरंतर

संगति मोटे तौर पर एक अनुमानक का एक इष्टतम स्पर्शोन्मुख व्यवहार बोल रही है। हम एक अनुमानक का चयन करते हैं जो लंबे समय में के सही मूल्य के करीब पहुंचता है । चूँकि यह केवल संभाव्यता में अभिसरण है, इसलिए यह सूत्र सहायक हो सकता है: आँकड़े.स्टैकएक्सचेंज . com / questions / 134701 ……θ
स्टबबोर्नटॉम

@StubbornAtom, मैं इस तरह के एक सुसंगत अनुमानक "इष्टतम" को कॉल करने के लिए सावधान रहूंगा, क्योंकि यह शब्द आम तौर पर अनुमानकर्ताओं के लिए आरक्षित है, जो कुछ अर्थों में, कुशल भी हैं।
क्रिस्टोफ़ हनक

जवाबों:


22

यदि अनुमानक सुसंगत नहीं है, तो यह संभाव्यता में वास्तविक मूल्य में परिवर्तित नहीं होगा । दूसरे शब्दों में, हमेशा एक संभावना है कि आपके अनुमानक और सच्चे मूल्य में अंतर होगा, चाहे आपके पास कितने भी डेटा बिंदु हों। यह वास्तव में बुरा है, क्योंकि यदि आप बहुत अधिक मात्रा में डेटा एकत्र करते हैं, तो भी आपका अनुमान हमेशा सही मूल्य से अलग कुछ होने की सकारात्मक संभावना होगा । व्यावहारिक रूप से, आप इस स्थिति पर विचार कर सकते हैं जैसे कि आप किसी मात्रा के एक अनुमानक का उपयोग कर रहे हैं जैसे कि सभी जनसंख्या का सर्वेक्षण करना, इसके बजाय इसका एक छोटा सा नमूना, आपकी मदद नहीं करेगा।ϵ>0


21

मानक कॉची वितरण से टिप्पणियों पर विचार करें , जो कि 1 डिग्री की स्वतंत्रता के साथ छात्र के वितरण के समान है। इस वितरण की पूंछ पर्याप्त रूप से भारी है कि इसका कोई मतलब नहीं है; वितरण अपने मध्य पर केंद्रित हैn=10000η=0.

नमूने के एक अनुक्रम का अर्थ है कॉची वितरण के केंद्र के अनुरूप नहीं है। मोटे तौर पर, कठिनाई यह है कि बहुत चरम अवलोकन (सकारात्मक या नकारात्मक) पर्याप्त नियमितता के साथ होते हैं कि के लिए करने का कोई मौका नहीं है ( केवल करने के लिए धीमा नहीं हैं, वे कभी नहीं करते हैं अभिसरण। का वितरण फिर से मानक Cauchy [ सबूत ] है।)Aj=1ji=1jXiXiAjη=0.AjAj

इसके विपरीत, एक सतत नमूनाकरण प्रक्रिया में किसी भी एक कदम पर, लगभग आधा अवलोकनों में दोनों ओर स्थित होगा ताकि नमूना मध्यस्थों का अनुक्रम परिवर्तित हो जाएXiη,Hjη.

के अभिसरण की यह कमी और के अभिसरण निम्नलिखित अनुकरण द्वारा चित्रित किया गया है।AjHj

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

यहाँ छवि विवरण दर्ज करें

यहाँ चरणों की एक सूची है जिस पर आप बाईं ओर स्थित भूखंड में चल रहे औसत (ऊर्ध्वाधर लाल बिंदीदार रेखाओं) पर इनमें से कुछ चरम टिप्पणियों का प्रभाव देख सकते हैं।|Xi|>1000.

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

आकलन में महत्वपूर्णता: एक काऊची आबादी से नमूने में, टिप्पणियों के नमूने का मतलब केवल एक अवलोकन की तुलना में केंद्र अनुमान लगाने के लिए बेहतर नहीं है । इसके विपरीत, सुसंगत नमूना माध्य परिवर्तित हो जाता है इसलिए बड़े नमूने बेहतर अनुमान लगाते हैं।n=10000ηη,


1
बिटपिटिंग, लेकिन आपका सिमुलेशन नमूना की विफलता को दिखाता है लगभग निश्चित रूप से अभिसरण करने के लिए, संभावना में नहीं, कैची केंद्र (मजबूत बनाम कमजोर संगतता) के लिए।
बदलकर

9

उदाहरण के लिए वास्तव में सरल क्यों यह संगति के बारे में सोचना महत्वपूर्ण है, जो मुझे नहीं लगता कि पर्याप्त ध्यान मिलता है, एक अति सरलीकृत मॉडल है।

एक सैद्धांतिक उदाहरण के रूप में, मान लीजिए कि आप कुछ डेटा पर एक रेखीय प्रतिगमन मॉडल फिट करना चाहते थे, जिसमें वास्तविक प्रभाव वास्तव में गैर-रैखिक थे। तब आपकी भविष्यवाणियां कोविरेट के सभी संयोजनों के सही अर्थ के अनुरूप नहीं हो सकती हैं, जबकि अधिक लचीला हो सकता है। दूसरे पासवर्ड में, सरलीकृत मॉडल में कमियां होंगी जिन्हें अधिक डेटा का उपयोग करके दूर नहीं किया जा सकता है।


yi=y^i+e^i

8

@ ब्रूस पहले ही एक उत्कृष्ट तकनीकी जवाब दे चुका है, लेकिन मैं इसकी व्याख्या के बारे में एक बिंदु जोड़ना चाहूंगा।

आंकड़ों में मूलभूत अवधारणाओं में से एक यह है कि जैसे-जैसे हमारा नमूना आकार बढ़ता है, हम अपने अंतर्निहित वितरण के बारे में अधिक सटीक निष्कर्ष तक पहुंच सकते हैं। आप इसे इस धारणा के रूप में सोच सकते हैं कि बहुत सारे नमूने लेने से डेटा में यादृच्छिक घबराहट समाप्त हो जाती है, इसलिए हमें अंतर्निहित संरचना की बेहतर धारणा मिलती है।

(Xi)iN E[X1]<

1nk=1nXkE[X]   a.s.

अब, एक अनुमानक के अनुरूप होने के लिए यह मांग करना है कि वह इस नियम का भी पालन करे: जैसा कि इसका काम किसी अज्ञात पैरामीटर का अनुमान लगाना है, हम चाहेंगे कि यह उस पैरामीटर में परिवर्तित हो (पढ़ें: अनुमान है कि पैरामीटर मनमाने ढंग से) हमारे नमूने के रूप में आकार अनंत तक जाता है।

समीकरण

limnP(|Wnθ|>ϵ)=0,ϵ>0 θ Θ

Wnθ

[θε,θ+ε]θ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.