जेम्स-स्टीन अनुमानक: एफ्रॉन और मॉरिस ने अपने बेसबॉल उदाहरण के लिए संकोचन कारक में


18

मेरे पास ब्राडली एफ्रोन और कार्ल मॉरिस द्वारा "स्टाइन के पैराडॉक्स इन स्टैटिस्टिक्स" 1977 के वैज्ञानिक अमेरिकन पेपर में जेम्स-स्टीन श्रिंकेज कारक की गणना करने पर एक प्रश्न है ।

मैंने बेसबॉल खिलाड़ियों के लिए डेटा इकट्ठा किया और यह नीचे दिया गया है:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45चमगादड़ में बाद का औसत है और इसे लेख में y के रूप में दर्शाया गया है । सीजन औसत का अंत है।45yavgSeason

औसत (के लिए जेम्स-स्टीन आकलनकर्ता ) द्वारा दिया जाता है जेड = ˉ y + ( y - ˉ y ) और संकोचन कारक द्वारा (के अमेरिकी वैज्ञानिक 1977 लेख पृष्ठ 5) दिया जाता है = 1 - ( k - 3 ) σ 2z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

जहां अज्ञात साधनों की संख्या है। यहां 18 खिलाड़ी हैं इसलिए k = 18 हैं । मैं गणना कर सकते हैं Σ ( y - ˉ y ) 2 का उपयोग कर मूल्यों। लेकिन मैं गणना करने के लिए पता नहीं कैसे σ 2 । लेखक दिए गए डेटा सेट के लिए c = 0.212 कहते हैं ।kk=18(yy¯)2avg45σ2c=0.212

मैं दोनों उपयोग करने की कोशिश और σ 2 y के लिए σ 2 पर वे का सही उत्तर नहीं देते = 0.212σx2σy2σ2c=0.212

किसी को भी मुझे पता है की गणना करने के लिए कैसे जाने के लिए तरह पर्याप्त हो सकता है इस डेटा सेट के लिए?σ2


1
मुझे पता है कि MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) तरंगिका संकोचन के लिए बहुत उपयोग किया जाता है।
रॉबिन जिरार्ड

जवाबों:


19

पैरामीटर (अज्ञात) सदिश घटकों, जिनमें से प्रत्येक हम यह मान सामान्य रूप से वितरित कर रहे हैं के आम विचरण है। बेसबॉल डेटा के लिए हमारे पास 45 वाई मैं ~ मैं एन मीटर ( 45 , पी मैं ) , प्रदान करता है ताकि द्विपद बंटन के लिए सामान्य सन्निकटन (लेने ^ पी मैं = Y मैं )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

जाहिर है इस मामले में प्रसरण बराबर नहीं है, फिर भी यदि वे एक आम मूल्य के बराबर होता तो हम जमा आकलनकर्ता के साथ यह अनुमान लगाने सकता है σ 2 = पी ( 1 - पी )

σ^2=p^(1p^)45,
p^
p^=11845i=11845Yi=Y¯.

आप इसे निम्न आर कोड के साथ देख सकते हैं। यहाँ डेटा हैं:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

σ2

s2 <- mean(y)*(1 - mean(y))/45

σ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


उत्कृष्ट स्पष्टीकरण, मुझे द्विपद के सामान्य सन्निकटन से प्यार है।
चैंबरलेन फोंचा

14

c=0.212

एफ्रॉन, बी।, और मॉरिस, सी। (1975)। स्टीन के अनुमानक और इसके सामान्यीकरण का उपयोग करते हुए डेटा विश्लेषण। जर्नल ऑफ़ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 70 (350), 311-319 (पीडीएफ के लिंक)

या अधिक विस्तृत

एफ्रॉन, बी।, और मॉरिस, सी। (1974)। स्टीन के अनुमानक और इसके सामान्यीकरण का उपयोग करके डेटा विश्लेषण। R-1394-OEO, द रैंड कॉर्पोरेशन, मार्च 1974 (पीडीएफ के लिंक)

पृष्ठ 312 पर, आप देखेंगे कि एफ्रॉन और मॉरिस इन आंकड़ों के एक चाप-पाप परिवर्तन का उपयोग करते हैं, ताकि बल्लेबाजी औसत का विचरण लगभग एकता हो:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

तो ये स्टीन अनुमानक के मूल्य हैं। क्लेमेंट के लिए, हमें .290 मिलता है, जो 1977 के लेख से .294 के काफी करीब है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.