मोटे तौर पर सामान्य वितरण के पैमाने का अनुमान लगाने के लिए एक मजबूत बायेसियन मॉडल क्या होगा?


32

पैमाने के कई मजबूत अनुमानक मौजूद हैं । एक उल्लेखनीय उदाहरण मंझला निरपेक्ष विचलन जो मानक विचलन से संबंधित है के रूप में है σ=MAD1.4826 । एक बायेसियन ढांचे में, मोटे तौर पर सामान्य वितरण के स्थान का अनुमान लगाने के लिए कई तरीके मौजूद हैं (जैसे कि आउटलेर द्वारा एक सामान्य दूषित), उदाहरण के लिए, कोई मान सकता है कि डेटा वितरण या लाप्लास वितरण के रूप में वितरित किया गया है। अब मेरा सवाल:

एक सामान्य तरीके से मोटे तौर पर सामान्य वितरण के पैमाने को मापने के लिए एक बायेसियन मॉडल क्या होगा , जो एमएडी या इसी तरह के मजबूत अनुमानकों के समान मजबूत है?

जैसा कि एमएडी के मामले में है, यह साफ-सुथरा होगा यदि बायेसियन मॉडल मामले में एक सामान्य वितरण के एसडी से संपर्क कर सकता है जब डेटा का वितरण वास्तव में वितरित किया जाता है।

1 संपादित करें:

एक मॉडल का एक विशिष्ट उदाहरण है कि संदूषण / बाहरी कारकों के प्रति मजबूत है और डेटा संभालने yi है मोटे तौर पर सामान्य की तरह वितरण में उपयोग कर रहा है:

yit(m,s,ν)

जहाँ m माध्य है, s वह पैमाना है, और ν डिग्री-ऑफ-फ्रीडम है। पर उपयुक्त महंतों के साथ m,s और ν , m की औसत के एक अनुमान हो जाएगा yi कि बाहरी कारकों के खिलाफ मजबूत हो जाएगा। हालांकि, s के एसडी एक सुसंगत अनुमान नहीं होगा yi के रूप में s पर निर्भर करता है ν । उदाहरण के लिए, यदि ν 4.0 के लिए तय किया जाएगा और ऊपर दिए गए मॉडल को N o r m ( μ =) से भारी संख्या में नमूने लिए जाएंगे।Norm(μ=0,σ=1) वितरण तोs चारों ओर 0.82 होगा। मैं जो देख रहा हूं वह एक मॉडल है जो कि टी मॉडल की तरह मजबूत है, लेकिन माध्य के बजाय (या इसके अलावा) एसडी के लिए।

2 संपादित करें:

यहां R और JAGS में एक कोडित उदाहरण का अनुसरण किया गया है कि कैसे टी-मॉडल का उल्लेख किया गया है, जो माध्य के संबंध में अधिक मजबूत है।

# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10), 
        rnorm(10, mean=100, sd= 100))

#### A "standard" normal model ####
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dnorm(mu, inv_sigma2)
  }

  mu ~ dnorm(0, 0.00001)
  inv_sigma2 ~ dgamma(0.0001, 0.0001)
  sigma <- 1 / sqrt(inv_sigma2)
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
##  2.5%   25%   50%   75% 97.5% 
##   9.8  14.3  16.8  19.2  24.1 

#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dt(mu, inv_s2, nu)
  }

  mu ~ dnorm(0, 0.00001)
  inv_s2 ~ dgamma(0.0001,0.0001)
  s <- 1 / sqrt(inv_s2)
  nu ~ dexp(1/30) 
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
## 2.5%   25%   50%   75% 97.5% 
##8.03  9.35  9.99 10.71 12.14 

शायद यह पर्याप्त रूप से मजबूत नहीं है, लेकिन ची-वर्गीय वितरण आमतौर पर विचरण के व्युत्क्रम से पहले चुना जाता है।
माइक डनलैवी

आप यह देखना चाह सकते हैं कि क्या इस प्रश्न का पहला उत्तर आंकड़े .stackexchange.com /questions/ 6493/… आपके लिए पर्याप्त है; यह अच्छी तरह से नहीं हो सकता है, लेकिन शायद यह है।
जूलमैन

संदूषण के स्तर से पहले आप क्या कर रहे हैं? क्या संदूषण व्यवस्थित होगा? रैंडम? क्या यह एक वितरण, या कई वितरणों से उत्पन्न होगा? क्या हम शोर वितरण के बारे में कुछ जानते हैं? यदि ऊपर की कम से कम कुछ चीजें ज्ञात हैं, तो हम किसी प्रकार के मिश्रण मॉडल को फिट कर सकते हैं। अन्यथा, मुझे यकीन नहीं है कि इस समस्या के बारे में आपके विश्वास वास्तव में क्या हैं, और यदि आपके पास कोई भी नहीं है तो यह बहुत अस्पष्ट सेटिंग जैसा लगता है। आपको कुछ ठीक करने की आवश्यकता है, अन्यथा आप बेतरतीब ढंग से एक बिंदु चुन सकते हैं और इसे केवल गॉसियन जनरेटेड पॉइंट के साथ घोषित कर सकते हैं।
मतलब-टू-अर्थ

लेकिन सामान्य तौर पर, आप या तो एक टी-वितरण फिट कर सकते हैं जो आउटलेर्स के खिलाफ अधिक प्रतिरोधी है, या टी-वितरण का मिश्रण है। मुझे यकीन है कि कर रहा हूँ वहाँ कई कागजात हैं, जिन्हें यहां बिशप द्वारा एक है research.microsoft.com/en-us/um/people/cmbishop/downloads/... और यहाँ फिट मिश्रण करने के लिए एक आर-पैकेज है: maths.uq.edu। au / ~ gjm / mix_soft / EMMIX_R / EMMIX-Manual.pdf
मतलब-टू-अर्थ

1
आपका एक सामान्य रूप से वितरित की आबादी के लिए सही है, लेकिन अधिकांश अन्य वितरण के लिए नहींσ=MAD1.4826
हेनरी

जवाबों:


10

एक उपयुक्त पूर्व के साथ एक टी शोर मॉडल में बायेसियन का अनुमान स्थान और पैमाने का एक मजबूत अनुमान देगा। सटीक शर्तें जो कि संतुष्ट होने की संभावना और पूर्व आवश्यकता को कागज में दिया गया हैएंडरेड और ओ'हागन (2011) द्वारा स्थान और पैमाने के मापदंडों बेयसियन मजबूती मॉडलिंग में । अनुमान इस अर्थ में मजबूत हैं कि एक एकल अवलोकन अनुमानों को बड़े पैमाने पर नहीं बना सकता है, जैसा कि कागज के चित्र 2 में दिखाया गया है।

जब डेटा सामान्य रूप से वितरित किया जाता है, तो फिट किए गए टी वितरण (निश्चित ) का एसडी, जनरेटिंग वितरण के एसडी से मेल नहीं खाता है। लेकिन इसे ठीक करना आसान है। चलो σ पैदा बंटन का मानक विचलन हो सकता है और जाने रों फिट टी बंटन का मानक विचलन हो। यदि डेटा को 2 से बढ़ाया जाता है, तो संभावना के रूप से हम जानते हैं कि s को 2 से स्केल करना चाहिए। इसका तात्पर्य है कि कुछ निश्चित फ़ंक्शन f के लिए s = ies f ( ν ) । इस फ़ंक्शन को एक मानक सामान्य से सिमुलेशन द्वारा संख्यात्मक रूप से गणना की जा सकती है। यहाँ यह करने के लिए कोड है:νσsss=σf(ν)f

library(stats)
library(stats4)
y = rnorm(100000, mean=0,sd=1)
nu = 4
nLL = function(s) -sum(stats::dt(y/s,nu,log=TRUE)-log(s))
fit = mle(nLL, start=list(s=1), method="Brent", lower=0.5, upper=2)
# the variance of a standard T is nu/(nu-2)
print(coef(fit)*sqrt(nu/(nu-2)))

उदाहरण के लिए, मुझे f ( ν ) = 1.18 मिलता है । वांछित आकलनकर्ता तो है σ = रों /( ν )ν=4f(ν)=1.18σ^=s/f(ν)


1
अच्छा जवाब (+1)। 'इस अर्थ में कि एक एकल अवलोकन अनुमानों को बड़े पैमाने पर नहीं बना सकता है,' इसलिए ब्रेकडाउन बिंदु 2 / n है (मैं इस बारे में सोच रहा था) .... तुलना के बिंदु के रूप में, मेरे जवाब में वर्णित प्रक्रिया के लिए यह तुलनात्मक है n / 2।
14:60 पर user603

वाह धन्यवाद! फजी फॉलो अप सवाल। क्या यह वास्तव में समझ में आएगा में पैमाने "सही" करने के है तो यह एसडी के साथ संगत है सामान्य मामले में? उपयोग के मामले में मैं सोच रहा हूँ जब प्रसार के एक उपाय की रिपोर्ट कर रहा हूँ मुझे रिपोर्टिंग स्केल की कोई समस्या नहीं होगी, लेकिन किसी ऐसी चीज़ की रिपोर्ट करना अच्छा होगा जो एसडी के अनुरूप होगी क्योंकि यह प्रसार का सबसे सामान्य उपाय है (कम से कम मनोविज्ञान में)। क्या आपको ऐसी स्थिति दिखाई देती है, जहां यह सुधार अजीब और असंगत अनुमान लगाएगा?
रासमस बैस्ट

6

जैसा कि आप एक बहुत सटीक समस्या (मजबूत अनुमान) के बारे में एक सवाल पूछ रहे हैं, मैं आपको समान रूप से सटीक उत्तर प्रदान करूंगा। सबसे पहले, हालांकि, मैं एक अनुचित धारणा को दूर करने की कोशिश करूंगा। यह सच नहीं है कि स्थान का एक मजबूत बायेसियन अनुमान है (स्थानों के बायेसियन अनुमानक हैं लेकिन जैसा कि मैं नीचे वर्णन करता हूं कि वे मजबूत नहीं हैं और, जाहिर है , यहां तक ​​कि स्थान का सबसे सरल मजबूत अनुमानक बायेसियन नहीं है)। मेरी राय में, स्थान के मामले में 'बायेसियन' और 'मजबूत' प्रतिमान के बीच ओवरलैप की अनुपस्थिति के कारणों ने यह समझाने में एक लंबा रास्ता तय किया कि क्यों तितर बितर के कोई अनुमानक नहीं हैं जो मजबूत और बायेसियन दोनों हैं।

पर उपयुक्त महंतों के साथ और ν , मीटर की औसत के एक अनुमान हो जाएगा y मैं कि बाहरी कारकों के खिलाफ मजबूत हो जाएगा।m,sνmyi

दरअसल नहीं। परिणामी अनुमान केवल शब्द के बहुत कमजोर अर्थों में मजबूत होंगे। हालाँकि, जब हम कहते हैं कि माध्यिका आउटलेर्स से अधिक मजबूत है, तो हमारा अर्थ है कि शब्द मजबूत एक बहुत मजबूत अर्थ में। अर्थात्, मजबूत आंकड़ों में, माध्यिका की प्रबलता उस संपत्ति को संदर्भित करती है, जो यदि आप मध्यस्थ को एक यूनी-मोडल, निरंतर मॉडल से निकाले गए अवलोकनों के डेटा-सेट पर गणना करते हैं और फिर इन अवलोकनों का आधे से भी कम में मनमाने मूल्यों से प्रतिस्थापित करते हैं , दूषित डेटा पर गणना की गई माध्यिका का मूल्य उस मूल्य के करीब है जिसे आपने मूल (बिना पढ़े) डेटा-सेट पर गणना की होगी। फिर, यह दिखाना आसान है कि आपने जिस पैराग्राफ में प्रस्ताव दिया था, उसके बारे में अनुमान लगाने की रणनीति निश्चित रूप से नहीं है इस अर्थ में मजबूत है कि शब्द को आमतौर पर माध्यिका के लिए कैसे समझा जाता है।

मैं बायेसियन विश्लेषण से पूरी तरह अपरिचित हूं। हालांकि, मैं सोच रहा था कि निम्नलिखित रणनीति में क्या गलत है क्योंकि यह सरल, प्रभावी और अभी तक अन्य उत्तरों में नहीं माना गया है। पूर्व यह है कि डेटा का अच्छा हिस्सा एक सममित वितरण से तैयार किया गया है और संदूषण की दर आधे से कम है। फिर, एक सरल रणनीति यह होगी:F

  1. अपने डेटासेट के माध्य / पागल की गणना करें। फिर गणना करें:
    zi=|ximed(x)|mad(x)
  2. टिप्पणियों जो के लिए बाहर निकालने के (यह α के वितरण के quantile z जब एक्स ~ एफ )। यह मात्रा एफ के कई विकल्पों के लिए उपलब्ध है और दूसरों के लिए बूटस्ट्रैप किया जा सकता है।zi>qα(z|xF)αzxFF
  3. गैर-अस्वीकृत टिप्पणियों पर एक सामान्य (सामान्य, गैर-मजबूत) बायेसियन विश्लेषण चलाएं।

संपादित करें:

समस्या के बोनिना फाइड बायेसियन विश्लेषण का संचालन करने के लिए एक स्वयं निहित आर कोड प्रदान करने के लिए ओपी के लिए धन्यवाद।

नीचे दिया गया कोड ओपी द्वारा सुझाए गए बायेसियन दृष्टिकोण की तुलना करता है जो कि मजबूत सांख्यिकी साहित्य (उदाहरण के लिए गॉस द्वारा प्रस्तावित फिटिंग विधि जिसमें डेटा आउटलेरर्स जितना हो सकता है और वितरण शामिल है) से वैकल्पिक है। डेटा का अच्छा हिस्सा गाऊसी है)।n/22

डेटा का मध्य भाग :N(1000,1)

n<-100
set.seed(123)
y<-rnorm(n,1000,1)

कुछ मात्रा में संदूषक जोड़ें:

y[1:30]<-y[1:30]/100-1000 
w<-rep(0,n)
w[1:30]<-1

सूचकांक w आउटलेर्स के लिए मूल्य 1 लेता है। मैं ओपी द्वारा सुझाए गए दृष्टिकोण से शुरू करता हूं:

library("rjags")
model_string<-"model{
  for(i in 1:length(y)){
    y[i]~dt(mu,inv_s2,nu)
  }
  mu~dnorm(0,0.00001)
  inv_s2~dgamma(0.0001,0.0001)
  s<-1/sqrt(inv_s2)
  nu~dexp(1/30) 
}"

model<-jags.model(textConnection(model_string),list(y=y))
mcmc_samples<-coda.samples(model,"mu",n.iter=1000)
print(summary(mcmc_samples)$statistics[1:2])
summary(mcmc_samples)

मुझे मिला:

     Mean        SD 
384.2283  97.0445 

तथा:

2. Quantiles for each variable:

 2.5%   25%   50%   75% 97.5% 
184.6 324.3 384.7 448.4 577.7 

(इस प्रकार लक्ष्य मूल्यों से दूर)

मजबूत विधि के लिए,

z<-abs(y-median(y))/mad(y)
th<-max(abs(rnorm(length(y))))
print(c(mean(y[which(z<=th)]),sd(y[which(z<=th)])))

एक हो जाता है:

 1000.149 0.8827613

(लक्ष्य मूल्यों के बहुत करीब)

दूसरा परिणाम वास्तविक मूल्यों के बहुत करीब है। लेकिन यह सबसे खराब हो जाता है। हम बाहरी कारकों के रूप में वर्गीकृत उन टिप्पणियों जो के लिए अनुमानित हैं -score से बड़ा है (याद रखें कि पहले वह यह है कि एफ गाऊसी है) तो बायेसियन दृष्टिकोण पाता कि सभी टिप्पणियों बाहरी कारकों के कारण (मजबूत प्रक्रिया, इसके विपरीत में, कर रहे हैं झंडे सब और केवल आउटलेर ऐसे)। इसका अर्थ यह भी है कि यदि आप डेटा पर एक सामान्य (गैर-मजबूत) बायेसियन विश्लेषण चलाने के लिए थे, जिसे मजबूत प्रक्रिया द्वारा आउटलेर के रूप में वर्गीकृत नहीं किया गया है, तो आपको ठीक करना चाहिए (जैसे आपके प्रश्न में बताए गए उद्देश्यों को पूरा करना)।zthF
यह सिर्फ एक उदाहरण है, लेकिन यह दिखाने के लिए वास्तव में काफी सीधा है (और यह औपचारिक रूप से किया जा सकता है, उदाहरण के लिए देखें, [1] के अध्याय 2 में) दूषित डेटा से लैस एक छात्र वितरण के मापदंडों को प्रकट करने पर निर्भर नहीं किया जा सकता है। आउटलेयर। t

  • [१] रिकार्डो ए। मारोना, डगलस आर। मार्टिन, विक्टर जे। योहाई (२००६)। रोबस्ट स्टैटिस्टिक्स: थ्योरी एंड मेथड्स (विली सीरीज इन प्रोबेबिलिटी एंड स्टैटिस्टिक्स)।
  • ह्यूबर, पीजे (1981)। मजबूत आंकड़े। न्यू यॉर्क, जॉन विली एंड संस।

1
खैर, टी अक्सर सामान्य वितरण के लिए एक मजबूत विकल्प के रूप में प्रस्तावित है। मुझे नहीं पता कि यह कमजोर अर्थों में है या नहीं। उदाहरण के लिए देखें: लैंग, केएल, लिटिल, आरजे, और टेलर, जेएम (1989)। टी वितरण का उपयोग करते हुए मजबूत सांख्यिकीय मॉडलिंग। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , 84 (408), 881-896। पीडीएफ
रासमस बैस्ट

1
यह कमजोर भाव है। यदि आपके पास एक आर कोड है जो आपके द्वारा सुझाई गई प्रक्रिया को लागू करता है, तो मुझे एक उदाहरण के साथ अपना उत्तर बताने में खुशी होगी। अन्यथा आप इस पाठ्यपुस्तक के अध्याय 2 में अधिक व्याख्या प्राप्त कर सकते हैं ।
user603

मेरे द्वारा सुझाई गई प्रक्रिया मूल रूप से यहाँ वर्णित है: आर कोड सहित indiana.edu/~kruschke/BEST । मुझे आपके समाधान के बारे में सोचना होगा! हालांकि, यह इस अर्थ में बेयसियन नहीं लगता है कि यह सभी डेटा को मॉडल नहीं करता है, बस सबसेट जो "जीवित रहता है" चरण 2
रासमस बैथ

मैं अपनी दिलचस्प चर्चा के लिए धन्यवाद! आपका उत्तर यह नहीं है कि मैं चाहता हूं, क्योंकि, (1) आप बायेसियन प्रक्रिया का वर्णन नहीं करते हैं, आप आउटलेयर को हटाने के लिए डेटा तैयारी चरण का अधिक वर्णन करते हैं (2) आपकी प्रक्रिया एसडी के सुसंगत आकलनकर्ता में परिणाम नहीं करती है। यह है कि, अगर आप एक सामान्य वितरण और datapoints की संख्या से नमूना आप दृष्टिकोण नहीं होगा "सही" एसडी, बल्कि अपने अनुमान थोड़ा कम हो जाएगा। मैं पूरी तरह से आपकी मजबूत परिभाषा को नहीं खरीदता (आपकी परिभाषा यह नहीं है कि मैंने इसे सबसे बेयसियन साहित्य में कैसे देखा है)।
रासमस बैथ

1
मैंने अब ऐसा किया है!
रासमस बैथ

1

इनवेसिव गामा वितरण का उपयोग सटीक (पूर्व के उलटा) के रूप में बायेसियन विश्लेषण में एक आम विकल्प है। या मल्टीविरेट मॉडल के लिए उलटा विसारट वितरण। विचरण पर पूर्व जोड़ने से आउटलेर के खिलाफ मजबूती में सुधार होता है।

एंड्रयू जेलमैन द्वारा एक अच्छा पेपर है: "पदानुक्रमित मॉडल में विचरण मापदंडों के लिए पूर्व वितरण" जहां वह चर्चा करता है कि वेरिएन्स पर पुजारियों के लिए क्या अच्छे विकल्प हो सकते हैं।


4
मुझे खेद है, लेकिन मैं यह देखने में विफल हूं कि यह सवाल का जवाब कैसे देता है। मैंने पहले एक मजबूत मॉडल के लिए नहीं कहा, बल्कि एक मजबूत मॉडल के लिए
रासमस बैथ

0

आकार एन के कुछ डेटासेट के लोकेशन पैरामीटर के लिए एक मजबूत अनुमानक तब प्राप्त होता है जब कोई सामान्य वितरण के विचरण var 2 से पहले एक जेफ्री को असाइन करता है , और μ के लिए सीमांत की गणना करता है , स्वतंत्रता के एन डिग्री के साथ एक टी वितरण का उत्पादन करता हैμNσ2μtN

इसी प्रकार, यदि आप मानक विचलन के लिए एक मजबूत आकलनकर्ता चाहते कुछ डेटा का विकास , हम निम्नलिखित कर सकते हैं:σD

D|μ,σN(μ,σ2)
D(d1,,dN)
p(D|μ,σ2)=1(2πσ)Nexp(N2σ2((mμ2)+s2))
ms2
m=1Ni=1Ndis2=1Ni=1Ndi2m2
In addition, using Bayes' theorem, we have
p(μ,σ2|D)p(D|μ,σ2)p(μ,σ2)
A convenient prior for (μ,σ2) is the Normal-invese-gamma family, which covers a wide range of shapes and is conjugate to this likelihood. This means that the posterior distribution p(μ,σ2|D) still belongs to the normal-inverse-gamma family, and its marginal p(σ2|D) is an inverse gamma distribution parameterized as
σ2|DIG(α+N/2,2β+Ns2)α,β>0
From this distribution, we can take the mode, which will give us an estimator for σ2. This estimator will be more or less tolerant to small excursions from misspecifications on the model by varying α and/or β. The variance of this distribution will then provide some indication on the fault-tolerance of the estimate. Since the tails of the inverse gamma are semi-heavy, you get the kind of behaviour you would expect from the t distribution estimate for μ that you mention.

1
"A robust estimator for the location parameter μ of some dataset of size N is obtained when one assigns a Jeffreys prior to the variance σ2 of the normal distribution." Isn't this Normal model you describe a typical example of a non-robust model? That is, a single value that is off can have great influence on the parameters of the model. There is a big difference between the posterior over the mean being a t-distribution (as in your case) and the distribution for the data being a t-distribution (as is a common example of a robust Bayesian model for estimating the mean).
Rasmus Bååth

1
It all depends on what you mean by robust. What you are saying right now is that you would like robustness wrt data. What I was proposing was robustness wrt model mis-specification. They are both different types of robustness.
yannick

2
I would say that the examples I gave, MAD and using a t distribution as the distribution for the data are examples of robustness with respect to data.
Rasmus Bååth

I would say Rasmus is right and so would Gelman er al in BDA3, as would a basic understanding that th t distribution has fatter tails than the normal for the same location parameter
Brash Equilibrium

0

I have followed the discussion from the original question. Rasmus when you say robustness I am sure you mean in the data (outliers, not miss-specification of distributions). I will take the distribution of the data to be Laplace distribution instead of a t-distribution, then as in normal regression where we model the mean, here we will model the median (very robust) aka median regression (we all know). Let the model be:

Y=βX+ϵ, ϵ has laplace(0,σ2).

Of course our goal is to estimate model parameters. We expect our priors to be vague to have an objective model. The model at hand has a posterior of the form f(β,σ,Y,X). Giving β a normal prior with large variance makes such a prior vague and a chis-squared prior with small degrees of freedom to mimic a jeffrey's prior(vague prior) is given to to σ2. With a Gibbs sampler what happens? normal prior+laplace likehood=???? we do know. Also chi-square prior +laplace likelihood=??? we do not know the distribution. Fortunately for us there is a theorem in (Aslan,2010) that transforms a laplace likelihood to a scale mixture of normal distributions which then enable us to enjoy the conjugate properties of our priors. I think the whole process described is fully robust in terms of outliers. In a multivariate setting chi-square becomes a a wishart distribution, and we use multivariate laplace and normal distributions.


2
Your solution seems to be focused on robust estimation of the location(mean/median). My question was rather about estimation of scale with the property of consistency with respect to retrieving the SD when the data generating distribution actually is normal.
Rasmus Bååth

With a robust estimate of the location, the scale as function of the location immediately benefits from the robustness of the location. There is no other way of making the scale robust.
Chamberlain Foncha

Anyway I must say I am eagerly waiting to see how this problem will be tackled most especially with a normal distribution as you emphasized.
Chamberlain Foncha

0

Suppose that you have K groups and you want to model the distribution of their sample variances, perhaps in relation to some covariates x. That is, suppose that your data point for group k1K is Var(yk)[0,). The question here is, "What is a robust model for the likelihood of the sample variance?" One way to approach this is to model the transformed data ln[Var(yk)] as coming from a t distribution, which as you have already mentioned is a robust version of the normal distribution. If you don't feel like assuming that the transformed variance is approximately normal as n, then you could choose a probability distribution with positive real support that is known to have heavy tails compared to another distribution with the same location. For example, there is a recent answer to a question on Cross Validated about whether the lognormal or gamma distribution has heavier tails, and it turns out that the lognormal distribution does (thanks to @Glen_b for that contribution). In addition, you could explore the half-Cauchy family.

Similar reasoning applies if instead you are assigning a prior distribution over a scale parameter for a normal distribution. Tangentially, the lognormal and inverse-gamma distributions are not advisable if you want to form a boundary avoiding prior for the purposes of posterior mode approximation because they peak sharply if you parameterize them so that the mode is near zero. See BDA3 chapter 13 for discussion. So in addition to identifying a robust model in terms of tail thickness, keep in mind that kurtosis may matter to your inference, too.

I hope this helps you as much as your answer to one of my recent questions helped me.


1
My question was about the situation when you have one group and how to robustly estimate the scale of that group. In the case of outliers I don't believe the sample variance is considered robust.
Rasmus Bååth

If you have one group, and you are estimating its normal distribution, then your question applies to the form of the prior over its scale parameter. As my answer implies, you can use a t distribution over its log transformation or choose a fat tailed distribution with positive real support, being careful about other aspects of that distribution such as its kurtosis. Bottom line, if you wan a robust model for a scale parameter, use a t distribution over its log transform or some other fat tailed distribution.
Brash Equilibrium
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.