कम से कम वर्ग एक बुरा विचार कब होगा?

यदि मेरे पास प्रतिगमन मॉडल है: जहां और ,

Y = X β + ε

$Y = X\beta + \varepsilon$

V [ε] = I d \in R^{n \times n}

$\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}$

E [ε] = (0, \dots, 0)

$\mathbb{E}[\varepsilon]=(0, \ldots , 0)$

का उपयोग करते समय होगा साधारण कम से कम वर्गों आकलनकर्ता की, , एक आकलनकर्ता के लिए एक गरीब विकल्प हो? $\beta_{\text{OLS}}$ $\beta$

मैं एक उदाहरण जानने की कोशिश कर रहा हूं कि कम से कम वर्ग खराब काम करता है। इसलिए मैं उन त्रुटियों के वितरण की तलाश कर रहा हूं जो पिछली परिकल्पना को संतुष्ट करता है लेकिन खराब परिणाम देता है। यदि वितरण का परिवार माध्य और भिन्नता से निर्धारित होगा जो कि बहुत अच्छा होगा। यदि नहीं, तो यह ठीक है।

मुझे पता है कि "खराब परिणाम" थोड़ा अस्पष्ट है, लेकिन मुझे लगता है कि विचार समझ में आता है।

सिर्फ भ्रम से बचने के लिए, मुझे पता है कि कम से कम वर्ग इष्टतम नहीं हैं, और रिज प्रतिगमन जैसे बेहतर अनुमानक हैं। लेकिन ऐसा नहीं है जो मैं लक्ष्य कर रहा हूं। मैं चाहता हूं कि एक उदाहरण कम से कम वर्ग अप्राकृतिक होगा।

मैं ऐसी चीजों की कल्पना कर सकता हूं, त्रुटि वेक्टर एक गैर-उत्तल क्षेत्र में रहता है , लेकिन मुझे इस बारे में निश्चित नहीं है। $\epsilon$ $\mathbb{R}^n$

संपादित करें 1: एक उत्तर देने में मदद करने के लिए एक विचार के रूप में (जो मैं समझ नहीं पा रहा हूं कि आगे कैसे ले जाऊं)। BLUE है। तो यह सोचने में मदद मिल सकती है कि एक रैखिक निष्पक्ष अनुमानक कब एक अच्छा विचार नहीं होगा। $\beta_{\text{OLS}}$

संपादित करें 2: जैसा कि ब्रायन ने बताया है, अगर खराब है, तो एक बुरा विचार है, क्योंकि विचरण बहुत बड़ा है, और इसके बजाय रिज रिज्रेशन का उपयोग किया जाना चाहिए। मैं और अधिक जानने के क्या वितरण चाहिए में रुचि रखता है कर रहा हूँ आदेश कम से कम वर्गों काम बुरा बनाने के लिए। $XX'$ $\beta_{\text{OLS}}$ $\varepsilon$

$\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilon$ क्या शून्य माध्य और आइडेंटिटी वेरिएशन मैट्रिक्स के साथ लिए एक वितरण है जो इस अनुमानक को कुशल नहीं बनाता है? $\varepsilon$

regression distributions least-squares

— मैनुएल
स्रोत

मैं कठोर आवाज़ नहीं करना चाहता, लेकिन मुझे पूरी तरह से यकीन नहीं है कि आप क्या चाहते हैं। वहाँ बहुत सारे तरीके हैं एक गरीब विकल्प हो सकता है। आमतौर पर, हम का मूल्यांकन आकलनकर्ता जैसी चीजों के मामले में पूर्वाग्रह , विचरण , मजबूती , और दक्षता । उदाहरण के लिए, जैसा कि आप ध्यान दें, OLS अनुमानक BLUE है ।

— गूँग - मोनिका

OTOH, विचरण इतना बड़ा हो सकता है जितना कि बेकार हो, कम विचरण करने वाला लेकिन रिज जैसा अधिमान्य अनुमान लगाने वाला। एक अन्य उदाहरण यह है कि OLS अधिकतम आपके डेटा में सभी जानकारी का उपयोग करता है, लेकिन यह इसे आउटलेर्स के लिए अतिसंवेदनशील बनाता है। दक्षता को बनाए रखने का प्रयास करते हुए, बहुत सारे वैकल्पिक नुकसान कार्य हैं जो अधिक मजबूत हैं। यह स्पष्ट हो सकता है कि क्या आप इन के संदर्भ में अपने प्रश्न को फिर से फ्रेम कर सकते हैं। मुझे नहीं पता कि एक अनुमानक के लिए "अप्राकृतिक" होने का क्या मतलब है।

— गूँग - मोनिका

आपकी टिप्पणी के लिए धन्यवाद, इसने मुझे प्रश्न की अस्पष्टता का एहसास कराया। मुझे आशा है कि अब यह स्पष्ट हो जाएगा

— मैनुअल

इस उत्तर में प्रतिगमन देखें । संक्षेप में: प्रभावशाली आउटलेयर एक समस्या हो सकती है।

— Glen_b -Reinstate मोनिका

जवाबों:

ब्रायन Borchers जवाब काफी अच्छा है --- डेटा जिसमें अजीब आउटलेयर होते हैं अक्सर ओएलएस द्वारा अच्छी तरह से विश्लेषण नहीं किया जाता है। मैं बस एक चित्र, एक मोंटे कार्लो और कुछ Rकोड जोड़कर इस पर विस्तार करने जा रहा हूं ।

एक बहुत ही सरल प्रतिगमन मॉडल पर विचार करें:

\begin{aligned} Y_{मैं} & = β_{1} {एक्स}_{मैं} + ε_{मैं} \\ ε_{मैं} & = {\begin{array}{rcl} एन (0, 0.04) & w । पी । & 0.999 \\ 31 & w । पी । & 0.0005 \\ - 31 & w । पी । & 0.0005 \end{array} \end{aligned}

$\begin{align} Y_i &= \beta_1 x_i + \epsilon_i\\~\\ \epsilon_i &= \left\{\begin{array}{rcl} N(0,0.04) &w.p. &0.999\\ 31 &w.p. &0.0005\\ -31 &w.p. &0.0005 \end{array} \right. \end{align}$

यह मॉडल 1 के ढलान गुणांक के साथ आपके सेटअप के अनुरूप है।

संलग्न प्लॉट इस मॉडल पर 100 प्रेक्षणों से युक्त एक डेटासेट दिखाता है, जिसमें 0 से 1 तक चलने वाला x वैरिएबल है। प्लॉट किए गए डेटासेट में, त्रुटि पर एक ड्रा होता है, जो एक आउटवर्ड वैल्यू (इस मामले में +31) के साथ आता है। । इसके अलावा प्लॉट नीले रंग में ओएलएस प्रतिगमन रेखा और लाल रंग में सबसे कम पूर्ण विचलन प्रतिगमन रेखा हैं। ध्यान दें कि कैसे OLS लेकिन LAD बाहरी रूप से विकृत नहीं है:

एक बाहरी के साथ ओएलएस बनाम एलएडी

मोंटे कार्लो करके हम इसे सत्यापित कर सकते हैं। मोंटे कार्लो में, मैं एक ही का उपयोग कर 100 टिप्पणियों के एक डाटासेट उत्पन्न और एक ऊपर वितरण के साथ 10,000 गुना। उन 10,000 प्रतिकृति में, हम विशाल बहुमत में एक बाहरी नहीं मिलेगा। लेकिन कुछ ही समय में हम एक अलग हो जाएंगे, और यह हर बार ओएडी नहीं बल्कि खराब हो जाएगा। नीचे दिए गए कोड मोंटे कार्लो चलाता है। यहाँ ढलान गुणांक के परिणाम हैं: $x$ $\epsilon$ R

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

ओएलएस और एलएडी दोनों निष्पक्ष अनुमानक पैदा करते हैं (ढलान दोनों 10,000 की औसत से अधिक 1.00 हैं)। ओएलएस बहुत अधिक मानक विचलन के साथ एक अनुमानक का उत्पादन करता है, हालांकि, 0.34 बनाम 0.09। इस प्रकार, निष्पक्ष अनुमान लगाने वालों के बीच, ओएलएस सबसे अच्छा / सबसे कुशल नहीं है। यह अभी भी निश्चित रूप से है, लेकिन LAD रैखिक नहीं है, इसलिए कोई विरोधाभास नहीं है। ध्यान दें कि जंगली त्रुटियां OLS न्यूनतम और अधिकतम कॉलम में कर सकती हैं। ऐसा नहीं है LAD।

यहाँ ग्राफ और मोंटे कार्लो दोनों के लिए R कोड है:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

— बिल
स्रोत

@ मैनुअल धन्यवाद। मैंने अपने आर कार्यक्रम में एक त्रुटि पकड़ी --- एक 0.04 था जहां एक sqrt (0.04) होना चाहिए था। इसने उत्तर का जोर नहीं बदला। इससे नतीजों पर थोड़ा फर्क पड़ा। हालाँकि, यदि आपने पहले कोड कॉपी किया था, तो आपको इसे अब फिर से कॉपी करना चाहिए।

— बिल

एक उदाहरण यह होगा कि आप माध्य का अनुमान नहीं लगाना चाहते हैं। यह उस काम में आया था जिसका उपयोग मैं उस समय कर रहा था जब हम एचआईवी / एड्स के प्रसार को मॉडलिंग के हिस्से के रूप में लोगों के यौन साथी की संख्या का अनुमान लगा रहे थे। वितरण की पूंछ में अधिक रुचि थी: किन लोगों के कई साझेदार हैं?

इस मामले में, आप मात्रात्मक प्रतिगमन चाहते हैं; मेरी राय में एक अप्रयुक्त विधि।

— पीटर फ्लॉम
स्रोत

β

$\beta$

Y

$Y$

हां, मेरा मतलब वाई था। यही ओएलएस रिग्रेशन करता है।

— पीटर Flom

(x - a)^{2} + (x - b)^{2}

$(x-a)^{2}+(x-b)^{2}$

L_{1}

$L_{1}$

$X$

$\epsilon$

$\epsilon$ $\beta$

— ब्रायन बोरचर्स
स्रोत

ε

$\varepsilon$

इसके अलावा, गॉस-मार्कोव सुनिश्चित करते हैं कि कम से कम वर्ग रैखिक के बीच एक न्यूनतम विचरण निष्पक्ष अनुमानक हो। हो सकता है कि रैखिक अनुमानक कुछ प्रकार के वितरणों के लिए पुन: प्राप्य न हों। यही मैं समझना चाहता हूं।

— मैनुअल

ϵ_{i} = 0

$\epsilon_{i}=0$

ϵ_{i} = 100

$\epsilon_{i}=100$

0.00005

$0.00005$

ϵ_{i} = - 100

$\epsilon_{i}=-100$

0.00005

$0.00005$

X = I

$X=I$

β

$\beta$

ϵ

$\epsilon$

X = 1

$X=1$

β = 0

$\beta=0$

\hat{β}

$\hat{\beta}$

मुझे विश्वास है कि आपकी दूसरी टिप्पणी वह है जिसकी मुझे तलाश है। यह सिर्फ मुझे होने की कम संभावना को परेशान करता है। इसके अलावा उस उदाहरण से यह स्पष्ट है कि त्रुटियों के वितरण को जानते हुए एक बेहतर अनुमानक कैसे बनाया जाए।

— मैनुएल