इस विषम-आकार के वितरण को कैसे मॉडल करें (लगभग एक रिवर्स-जे)

नीचे दिखाया गया मेरा आश्रित चर किसी भी स्टॉक वितरण के लायक नहीं है जिसे मैं जानता हूं। रैखिक प्रतिगमन कुछ गैर-सामान्य, दाएं-तिरछी अवशिष्ट का उत्पादन करता है जो कि एक विषम तरीके (2 भूखंड) में अनुमानित वाई से संबंधित है। परिवर्तनों के लिए कोई सुझाव या अन्य तरीके सबसे वैध परिणाम और सबसे अच्छी भविष्यवाणी सटीकता प्राप्त करने के लिए? यदि संभव हो तो मैं अनाड़ी श्रेणीबद्धता से बचना चाहूंगा, कह सकते हैं, 5 मान (जैसे, 0, लो%, मेड%, हाय%, 1)।

यहाँ छवि विवरण दर्ज करें

— rolando2
स्रोत

कुछ है: आप इन आंकड़ों के बारे में बता और वे कहाँ से आए बंद बेहतर होगा clamped एक वितरण है कि स्वाभाविक रूप से परे फैली हुई है अंतराल। यह संभव है कि आपने कुछ माप पद्धति या सांख्यिकीय प्रक्रिया का उपयोग किया है जो आपके डेटा के लिए बिल्कुल उपयुक्त नहीं है। परिष्कृत वितरण-फिटिंग तकनीकों, नाइलिनियर री-एक्सप्रेशंस, बिनिंग, आदि के साथ ऐसी गलती को पैच करने की कोशिश करना, बस त्रुटि को कम करेगा, इसलिए समस्या को पूरी तरह से दरकिनार करना अच्छा होगा।

[0, 1]

$[0,1]$

— whuber

@whuber - एक अच्छा विचार है, लेकिन चर एक जटिल नौकरशाही प्रणाली के माध्यम से बनाया गया था जो दुर्भाग्य से पत्थर में सेट है। मैं यहाँ शामिल चर की प्रकृति का खुलासा करने के लिए स्वतंत्र नहीं हूँ।

— rolando2

ठीक है, यह एक शॉट के लायक था। मैं सोच रहा हूं कि डेटा को बदलने के बजाय, आप अभी भी प्रतिगमन करने के लिए एक एमएल प्रक्रिया के रूप में क्लैम्पिंग तंत्र को पहचानना चाह सकते हैं: यह इन आंकड़ों को देखने के समान है जो बाएं और दाएं-सेंसर दोनों हैं ।

— whuber

एकता से छोटे मापदंडों के साथ बीटा वितरण की कोशिश करें, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg

— एलेकोस पापाडोपोलोस

इस तरह के बाथटब या यू-आकार का वितरण पत्रिका पाठकों में आम है जहां कई लोग एक प्रकाशन के एक ही मुद्दे को पढ़ेंगे, उदाहरण के लिए, एक डॉक्टर के कार्यालय में या फिर ऐसे ग्राहक हैं जो हर मुद्दे को पाठकों के बीच में एक चापलूसी के साथ देखते हैं। कई टिप्पणियों और प्रतिक्रियाओं ने बीटा वितरण को एक संभावित समाधान के रूप में इंगित किया है। साहित्य मैं बीटा-द्विपद के बिंदुओं से बेहतर फिटिंग विकल्प के रूप में परिचित हूं।

— माइक हंटर

जवाबों:

सेंसर रिग्रेशन के तरीके इस तरह से डेटा को हैंडल कर सकते हैं। वे मानते हैं कि अवशिष्ट सामान्य रैखिक प्रतिगमन के रूप में व्यवहार करते हैं लेकिन उन्हें संशोधित किया गया है

(बाएं सेंसरिंग): कम सीमा से छोटे सभी मान, जो डेटा से स्वतंत्र हैं, (लेकिन एक मामले से दूसरे में भिन्न हो सकते हैं) की मात्रा निर्धारित नहीं की गई है; और / या
(राइट सेंसरिंग): एक उच्च सीमा से बड़े सभी मान, जो डेटा से स्वतंत्र हैं (लेकिन एक मामले से दूसरे में भिन्न हो सकते हैं) की मात्रा निर्धारित नहीं की गई है।

"मात्रा निर्धारित नहीं" का अर्थ है कि हम जानते हैं कि इसकी सीमा से नीचे (या ऊपर) कोई मूल्य आता है या नहीं, लेकिन यह सब है।

फिटिंग के तरीके आमतौर पर अधिकतम संभावना का उपयोग करते हैं। जब सदिश के अनुक्रिया लिए मॉडल रूप में होता है $Y$ $X$

Y \sim X β + ε

$Y \sim X \beta + \varepsilon$

आईआईडी साथ एक सामान्य वितरण होने साथ पीडीएफ (जहां अज्ञात "उपद्रव पैरामीटर" कर रहे हैं), तो - पर रोक लगाए के अभाव में - टिप्पणियों के लॉग संभावना है $\varepsilon$ $F_\sigma$ $f_\sigma$ $\sigma$ $(x_i, y_i)$

Λ = \sum_{i = 1}^{n} \log f_{σ} (y_{i} - x_{i} β) .

$\Lambda = \sum_{i=1}^n \log f_\sigma(y_i - x_i\beta).$

वर्तमान में काट-छाँट के साथ हम तीन में मामलों को विभाजित कर सकते हैं (संभवतः खाली) वर्ग: अनुक्रमणिका के लिए के लिए , शामिल कम दहलीज मूल्यों और प्रतिनिधित्व करते हैं छोड़ दिया सेंसर डेटा; अनुक्रमित के लिए से , परिमाणित हैं; और शेष अनुक्रमित के लिए, शामिल ऊपरी सीमा मूल्यों और का प्रतिनिधित्व करते हैं सही सेंसर $i=1$ $n_1$ $y_i$ $i=n_1+1$ $n_2$ $y_i$ $y_i$ डेटा। लॉग संभावना को पहले की तरह ही प्राप्त किया जाता है: यह संभावनाओं के उत्पाद का लॉग है।

Λ = \sum_{i = 1}^{n_{1}} \log F_{σ} (y_{i} - x_{i} β) + \sum_{i = n_{1} + 1}^{n_{2}} \log f_{σ} (y_{i} - x_{i} β) + \sum_{i = n_{2} + 1}^{n} \log (1 - F_{σ} (y_{i} - x_{i} β)) .

$\Lambda = \sum_{i=1}^{n_1} \log F_\sigma(y_i - x_i\beta) + \sum_{i=n_1+1}^{n_2} \log f_\sigma(y_i - x_i\beta) + \sum_{i=n_2+1}^n \log (1 - F_\sigma(y_i - x_i\beta)).$

$(\beta, \sigma)$

मेरे अनुभव में, ऐसे तरीके अच्छी तरह से काम कर सकते हैं जब आधे से कम डेटा सेंसर हो; अन्यथा, परिणाम अस्थिर हो सकते हैं।

यहां एक सरल Rउदाहरण है कि censRegपैकेज का उपयोग करके बताया गया है कि कैसे ओएलएस और सेंसर किए गए परिणाम अलग-अलग (बहुत) डेटा के साथ भी भिन्न हो सकते हैं। यह गुणात्मक रूप से प्रश्न में डेटा को पुन: पेश करता है।

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

$0.005$ $-0.001$ $0.005$

चलो दोनों का उपयोग करें lmऔर censRegएक पंक्ति फिट करने के लिए:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

द्वारा दिए गए इस सेंसर रिग्रेशन के परिणाम print(fit)हैं

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856

$-0.001$ $0.005$ $0.005$

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

द्वारा दिया गया ओएलएस फिट print(fit.OLS)है

(Intercept)            x  
   0.001996     0.002345

summary $0.002864$

तुलना के लिए, चलो प्रतिगमन को परिमाणित डेटा तक सीमित करते हैं:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461

और भी बदतर!

कुछ तस्वीरें स्थिति को सारांशित करती हैं।

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

भूखंड

$0$ $0.01$

$Y$ $0.0032$ $0.0037$

— व्हीबर
स्रोत

शानदार जवाब (+1)। यदि हम दो सेंसरिंग स्पिक को नेत्रहीन रूप से हटाते हैं, तो मुझे ऐसा लगता है कि आश्रित चर में एक घातीय वितरण के करीब कुछ है, जैसे कि अंतर्निहित डेटा कुछ प्रक्रिया की लंबाई थी। क्या यह ध्यान रखना है?

— user603

@ user603 मैंने एक गाऊसी के ऊपरी हिस्से के हिस्से के साथ मात्रात्मक मूल्यों का अनुकरण किया, वास्तव में :-)। हमें यहां ध्यान रखना होगा, क्योंकि प्रासंगिक संभावना मॉडल अवशिष्ट से संबंधित है न कि केवल प्रतिक्रिया चर से। हालांकि यह थोड़ा मुश्किल है, लेकिन कुछ काल्पनिक वितरण के लिए फिट की अच्छाई का आकलन करने के लिए सेंसर अवशिष्ट प्लॉट और यहां तक कि सेंसर किए गए प्रायिकता प्लॉट बना सकते हैं।

— whuber

मेरा कहना है कि एक दोगुनी सेंसर वाली गौसियन के साथ, बिना सेंसर वाले मूल्यों का हिस्टोग्राम कुछ हद तक सपाट होना चाहिए, लेकिन वे धीरे-धीरे घटते दिख रहे हैं क्योंकि हम

— 0.10

@ user603 आह, नहीं, ऐसी बात नहीं है: अपने आप को निर्धारित मानों के हिस्टोग्राम पर एक नज़र डालें। वे लगभग रैखिक रूप से नीचे की ओर ढलान में दिखाई देंगे, बिल्कुल सवाल के रूप में।

— whuber

मैंने अपने डेटासेट पर सेंसर किए गए प्रतिगमन की कोशिश की और परिणाम उन लोगों से बेहतर थे जिन्होंने ओएलएस से बेहतर प्रदर्शन किया। मेरे टूलकिट के लिए एक अच्छा इसके अलावा - thx।

— rolando2

क्या मूल्य हमेशा 0 और 1 के बीच होते हैं?

यदि ऐसा है तो आप बीटा वितरण और बीटा प्रतिगमन पर विचार कर सकते हैं।

लेकिन उस प्रक्रिया के माध्यम से सोचना सुनिश्चित करें जो आपके डेटा की ओर ले जाती है। आप एक 0 और 1 फुलाया हुआ मॉडल भी कर सकते हैं (0 फुलाया हुआ मॉडल आम हैं, आपको संभवतः अपने आप से 1 फुलाया हुआ विस्तार करना होगा)। बड़ा अंतर यह है कि यदि वे स्पाइक्स बड़ी संख्या में सटीक 0 और 1 या केवल 0 और 1 के करीब मानों का प्रतिनिधित्व करते हैं।

सबसे अच्छा दृष्टिकोण बाहर काम करने के लिए स्थानीय सांख्यिकीविद् (एक गैर-प्रकटीकरण समझौते के साथ परामर्श करना सबसे अच्छा हो सकता है ताकि आप इस बात पर चर्चा कर सकें कि डेटा कहाँ से आया है)।

— ग्रेग हिमपात
स्रोत

0

$0$

1

$1$

हां, हमेशा 0% से 1% की सीमा में ... और ये स्पाइक्स वास्तव में 0% और 1% पर हैं। क्या शून्य-या शून्य-और-एक-फुलाए गए मॉडल इन जैसे गैर-गणना डेटा पर लागू होते हैं?

— rolando2

एक शून्य फुलाया हुआ सामान्य है, लेकिन वह यहां लागू नहीं होता है।

— पीटर Flom - को पुनः स्थापित मोनिका

सटीक 0 और 1 के बीच लेकिन इसके बीच निरंतर ऐसा लगता है कि उस क्षेत्र के बाहर vaues के साथ एक अंतर्निहित निरंतर वितरण हो सकता है 0 या 1 के लिए गोल। यह एक दोगुना सेंसर वाला मामला होगा और मॉडल उस विचार का उपयोग करके फिट हो सकते हैं।

— ग्रेग स्नो

ग्रेग स्नो की सलाह के साथ सहमति में मैंने सुना है कि बीटा मॉडल ऐसी स्थितियों में भी उपयोगी हैं (एक स्मिथसन एंड वर्किलेन, 2006, ए बेटर लेमन स्क्वीज़र ), साथ ही क्वांटाइल रिग्रेशन ( बोटाई एट अल।, 2010 ) देखें, लेकिन ये ऐसा लगता है कि स्पष्ट फर्श और छत प्रभाव वे अनुचित हो सकते हैं (विशेषकर बीटा प्रतिगमन)।

एक अन्य विकल्प माना जाता है कि सेंसर किए गए प्रतिगमन मॉडल के प्रकार, विशेष रूप से टोबिट मॉडल , जहां हम कुछ अंतर्निहित अव्यक्त चर द्वारा उत्पन्न परिणामों को मानते हैं जो निरंतर (और संभवतः सामान्य) है। मैं यह नहीं कहने जा रहा हूं कि यह अंतर्निहित निरंतर मॉडल उचित है, आपका हिस्टोग्राम दिया गया है, लेकिन आप इसके लिए कुछ समर्थन पा सकते हैं क्योंकि आप वितरण को देखते हैं (फर्श को अनदेखा करते हुए) साधन के निचले मूल्यों पर एक उच्च घनत्व होता है और धीरे-धीरे उच्चतर होता है मान।

सौभाग्य हालांकि, कि सेंसरिंग इतनी नाटकीय है कि चरम बाल्टियों के भीतर बहुत उपयोगी जानकारी को पुनर्प्राप्त करना मुश्किल है। यह मुझे ऐसा लग रहा है कि आपका लगभग आधा नमूना फर्श और छत के डिब्बे के भीतर है।

— एंडी डब्ल्यू
स्रोत