इस विषम-आकार के वितरण को कैसे मॉडल करें (लगभग एक रिवर्स-जे)


25

नीचे दिखाया गया मेरा आश्रित चर किसी भी स्टॉक वितरण के लायक नहीं है जिसे मैं जानता हूं। रैखिक प्रतिगमन कुछ गैर-सामान्य, दाएं-तिरछी अवशिष्ट का उत्पादन करता है जो कि एक विषम तरीके (2 भूखंड) में अनुमानित वाई से संबंधित है। परिवर्तनों के लिए कोई सुझाव या अन्य तरीके सबसे वैध परिणाम और सबसे अच्छी भविष्यवाणी सटीकता प्राप्त करने के लिए? यदि संभव हो तो मैं अनाड़ी श्रेणीबद्धता से बचना चाहूंगा, कह सकते हैं, 5 मान (जैसे, 0, लो%, मेड%, हाय%, 1)।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें


7
कुछ है: आप इन आंकड़ों के बारे में बता और वे कहाँ से आए बंद बेहतर होगा clamped एक वितरण है कि स्वाभाविक रूप से परे फैली हुई है अंतराल। यह संभव है कि आपने कुछ माप पद्धति या सांख्यिकीय प्रक्रिया का उपयोग किया है जो आपके डेटा के लिए बिल्कुल उपयुक्त नहीं है। परिष्कृत वितरण-फिटिंग तकनीकों, नाइलिनियर री-एक्सप्रेशंस, बिनिंग, आदि के साथ ऐसी गलती को पैच करने की कोशिश करना, बस त्रुटि को कम करेगा, इसलिए समस्या को पूरी तरह से दरकिनार करना अच्छा होगा। [0,1]
whuber

2
@whuber - एक अच्छा विचार है, लेकिन चर एक जटिल नौकरशाही प्रणाली के माध्यम से बनाया गया था जो दुर्भाग्य से पत्थर में सेट है। मैं यहाँ शामिल चर की प्रकृति का खुलासा करने के लिए स्वतंत्र नहीं हूँ।
rolando2

1
ठीक है, यह एक शॉट के लायक था। मैं सोच रहा हूं कि डेटा को बदलने के बजाय, आप अभी भी प्रतिगमन करने के लिए एक एमएल प्रक्रिया के रूप में क्लैम्पिंग तंत्र को पहचानना चाह सकते हैं: यह इन आंकड़ों को देखने के समान है जो बाएं और दाएं-सेंसर दोनों हैं ।
whuber

एकता से छोटे मापदंडों के साथ बीटा वितरण की कोशिश करें, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg
एलेकोस पापाडोपोलोस

2
इस तरह के बाथटब या यू-आकार का वितरण पत्रिका पाठकों में आम है जहां कई लोग एक प्रकाशन के एक ही मुद्दे को पढ़ेंगे, उदाहरण के लिए, एक डॉक्टर के कार्यालय में या फिर ऐसे ग्राहक हैं जो हर मुद्दे को पाठकों के बीच में एक चापलूसी के साथ देखते हैं। कई टिप्पणियों और प्रतिक्रियाओं ने बीटा वितरण को एक संभावित समाधान के रूप में इंगित किया है। साहित्य मैं बीटा-द्विपद के बिंदुओं से बेहतर फिटिंग विकल्प के रूप में परिचित हूं।
माइक हंटर

जवाबों:


47

सेंसर रिग्रेशन के तरीके इस तरह से डेटा को हैंडल कर सकते हैं। वे मानते हैं कि अवशिष्ट सामान्य रैखिक प्रतिगमन के रूप में व्यवहार करते हैं लेकिन उन्हें संशोधित किया गया है

  1. (बाएं सेंसरिंग): कम सीमा से छोटे सभी मान, जो डेटा से स्वतंत्र हैं, (लेकिन एक मामले से दूसरे में भिन्न हो सकते हैं) की मात्रा निर्धारित नहीं की गई है; और / या

  2. (राइट सेंसरिंग): एक उच्च सीमा से बड़े सभी मान, जो डेटा से स्वतंत्र हैं (लेकिन एक मामले से दूसरे में भिन्न हो सकते हैं) की मात्रा निर्धारित नहीं की गई है।

"मात्रा निर्धारित नहीं" का अर्थ है कि हम जानते हैं कि इसकी सीमा से नीचे (या ऊपर) कोई मूल्य आता है या नहीं, लेकिन यह सब है।

फिटिंग के तरीके आमतौर पर अधिकतम संभावना का उपयोग करते हैं। जब सदिश X के अनुक्रिया लिए मॉडल रूप में होता हैYX

YXβ+ε

आईआईडी साथ एक सामान्य वितरण होने एफ σ साथ पीडीएफ σ (जहां σ अज्ञात "उपद्रव पैरामीटर" कर रहे हैं), तो - पर रोक लगाए के अभाव में - टिप्पणियों के लॉग संभावना ( एक्स मैं , y मैं ) हैεFσfσσ(xi,yi)

Λ=i=1nlogfσ(yixiβ).

वर्तमान में काट-छाँट के साथ हम तीन में मामलों को विभाजित कर सकते हैं (संभवतः खाली) वर्ग: अनुक्रमणिका के लिए के लिए एन 1 , y मैं शामिल कम दहलीज मूल्यों और प्रतिनिधित्व करते हैं छोड़ दिया सेंसर डेटा; अनुक्रमित के लिए i = n 1 + 1 से n 2 , y मैं परिमाणित हैं; और शेष अनुक्रमित के लिए, y मैं शामिल ऊपरी सीमा मूल्यों और का प्रतिनिधित्व करते हैं सही सेंसरi=1n1yii=n1+1n2yiyiडेटा। लॉग संभावना को पहले की तरह ही प्राप्त किया जाता है: यह संभावनाओं के उत्पाद का लॉग है।

Λ=i=1n1logFσ(yixiβ)+i=n1+1n2logfσ(yixiβ)+i=n2+1nlog(1Fσ(yixiβ)).

(β,σ)

मेरे अनुभव में, ऐसे तरीके अच्छी तरह से काम कर सकते हैं जब आधे से कम डेटा सेंसर हो; अन्यथा, परिणाम अस्थिर हो सकते हैं।


यहां एक सरल Rउदाहरण है कि censRegपैकेज का उपयोग करके बताया गया है कि कैसे ओएलएस और सेंसर किए गए परिणाम अलग-अलग (बहुत) डेटा के साथ भी भिन्न हो सकते हैं। यह गुणात्मक रूप से प्रश्न में डेटा को पुन: पेश करता है।

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

0.0050.0010.005

चलो दोनों का उपयोग करें lmऔर censRegएक पंक्ति फिट करने के लिए:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

द्वारा दिए गए इस सेंसर रिग्रेशन के परिणाम print(fit)हैं

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

0.0010.0050.005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

द्वारा दिया गया ओएलएस फिट print(fit.OLS)है

(Intercept)            x  
   0.001996     0.002345  

summary0.002864

तुलना के लिए, चलो प्रतिगमन को परिमाणित डेटा तक सीमित करते हैं:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

और भी बदतर!

कुछ तस्वीरें स्थिति को सारांशित करती हैं।

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

भूखंड

00.01

Y0.00320.0037


शानदार जवाब (+1)। यदि हम दो सेंसरिंग स्पिक को नेत्रहीन रूप से हटाते हैं, तो मुझे ऐसा लगता है कि आश्रित चर में एक घातीय वितरण के करीब कुछ है, जैसे कि अंतर्निहित डेटा कुछ प्रक्रिया की लंबाई थी। क्या यह ध्यान रखना है?
user603

@ user603 मैंने एक गाऊसी के ऊपरी हिस्से के हिस्से के साथ मात्रात्मक मूल्यों का अनुकरण किया, वास्तव में :-)। हमें यहां ध्यान रखना होगा, क्योंकि प्रासंगिक संभावना मॉडल अवशिष्ट से संबंधित है न कि केवल प्रतिक्रिया चर से। हालांकि यह थोड़ा मुश्किल है, लेकिन कुछ काल्पनिक वितरण के लिए फिट की अच्छाई का आकलन करने के लिए सेंसर अवशिष्ट प्लॉट और यहां तक ​​कि सेंसर किए गए प्रायिकता प्लॉट बना सकते हैं।
whuber

मेरा कहना है कि एक दोगुनी सेंसर वाली गौसियन के साथ, बिना सेंसर वाले मूल्यों का हिस्टोग्राम कुछ हद तक सपाट होना चाहिए, लेकिन वे धीरे-धीरे घटते दिख रहे हैं क्योंकि हम
0.10

1
@ user603 आह, नहीं, ऐसी बात नहीं है: अपने आप को निर्धारित मानों के हिस्टोग्राम पर एक नज़र डालें। वे लगभग रैखिक रूप से नीचे की ओर ढलान में दिखाई देंगे, बिल्कुल सवाल के रूप में।
whuber

2
मैंने अपने डेटासेट पर सेंसर किए गए प्रतिगमन की कोशिश की और परिणाम उन लोगों से बेहतर थे जिन्होंने ओएलएस से बेहतर प्रदर्शन किया। मेरे टूलकिट के लिए एक अच्छा इसके अलावा - thx।
rolando2

9

क्या मूल्य हमेशा 0 और 1 के बीच होते हैं?

यदि ऐसा है तो आप बीटा वितरण और बीटा प्रतिगमन पर विचार कर सकते हैं।

लेकिन उस प्रक्रिया के माध्यम से सोचना सुनिश्चित करें जो आपके डेटा की ओर ले जाती है। आप एक 0 और 1 फुलाया हुआ मॉडल भी कर सकते हैं (0 फुलाया हुआ मॉडल आम हैं, आपको संभवतः अपने आप से 1 फुलाया हुआ विस्तार करना होगा)। बड़ा अंतर यह है कि यदि वे स्पाइक्स बड़ी संख्या में सटीक 0 और 1 या केवल 0 और 1 के करीब मानों का प्रतिनिधित्व करते हैं।

सबसे अच्छा दृष्टिकोण बाहर काम करने के लिए स्थानीय सांख्यिकीविद् (एक गैर-प्रकटीकरण समझौते के साथ परामर्श करना सबसे अच्छा हो सकता है ताकि आप इस बात पर चर्चा कर सकें कि डेटा कहाँ से आया है)।


2
01

हां, हमेशा 0% से 1% की सीमा में ... और ये स्पाइक्स वास्तव में 0% और 1% पर हैं। क्या शून्य-या शून्य-और-एक-फुलाए गए मॉडल इन जैसे गैर-गणना डेटा पर लागू होते हैं?
rolando2

1
एक शून्य फुलाया हुआ सामान्य है, लेकिन वह यहां लागू नहीं होता है।
पीटर Flom - को पुनः स्थापित मोनिका

सटीक 0 और 1 के बीच लेकिन इसके बीच निरंतर ऐसा लगता है कि उस क्षेत्र के बाहर vaues के साथ एक अंतर्निहित निरंतर वितरण हो सकता है 0 या 1 के लिए गोल। यह एक दोगुना सेंसर वाला मामला होगा और मॉडल उस विचार का उपयोग करके फिट हो सकते हैं।
ग्रेग स्नो

4

ग्रेग स्नो की सलाह के साथ सहमति में मैंने सुना है कि बीटा मॉडल ऐसी स्थितियों में भी उपयोगी हैं (एक स्मिथसन एंड वर्किलेन, 2006, ए बेटर लेमन स्क्वीज़र ), साथ ही क्वांटाइल रिग्रेशन ( बोटाई एट अल।, 2010 ) देखें, लेकिन ये ऐसा लगता है कि स्पष्ट फर्श और छत प्रभाव वे अनुचित हो सकते हैं (विशेषकर बीटा प्रतिगमन)।

एक अन्य विकल्प माना जाता है कि सेंसर किए गए प्रतिगमन मॉडल के प्रकार, विशेष रूप से टोबिट मॉडल , जहां हम कुछ अंतर्निहित अव्यक्त चर द्वारा उत्पन्न परिणामों को मानते हैं जो निरंतर (और संभवतः सामान्य) है। मैं यह नहीं कहने जा रहा हूं कि यह अंतर्निहित निरंतर मॉडल उचित है, आपका हिस्टोग्राम दिया गया है, लेकिन आप इसके लिए कुछ समर्थन पा सकते हैं क्योंकि आप वितरण को देखते हैं (फर्श को अनदेखा करते हुए) साधन के निचले मूल्यों पर एक उच्च घनत्व होता है और धीरे-धीरे उच्चतर होता है मान।

सौभाग्य हालांकि, कि सेंसरिंग इतनी नाटकीय है कि चरम बाल्टियों के भीतर बहुत उपयोगी जानकारी को पुनर्प्राप्त करना मुश्किल है। यह मुझे ऐसा लग रहा है कि आपका लगभग आधा नमूना फर्श और छत के डिब्बे के भीतर है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.