क्या यह अवशिष्ट के आकार द्वारा निर्धारित डेटा को स्तरीकृत करने और दो-नमूना तुलना करने के लिए सभी रक्षात्मक है?


16

यह कुछ ऐसा है जिसे मैं एक तदर्थ विधि के रूप में देख रहा हूं और यह मुझे बहुत ही कठिन लगता है लेकिन शायद मुझे कुछ याद आ रहा है। मैंने इसे कई प्रतिगमन में देखा है लेकिन चलो इसे सरल रखें:

yमैं=β0+β1एक्समैं+εमैं

अब फिट किए गए मॉडल से अवशेषों को लें

मैं=yमैं-(β^0+β^1एक्समैं)

और अवशिष्ट के आकार के आधार पर नमूने का स्तरीकरण करें। उदाहरण के लिए, कहते हैं कि पहला नमूना अवशिष्ट का निचला 90% है और दूसरा नमूना शीर्ष 10% है, फिर दो नमूना तुलना करने के लिए आगे बढ़ें - मैंने मॉडल, , और में भविष्यवक्ता दोनों पर ऐसा देखा है मॉडल में नहीं चर पर। अनौपचारिक तर्क का उपयोग किया जाता है कि शायद ऐसे बिंदु जो मॉडल के तहत आपकी अपेक्षाओं से बहुत ऊपर हैं (यानी एक बड़ा अवशिष्ट) किसी तरह से अलग हैं, और इस अंतर की जांच इस तरह से की जाती है।एक्स

इस विषय पर मेरे विचार हैं:

  • यदि आपको मॉडल में एक भविष्यवक्ता पर 2-नमूना अंतर दिखाई देता है, तो इसके वर्तमान स्थिति (यानी गैर-रैखिक प्रभाव) में मॉडल द्वारा अनुमानित नहीं होने वाले पूर्वानुमान के प्रभाव हैं।
  • यदि आपको मॉडल में नहीं एक चर पर 2-नमूना अंतर दिखाई देता है, तो शायद यह पहली जगह में मॉडल में होना चाहिए।

एक बात मैं अनुभव मिल गया है (सिमुलेशन के माध्यम से) कि है, तो आप में मॉडल एक भविष्यवक्ता की संकरी तुलना कर रहे हैं और इस तरह से विभक्त हो जाना दो नमूना साधन, निर्माण करने के लिए और , वे सकारात्मक रूप से एक दूसरे के साथ सहसंबंधित हैं। यह समझ में आता है क्योंकि दोनों नमूने और पर निर्भर करते हैं। । जब आप कटऑफ़ को नीचे ले जाते हैं (तो नमूना को विभाजित करने के लिए आप जिस% का उपयोग करते हैं) उस सहसंबंध में वृद्धि होती है। तो बहुत कम से कम, यदि आप के हर में मानक त्रुटि की तुलना में दो-नमूना करने जा रहे हैंएक्सएक्स¯1एक्स¯2y¯,एक्स¯,σ^एक्स,σ^yρ^एक्सyटी-सहसंबंध को सहसंबंध के लिए समायोजित करने की आवश्यकता है (हालांकि मैंने सहसंयोजक के लिए एक स्पष्ट सूत्र प्राप्त नहीं किया है)।

किसी भी तरह, मेरा मूल प्रश्न है: क्या ऐसा करने का कोई औचित्य है? यदि हां, तो किन स्थितियों में यह एक उपयोगी चीज हो सकती है? स्पष्ट रूप से मुझे नहीं लगता कि लेकिन ऐसा कुछ हो सकता है जो मैं सही तरीके से नहीं सोच रहा हूं।


दो नमूना तुलना एक ही उपयोग करते हैं IV? यदि हां, तो मैं इस बिंदु को नहीं देख सकता क्योंकि अवशिष्ट विभाजन पहले से ही उस जानकारी का उपयोग कर रहा है। क्या आप इसका उदाहरण दे सकते हैं कि आपने यह कहां देखा है, यह मेरे लिए नया है।
मिशेल

1
खैर, एक संभवतः यह है कि यह एक नैदानिक ​​के रूप में इस्तेमाल किया जा सकता है यह देखने के लिए कि क्या आपके पास मॉडल मिसकैपिफिकेशन है - आप इसके बारे में क्या सोचते हैं?
मैक्रों

3
मैं उपरोक्त समस्याओं द्वारा सुझाए गए समस्याग्रस्त बिंदुओं या लापता गैर-रैखिक प्रभावों की पहचान करने के लिए एक नैदानिक ​​उपकरण के रूप में के अलावा अन्य करने में कोई बिंदु नहीं देख सकता। मुझे लगता है कि ओपी में दो बिंदु ("विषय पर विचार ...") बहुत सुंदर हैं।
पीटर एलिस

1
इस तकनीक का उपयोग लोह और उनके सहकर्मियों ने अपने पेड़ के एल्गोरिदम समर्थन में विभाजित चर निर्धारित करने के लिए किया है और, मुझे लगता है, गाइड। चूंकि डेटा सेट उस तरह से विभाजित हो जाता है, इसलिए इसे एक नॉनलाइनर प्रभाव की तलाश के रूप में सोचा जा सकता है (एक चरणबद्ध फ़ंक्शन द्वारा अनुमानित) और यह निर्धारित करने के लिए कि क्या एक चर वास्तव में भूल गया है। मुझे याद है कि अगर वह भी चतुर है, तो शायद आपको उनके कागजात में अधिक स्पष्टीकरण मिल जाए (मुझे याद नहीं है)।
मोमो

1
बिलकुल कोई परेशानी नही। यहाँ चौधरी एट अल है। www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica -j5n2/ j5n217 / j5n217.htm संदर्भ के लिए समर्थन और लोहित एट अल पृष्ठ के संदर्भ । wisc.edu/~loh/guide.html
मोमो

जवाबों:


8

साधनों की तुलना बहुत कमजोर है: इसके बजाय, वितरण की तुलना करें।

इस बारे में भी एक प्रश्न है कि क्या अवशेषों (जैसा कि कहा गया है) के आकार की तुलना करना या स्वयं अवशिष्ट की तुलना करना अधिक वांछनीय है । इसलिए, मैं दोनों का मूल्यांकन करता हूं।

क्या मतलब है के बारे में विशिष्ट होना करने के लिए, यहाँ कुछ है Rकोड तुलना करने के लिए (समानांतर सरणियों में दिए गए आंकड़े और ) regressing द्वारा y पर , में बच विभाजित तीन उन्हें quantile नीचे कटौती करके समूहों और quantile ऊपर , और (qq प्लॉट के माध्यम से) उन दो समूहों के साथ जुड़े मानों के वितरण की तुलना करता है ।(एक्स,y)xyyएक्सक्ष0क्ष1>क्ष0एक्स

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

इस फ़ंक्शन का पाँचवाँ तर्क abs0, डिफ़ॉल्ट रूप से समूहों को बनाने के लिए अवशिष्टों के आकार (पूर्ण मान) का उपयोग करता है। बाद में हम उस फ़ंक्शन को बदल सकते हैं जो स्वयं अवशिष्टों का उपयोग करता है।

अवशिष्ट का उपयोग कई चीजों का पता लगाने के लिए किया जाता है: बहिर्गमन, बहिर्जात चर के साथ संभावित सहसंबंध, फिट की अच्छाई, और समरूपता। आउटलेयर, उनके स्वभाव से, थोड़े और अलग-थलग होने चाहिए और इस तरह वे यहां एक सार्थक भूमिका नहीं निभाने वाले हैं। इस विश्लेषण को सरल रखने के लिए, आइए अंतिम दो का पता लगाएं: फिट की अच्छाई (जो कि - संबंध की रैखिकता है ) और समरूपता (यानी अवशिष्टों के आकार का स्थिर होना)। हम सिमुलेशन के माध्यम से ऐसा कर सकते हैं:एक्सy

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

यह कोड रैखिक मॉडल को निर्धारित करने वाले तर्कों को स्वीकार करता है: इसके गुणांक , त्रुटि शर्तों के मानक विचलन , मात्राएं और , आकार कार्य और स्वतंत्र की संख्या। सिमुलेशन में परीक्षण ,। पहला तर्क प्रत्येक परीक्षण में अनुकरण करने के लिए डेटा की मात्रा है। यह भूखंडों का एक सेट - डेटा, उनके अवशेषों का, और कई परीक्षणों के qq भूखंडों का उत्पादन करता है - हमें यह समझने में मदद करने के लिए कि किसी दिए गए मॉडल के लिए प्रस्तावित परीक्षण कैसे काम करते हैं (जैसा कि निर्धारित होता है , बीटा) एस और )। इन भूखंडों के उदाहरण नीचे दिखाई देते हैं।yβ0+β1x+β2x2sdq0q1abs0n.trialsn(x,y)nsd

आइए अब हम इन उपकरणों का उपयोग अवशेषों के पूर्ण मूल्यों का उपयोग करके, ग़ैर-हीनता और विषमता के कुछ यथार्थवादी संयोजनों का पता लगाने के लिए करते हैं:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

आउटपुट भूखंडों का एक सेट है। शीर्ष पंक्ति एक सिम्युलेटेड डेटासेट दिखाती है , दूसरी पंक्ति खिलाफ अपने अवशिष्ट का एक विखंडन दिखाती है (क्वांटाइल द्वारा रंग-कोडित: बड़े मूल्यों के लिए लाल, छोटे मूल्यों के लिए नीला, किसी भी मध्यवर्ती मूल्यों के लिए ग्रे आगे इस्तेमाल नहीं किया गया), और तीसरी पंक्ति सभी परीक्षणों के लिए qq प्लॉट दिखाता है, काले रंग में दिखाए गए एक नकली डेटासेट के लिए qq प्लॉट के साथ। एक व्यक्तिगत qq प्लॉट उच्च अवशिष्ट से जुड़े मानों की तुलना निम्न अवशिष्टों से जुड़े मानों से करता है; कई परीक्षणों के बाद, संभावना क्यू प्लॉट का एक ग्रे लिफाफा उभरता है। हम रुचि रखते हैं कि कैसे, और कितनी दृढ़ता से, ये लिफाफे मूल रैखिक मॉडल से प्रस्थान के साथ भिन्न होते हैं: मजबूत भिन्नता अच्छे भेदभाव का अर्थ है।xxx

सम्पूर्ण मूल्य

पिछले तीन और पहले स्तंभों के बीच के अंतर यह स्पष्ट करते हैं कि यह विधि विषमलैंगिकता का पता लगाने में सक्षम है, लेकिन यह एक मध्यम गैर-अस्तित्व की पहचान करने में इतना प्रभावी नहीं हो सकता है। यह आसानी से विषमलैंगिकता के साथ गैर-अस्तित्व को भ्रमित कर सकता है। इसका कारण यह है कि यहां विषमलैंगिकता का रूप नकली है (जो कि आम है) वह है जहां साथ अवशिष्ट प्रवृत्ति के अपेक्षित आकार होते हैं । उस प्रवृत्ति का पता लगाना आसान है। दूसरी ओर, द्विघातीय गैर-विहीनता, दोनों सिरों पर और मानों की श्रेणी के बीच में बड़े अवशिष्ट बनाएगी । यह प्रभावित मानों के वितरण को देखकर बस भेद करना कठिन है ।xxएक्स

चलो एक ही डेटा का उपयोग करते हैं , लेकिन स्वयं अवशिष्ट का विश्लेषण करते हैं। ऐसा करने के लिए, इस संशोधन को करने के बाद कोड का पिछला ब्लॉक फिर से चालू हो गया:

size <- function(x) x

बच गया

यह भिन्नता विषमलैंगिकता का अच्छी तरह से पता नहीं लगाती है: देखें कि पहले दो स्तंभों में qq भूखंड कैसे समान हैं। हालाँकि, यह अशुभता का पता लगाने का एक अच्छा काम करता है। इसका कारण यह है कि अवशिष्ट के मध्य भाग और एक बाहरी भाग को अलग करते हैं, जो काफी भिन्न होगा। जैसा कि सबसे दाहिने कॉलम में दिखाया गया है, हालांकि, विषमलैंगिकता गैर-असमानताओं का सामना कर सकती है।एक्स

शायद इन दोनों तकनीकों को मिलाकर काम होगा। ये सिमुलेशन (और उनमें से भिन्नताएं, जो इच्छुक पाठक आराम से चला सकते हैं) प्रदर्शित करते हैं कि ये तकनीक योग्यता के बिना नहीं हैं।

सामान्य तौर पर, हालांकि, मानक तरीकों से अवशिष्टों की जांच करना बेहतर होता है। स्वचालित काम के लिए, अवशिष्ट भूखंडों में हम जिन चीजों की तलाश करते हैं, उनका पता लगाने के लिए औपचारिक परीक्षण विकसित किए गए हैं। उदाहरण के लिए, ब्रेस्च-पैगन परीक्षण खिलाफ चुकता अवशिष्टों (उनके पूर्ण मूल्यों के बजाय) को पुनः प्राप्त करता है । इस प्रश्न में प्रस्तावित परीक्षणों को उसी भावना से समझा जा सकता है। हालांकि, सिर्फ दो समूहों में डेटा binning और इस तरह के सबसे उपेक्षा से द्विचर द्वारा प्रदान जानकारी जोड़े, हम प्रस्तावित परीक्षण की तरह प्रतिगमन आधारित परीक्षणों की तुलना में कम शक्तिशाली हो उम्मीद कर सकते हैं द ब्रेस्च-पगनएक्स(एक्स,y^-एक्स)


2

मैं आपकी दोनों बातों से सहमत हूं। यदि मॉडल अपर्याप्त है तो अवशिष्ट लगभग स्वतंत्र और समान रूप से वितरित नहीं हो सकते हैं। महत्वपूर्ण चरों को छोड़ दिया जा सकता था या प्रतिगामी चरों का कार्यात्मक रूप गलत हो सकता था। अगर ऐसा है तो मैं इसके बजाय समस्या की पहचान करने के लिए मानक प्रतिगमन निदान का उपयोग करूंगा। इसके अलावा, आपके पास सही कार्यात्मक रूप के साथ मॉडल में सही चर हो सकते हैं लेकिन फिर भी एक गैर-भिन्न संस्करण है। यह खिलाफ साजिश रचने से स्पष्ट हो सकता है । मैं कहने के लिए एक बिंदु देख सकता हूं कि कुछ अवशिष्ट के माध्यम से मॉडल में आउटलेर को ढूंढना चाहता हूं, लेकिन फिर मैं उनका पता लगाने के लिए एक प्रभाव फ़ंक्शन दृष्टिकोण की सिफारिश करूंगा। मैं नहीं देखता कि यह प्रक्रिया क्या पूरा करती है।मैंएक्समैं

अन्य लोगों ने टिप्पणी की है कि यह देखने के लिए सिर्फ एक खोजपूर्ण उपकरण हो सकता है कि क्या दो डेटा सेटों को अलग-अलग मॉडल किया जाना चाहिए। अगर ऐसा है और संभवतः अन्य खोजपूर्ण दृष्टिकोण ठीक हो सकते हैं। लेकिन सवाल तब बनता है कि आप आगे क्या करते हैं? यदि आप जा रहे हैं तो दो अलग-अलग पंजीकरण करें और नमूनों के बारे में अनुमान लगाएं, मुझे लगता है कि आपको किसी भी तरह से नमूने को विभाजित करने के तरीके की आवश्यकता है।


0

मुझे लगता है कि ऐसा करने के लिए कई प्रेरणाएं हो सकती हैं। यह मानते हुए कि अवशिष्ट सुसंगत हैं, तो आपके द्वारा उल्लिखित विधि अवलोकनों को पहचानने में मदद कर सकती है, इस प्रकार दूसरा चरण "सही" अनुमानकर्ताओं के साथ प्रदान करता है। लेकिन, अधिक कठोर तकनीकें हैं जो आउटलाइयर का पता लगाने का काम करती हैं या वे अनुमानक प्रदान करती हैं जो ऐसी टिप्पणियों की उपस्थिति के लिए मजबूत होते हैं, जैसे कि क्वांटाइल रिग्रेसन, एलएमएस (वर्गों का कम से कम माध्यियन) या एम-एसेटर आदि जहां इन सभी विधियों को अच्छी तरह से परिभाषित किया गया है। और ज्ञात सांख्यिकीय गुण। (यह @Michael Chernik द्वारा जोड़ दिया गया है)

अन्य प्रेरणा क्लस्टर की पहचान हो सकती है लेकिन क्लस्टर की पहचान के लिए उपलब्ध तकनीकों की तुलना में यह आदिम है जो अच्छी तरह से परिभाषित और व्यापक रूप से लागू है।

दोनों मामलों में, अवशिष्ट का उपयोग करना अनौपचारिक और आदिम लगता है, लेकिन फिर भी एक खोज उपकरण के रूप में सहन किया जा सकता है। यह पाठकों के डोमेन पर भी निर्भर करता है। मुझे यह कुछ सामाजिक विज्ञानों के लिए स्वीकार्य लगेगा जहाँ मात्रात्मक उपकरण कम लोकप्रिय हो सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.