Lm (R में और सामान्य रूप से) के लिए डिफ़ॉल्ट नैदानिक ​​भूखंडों के लिए संभावित एक्सटेंशन?


11

मैंने प्लॉट में थोड़ी खुदाई शुरू की। एलएम फ़ंक्शन, यह फ़ंक्शन एलएम के लिए छह प्लॉट देता है, वे हैं:

  1. सज्जित मूल्यों के विरुद्ध अवशिष्टों का एक भूखंड
  2. फिट किए गए मूल्यों के खिलाफ sqrt (- अवशिष्ट |) का स्केल-स्थान प्लॉट
  3. एक सामान्य क्यूक्यू प्लॉट, कुक लेब की दूरी बनाम पंक्ति लेबल का एक प्लॉट
  4. लीवर के खिलाफ अवशिष्टों का एक भूखंड
  5. लीवरेज के खिलाफ कुक की दूरियों की साजिश / (1-लीवरेज)

और मैं सोच रहा हूं कि रैखिक मॉडल के लिए वर्तमान भूखंडों के अन्य सामान्य / उपयोगी एक्सटेंशन क्या मौजूद हैं, और उन्हें आर में कैसे किया जा सकता है? (संकुल के लेखों के लिंक का भी स्वागत है)

तो बॉक्सकॉक्स फ़ंक्शन ({MASS} से) एक अन्य उपयोगी नैदानिक ​​साजिश का एक उदाहरण है (और ऐसा जवाब बहुत अच्छा होगा), हालांकि, मैं आर में एलएम के लिए मौजूदा डिफ़ॉल्ट नैदानिक ​​भूखंडों पर भिन्नता / विस्तार के बारे में अधिक उत्सुक हूं (हालांकि सामान्य है) इस विषय पर अन्य टिप्पणियों का हमेशा स्वागत किया जाता है)।

यहाँ कुछ सरल उदाहरण दिए गए हैं, जो मेरा मतलब है:

#Some example code for all of us to refer to
set.seed(2542)
x1 <- rnorm(100)
x2 <- runif(100, -2,2)
eps <- rnorm(100,0,2)
y <- 1 + 2*x1 + 3*x2 + eps
y[1:4] <- 14 # adding some contaminated points
fit <- lm(y~x1+x2)

#plot(y~x1+x2)
#summary(fit)

प्रत्येक संभावित बनाम के अवशेषों को प्लॉट करने के लिए

plot(resid(fit)~x1); abline (h = 0)
plot(resid(fit)~x2); abline (h = 0)
# plot(resid(fit)~x1+x2) # you can also use this, but then you wouldn't be able to use the abline on any plot but the last one

0-1 लाइन को जोड़ने के लिए (इस लाइन को अंग्रेजी में कैसे कहा जाता है?) Qqplot में देखने के लिए ताकि qqline इससे कितना विचलित हो जाए

plot(fit, which = 2); abline(0,1, col = "green")

बाह्य रूप से छात्र अवशिष्टों का उपयोग करके qq- भूखंड की साजिश करना

# plot(fit, which = 2); abline(0,1, col = "green") # The next command is just like this one
qqnorm(rstandard(fit), ylim = c(-2.2,4.2)); qqline(rstudent(fit), lty = 2) ;abline(0,1, col = "green")
qqnorm(rstudent(fit), ylim = c(-2.2,4.2)); qqline(rstudent(fit), lty = 2) ;abline(0,1, col = "green")
# We can note how the "bad" points are more extreme when using the rstudent

मैंने अनिवार्य रूप से इस प्रश्न को लैमर ऑब्जेक्ट्स के लिए कहा: आंकड़े.स्टैकएक्सचेंज / क्वेस्ट / 17785/… और मैं उम्मीद कर रहा हूं कि अतिरिक्त उत्तर आगामी होंगे।
माइकल बिशप

जवाबों:


17

पैकेज carमें रैखिक और सामान्यीकृत रैखिक मॉडल के नैदानिक ​​भूखंडों के लिए काफी उपयोगी कार्य हैं। वेनिला आर भूखंडों की तुलना में, उन्हें अक्सर अतिरिक्त जानकारी के साथ बढ़ाया जाता है। मैं आपको example("<function>")निम्नलिखित कार्यों पर कोशिश करने की सलाह देता हूं कि भूखंड क्या दिखते हैं। सभी भूखंडों का विस्तार से वर्णन फॉक्स एंड वीसबर्ग के अध्याय 6 में किया गया है। 2011. एक आर कम्पेनियन टू एप्लाइड रिग्रेशन। दूसरा संस्करण।

  • residualPlots() प्रत्येक भविष्यवक्ता के खिलाफ प्लॉट पियर्सन अवशिष्ट (संख्यात्मक फिट के लिए स्कैटरप्लॉट्स, एक लोअर फिट, कारकों के लिए बॉक्सप्लाट्स सहित)
  • marginalModelPlots() प्रत्येक सांख्यिक पूर्वानुमानक के विरुद्ध प्रतिक्रिया चर के प्रकीर्णन को प्रदर्शित करता है, एक निम्न फिट को छोड़कर
  • avPlots() आंशिक-प्रतिगमन भूखंडों को प्रदर्शित करता है: प्रत्येक भविष्यवक्ता के लिए, यह a) बी के खिलाफ अन्य सभी भविष्यवक्ताओं पर प्रतिक्रिया चर के प्रतिगमन से अवशिष्टों का अवशेष है) सभी भविष्यवक्ताओं के खिलाफ भविष्यवक्ता के प्रतिगमन से अवशेष
  • qqPlot() एक क्वांटाइल-क्वांटाइल प्लॉट के लिए जिसमें एक आत्मविश्वास लिफाफा शामिल है
  • influenceIndexPlot() कुक की दूरी, टोपी-मूल्य, बाह्य परीक्षण के लिए पी-मूल्य और अवलोकन सूचकांक के खिलाफ स्पाइक-प्लॉट में छात्र अवशिष्ट के लिए प्रत्येक मूल्य प्रदर्शित करता है।
  • influencePlot()कुक के अंतर के बुलबुले के आकार के साथ, टोपी-मूल्यों के खिलाफ छात्रों के अवशेषों का एक बुलबुला-प्लॉट देता है, यह भी देखें dfbetaPlots()औरleveragePlots()
  • boxCox()बॉक्स-कॉक्स पावर-ट्रांसफ़ॉर्मेशन में ट्रांसफ़ॉर्मेशन पैरामीटर के लिए लॉग-लाइक के प्रोफाइल को प्रदर्शित करता हैλ
  • crPlots() घटक + अवशिष्ट भूखंडों के लिए है, जिनमें से एक संस्करण CERES भूखंडों (सशर्त अपेक्षाओं और अवशिष्टों को मिलाकर), द्वारा प्रदान किया गया है ceresPlots()
  • spreadLevelPlot() गैर-निरंतर त्रुटि विचरण का आकलन करने के लिए है और सज्जित मूल्यों के विरुद्ध पूर्ण छात्र अवशिष्ट प्रदर्शित करता है
  • scatterplot() कुल्हाड़ियों के साथ बॉक्सप्लॉट्स को छोड़कर, एन्हांसमेंट्स के साथ विश्वास रेखाएं और विश्वास रेखाओं के साथ भविष्यवाणी लाइनों को शामिल करते हुए बहुत अधिक वर्धित स्क्रैपप्लेट प्रदान करता है।
  • scatter3d()पैकेज पर आधारित है rglऔर वायरलैस कॉन्फिडेंस इलिप्सोइड्स और प्रीडिक्शन प्लेन सहित इंटरेक्टिव 3 डी-स्कैल्पलॉट्स को प्रदर्शित करता है।example("scatter3d")

इसके अलावा, तीन चर के सामान्य वितरण को दर्शाने के लिए दूसरे दृष्टिकोण के लिए bplot()पैकेज से एक नज़र डालें rms


1
(+1) यह एक बहुत अच्छा अवलोकन है जो हम सभी के लिए उपयोगी होगा!
CHL

काराकल - यह एक महान सूची है, धन्यवाद! यदि यह आपके द्वारा ठीक है, तो मैं इसे अपने ब्लॉग पर पुनः पोस्ट कर सकता हूं (अधिक लोगों के बाद, संभवतः, अपनी टिप्पणी जोड़ सकता है)
ताल गैली

@ टालजीली ज़रूर, यह मेरे द्वारा ठीक है।
काराकल

4
आप इनमें से कुछ का उदाहरण यहां देख सकते हैं: statmethods.net/stats/rdiagnostics.html
माइकल बिशप

काराकल - फिर से धन्यवाद :) माइकल - यह एक अच्छी कड़ी है। यदि आप इसे एक उत्तर के रूप में जोड़ना चाहते हैं (और शायद कुछ प्रासंगिक भूखंडों को कॉपी कर लें, जो कि काराकल उत्तर पर दिखाई नहीं देते हैं) - मैं ख़ुशी से इसे वोट दूंगा ...
ताल गैली

7

यह उत्तर बाहरी पैकेजों के बजाय बेस आर में क्या उपलब्ध है, इस पर ध्यान केंद्रित करता है, हालांकि मैं मानता हूं कि फॉक्स के पैकेज को अपनाने के लायक है।

फ़ंक्शन influence()(या इसके आवरण influence.measures()), जैकनेफेड आँकड़ों सहित मॉडल डायग्नोस्टिक के लिए हमें जो चाहिए वह सबसे अधिक देता है। जैसा कि S (Wadsworth & Brooks, 1992) में चेम्बर्स और हस्ती के स्टैटिस्टिकल मॉडल्स में कहा गया है , इसे संयोजन में इस्तेमाल किया जा सकता है summary.lm()। तथाकथित "श्वेत पुस्तक" (पीपी। 130-131) में प्रदान किए गए उदाहरणों में से एक मानकीकृत (समान विचरण वाले अवशेष) और छात्र (एसई के लिए एक अलग अनुमान के साथ एक ही) अवशेषों, DFBASAS (में परिवर्तन की गणना करने की अनुमति देता है) गुणांक (प्रतिगमन गुणांक के लिए एसई द्वारा बढ़ाया गया), डीएफएफआईटी (अवलोकन किए जाने पर फिट किए गए मूल्य में परिवर्तन), और डीएफएफआईटीएस (एक ही, इकाई विचरण के साथ) बहुत कठिनाई के बिना मापता है।

आपके उदाहरण के आधार पर, और निम्नलिखित वस्तुओं को परिभाषित करना:

lms <- summary(fit)
lmi <- influence(fit)
e <- residuals(fit)
s <- lms$sigma
xxi <- diag(lms$cov.unscaled)
si <- lmi$sigma
h <- lmi$hat
bi <- coef(fit) - coef(lmi)

हम निम्न मात्राओं की गणना इस प्रकार कर सकते हैं:

std. residuals    e / (s * (1-h)^.5
stud. residuals   e / (si * (1-h)^.5
dfbetas           bi / (si %o% xxi^.5 
dffit             h * e / (1-h)
dffits            h^.5 * e / (si * (1-h))

(यह तालिका 4.1 , पी। 131 है।)

चैम्बर्स और हस्ती डीएफबीईटीएएस कंप्यूटिंग के लिए निम्नलिखित एस / आर कोड देते हैं:

dfbetas <- function(fit, lms = summary(fit), lmi = lm.influence(fit)) {
  xxi <- diag(lms$cov.unscaled)
  si <- lmi$sigma
  bi <- coef(fit) - coef(lmi)
  bi / (si %o% xxi^0.5)
}

मैं उस दृष्टिकोण का उल्लेख क्यों करूं? क्योंकि, पहले, मुझे लगता है कि यह एक शैक्षणिक दृष्टिकोण से दिलचस्प है (यह है कि मैं परिचयात्मक सांख्यिकी पाठ्यक्रमों को पढ़ते समय क्या उपयोग कर रहा हूं) क्योंकि यह स्पष्ट करने की अनुमति देता है कि आर में फिट किए गए एक रैखिक रैखिक मॉडल के आउटपुट से क्या गणना की जा सकती है (लेकिन वही होगा) किसी अन्य सांख्यिकीय पैकेज के साथ आवेदन करें)। दूसरा, चूंकि उपरोक्त मात्रा को सरल वैक्टर या मैट्रीस के रूप में आर में लौटाया जाएगा, इसका मतलब यह भी है कि हम उन ग्राफिक्स डिवाइस को चुन सकते हैं जो हम चाहते हैं --- जाली या ggplot --- उन आँकड़ों को प्रदर्शित करने के लिए, या किसी मौजूदा को बढ़ाने के लिए उनका उपयोग करें प्लॉट (उदाहरण के लिए, अलग-अलग बिंदुओं के द्वारा स्कैप्लेट में मानों को हाइलाइट करें cex)।


बहुत जानकारीपूर्ण और उपयोगी उत्तर। आर पर ध्यान वास्तव में अपने मूल्य से अलग नहीं होता है क्योंकि आप सांख्यिकीय तर्क का दस्तावेजीकरण करते हैं,
डीडिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.