क्लासिक रैखिक मॉडल - मॉडल चयन


16

मेरे पास एक क्लासिक रैखिक मॉडल है, जिसमें 5 संभव रजिस्ट्रार हैं। वे एक दूसरे के साथ असंबंधित हैं, और प्रतिक्रिया के साथ काफी कम संबंध हैं। मैं एक ऐसे मॉडल पर पहुंचा हूं, जहां रजिस्टरों में से 3 के पास उनके टी स्टेटिस्टिक (पी <0.05) के लिए महत्वपूर्ण गुणांक हैं। बचे हुए 2 चर में से किसी एक या दोनों को जोड़ने से p आँकड़ा के लिए p मान> 0.05 मिलता है। यह मुझे विश्वास है कि 3 चर मॉडल "सर्वश्रेष्ठ" है।

हालाँकि, R में aova (a, b) कमांड का उपयोग करते हुए जहां 3 वैरिएबल मॉडल है और b फुल मॉडल है, F स्टेटिस्टिक के लिए p मान <0.05 है, जो मुझे 3 वैरिएबल पर फुल मॉडल पसंद करने के लिए कहता है। नमूना। मैं इन स्पष्ट विरोधाभासों को कैसे समेट सकता हूं?

धन्यवाद PS संपादित करें: कुछ और पृष्ठभूमि। यह होमवर्क है, इसलिए मैं विवरण पोस्ट नहीं करूंगा, लेकिन हमें इस बात का विवरण नहीं दिया गया है कि रजिस्ट्रर्स क्या प्रतिनिधित्व करते हैं - वे सिर्फ 1 से 5 तक गिने जाते हैं। हमें "एक उचित मॉडल प्राप्त करने, औचित्य देने" के लिए कहा जाता है।


6
एक उचित मॉडल का मतलब एक मॉडल लिया जा सकता है जो प्रभावी रूप से सभी पूर्व-निर्धारित चर (ग़ैर-मौजूदगी, आदि के लिए लेखांकन) का उपयोग करता है। मुझे आशा है कि आपका प्रशिक्षक समझता है कि चरणबद्ध चर चयन अमान्य है। कुछ करते हैं।
फ्रैंक हारेल

1
हाय फिर से और धन्यवाद। आगे और पीछे सभी के लिए खेद है। निर्देश यह भी कहते हैं "जरूरी नहीं कि एक" सर्वश्रेष्ठ "मॉडल हो, और आपको जरूरी नहीं कि सभी भविष्यवक्ताओं को शामिल करना है"। इसके अलावा, कोई कोलीनियरिटी या नॉनक्लियरिटी नहीं है। दरअसल, सभी 5 भविष्यवाणियों को एक सामान्य वितरण से स्वतंत्र सिमुलेशन द्वारा उत्पन्न किया जाता है। नतीजतन, भविष्यवक्ताओं और प्रतिक्रिया के बीच संबंध भी छोटे हैं (सबसे बड़ा 0.1 से कम है)। सच कहूँ तो मेरा अंतर्ज्ञान कहता है कि "सबसे अच्छा" मॉडल सिर्फ नमूना मतलब हो सकता है (समायोजित आर चुकता 0.03 से कम है)
पी सेलाज़

@ पी सेलाज़: यह देखते हुए कि यह सिम्युलेटेड डेटा का उपयोग करके होमवर्क है, आपका अंतर्ज्ञान आपको यहाँ अच्छी तरह से सेवा दे सकता है। अपने अंतर्ज्ञान के लिए एक अच्छी तरह से समझाया गया विवरण लिखें।
Zach

1
आप से सामान्य रूप से नहीं जा सकते हैं क्योंकि कितना बड़ा है यह बड़े संदर्भ पर निर्भर है। लेकिन वास्तव में इस बात पर निर्भर करता है कि सिमुलेशन को कैसे निष्पादित किया जाना चाहिए था, आप सही हैं कि समग्र मतलब क्या हो सकता है। R2
फ्रैंक हरेल

1
सामान्य तौर पर यह सही है कि एक अच्छा काम करने के लिए सभी भविष्यवक्ताओं को शामिल नहीं करना पड़ता है। लेकिन डेटा आपको यह बताने में असमर्थ हैं कि कौन से भविष्यवाणियों का उपयोग करना है।
फ्रैंक हरेल

जवाबों:


18

समस्या तब शुरू हुई जब आपने कम मॉडल की मांग की और भविष्यवक्ताओं को चुनने के लिए विषय वस्तु ज्ञान के बजाय डेटा का उपयोग किया। चर चयन के लिए दंड के बिना एक साथ shinkage के साथ चर चर चयन, हालांकि अक्सर उपयोग किया जाता है, एक अमान्य दृष्टिकोण है। इस बारे में बहुत कुछ लिखा गया है। यह विश्वास करने का कोई कारण नहीं है कि 3-चर मॉडल "सर्वश्रेष्ठ" है और पूर्व-निर्दिष्ट भविष्यवक्ताओं की मूल सूची का उपयोग न करने का कोई कारण नहीं है। चरों का चयन करने के लिए पी-मान का उपयोग करने के बाद गणना किए गए पी-मान मान्य नहीं हैं। इसे कार्यात्मक इमेजिंग साहित्य में "डबल सूई" कहा गया है।

यहाँ एक सादृश्य है। मान लीजिए कि कोई 6 उपचारों की तुलना करने में रुचि रखता है, लेकिन कौन से उपचार "अलग" हैं, यह चुनने के लिए जोड़ीदार टी-परीक्षणों का उपयोग करता है, जिसके परिणामस्वरूप 4 उपचार कम हो जाते हैं। तब विश्लेषक स्वतंत्रता के 3 डिग्री के साथ एक समग्र अंतर के लिए परीक्षण करता है। इस F परीक्षा में टाइप I त्रुटि होगी। 5 डीएफ के साथ मूल एफ परीक्षण काफी वैध है।

देखें http://www.stata.com/support/faqs/stat/stepwise.html और अधिक जानकारी के लिए।


1
आपके जवाब के लिए धन्यवाद। मैंने मूल प्रश्न संपादित किया है। मुझे उम्मीद है कि ठीक है। किसी भी आगे की सलाह सबसे स्वागत होगा।
पी सेलाज़

6

एक उत्तर होगा "यह विषय वस्तु ज्ञान के बिना नहीं किया जा सकता है"। दुर्भाग्य से, यह संभावना है कि आप अपने काम पर एक एफ प्राप्त करेंगे। जब तक मैं आपका प्रोफेसर नहीं था। तब यह ए।

R2

तो फिर वहाँ है

सभी 5 भविष्यवाणियों को एक सामान्य वितरण से स्वतंत्र सिमुलेशन द्वारा उत्पन्न किया जाता है।

ठीक है, अगर आप इसे जानते हैं (यानी, आपके प्रशिक्षक ने आपको बताया) और यदि "स्वतंत्र" से आपका मतलब है "DV से संबंधित नहीं" तो आप जानते हैं कि सबसे अच्छा मॉडल कोई भविष्यवक्ता नहीं है, और आपका अंतर्ज्ञान सही है।


हाय पीटर, और धन्यवाद। एन 900 है। डेटा सभी सिमुलेशन द्वारा उत्पादित किए गए थे। मुझे यह पता है क्योंकि हमें खुद सिमुलतन्स करना था। वे वास्तविक डेटा का प्रतिनिधित्व करने वाले हैं , जहां तक ​​इस होमवर्क का संबंध है। 100 सिमुलेशन आयोजित किए गए थे, और 5 ने प्रतिक्रिया के लिए सबसे बड़े सहसंबंधों के साथ (भी नकली लेकिन केवल एक बार) उम्मीदवार प्रत्याशी के रूप में चुना था।
बजे पी सेलाज़

1
बस यह सुनिश्चित करें कि आप किसी भी एक्स और वाई के बीच कोई संबंध नहीं बनाना चाहते थे। तब जैसा कि दूसरों ने कहा है कि एक प्रतिगमन मॉडल अप्रासंगिक है और समग्र मतलब पर्याप्त है।
फ्रैंक हरेल

1
हां, वे पूरी तरह से स्वतंत्र हैं। हमने उम्मीदवार रजिस्ट्रार के रूप में सबसे बड़े 5 सहसंबंधों के साथ डेटा चुना, जिसमें से हमें "एक उपयुक्त मॉडल प्राप्त करना, औचित्य देना" है, लेकिन हमें "सभी 5 भविष्यवक्ताओं को शामिल करने की आवश्यकता नहीं है"।
पी सेलाज़

ऐसा लगता है कि आपके प्रोफेसर या तो क) पूरी तरह से भ्रमित हैं या ख) कुछ दिलचस्प कर रहे हैं। जो बताना मुश्किल। यदि वह / वह इस तरह की चीज़ दिखाने का इरादा रखता है, तो @FrankHarrell और मैं और अन्य लोग इशारा कर रहे हैं, तो अच्छा है! (यह बी होगा)। OTOH, यदि वह "वास्तविक" प्रतिगमन होने का इरादा कर रहा है, तो उह-ओह यह है)।
पीटर Flom - को पुनः स्थापित मोनिका

1
मैं आपको बताता हूं कि यह कौन सा है जब कागजात चिह्नित होते हैं :)
पी सेलाज़

4

आप क्रॉस सत्यापन करने की कोशिश कर सकते हैं। अपने नमूने का एक सबसेट चुनें, एफ या टी परीक्षणों का उपयोग करके उस सबसेट के लिए "सर्वश्रेष्ठ" मॉडल ढूंढें, फिर इसे पूर्ण डेटा सेट पर लागू करें (पूर्ण क्रॉस सत्यापन इससे अधिक जटिल हो सकता है, लेकिन यह एक अच्छी शुरुआत होगी)। यह कुछ स्टेप वाइज परीक्षण समस्याओं को कम करने में मदद करता है।

इस विचार के एक छोटे से सिमुलेशन के लिए डेविड फ्रीडमैन द्वारा स्क्रीनिंग रिग्रेशन समीकरणों पर एक नोट देखें ।


2

मुझे वास्तव में caretपैकेज में प्रयुक्त विधि पसंद है : पुनरावर्ती सुविधा का उन्मूलन। आप विगनेट में इसके बारे में अधिक पढ़ सकते हैं , लेकिन यहां मूल प्रक्रिया है: चर चयन

मूल विचार महत्वहीन चर को खत्म करने के लिए एक मानदंड (जैसे कि टी आँकड़े) का उपयोग करना है और देखना है कि यह कैसे मॉडल की भविष्यवाणी सटीकता में सुधार करता है। आप पूरी चीज़ को एक रेज़मैप्लिंग लूप में लपेटते हैं, जैसे क्रॉस-वेलिडेशन। यहाँ एक उदाहरण है, वैरिएबल मॉडल का उपयोग करके चर को रैंक करने के लिए उसी तरह से जैसा आपने वर्णित किया है:

#Setup
set.seed(1)
p1 <- rnorm(50)
p2 <- rnorm(50)
p3 <- rnorm(50)
p4 <- rnorm(50)
p5 <- rnorm(50)
y <- 4*rnorm(50)+p1+p2-p5

#Select Variables
require(caret)
X <- data.frame(p1,p2,p3,p4,p5)
RFE <- rfe(X,y, sizes = seq(1,5), rfeControl = rfeControl(
                    functions = lmFuncs,
                    method = "repeatedcv")
                )
RFE
plot(RFE)

#Fit linear model and compare
fmla <- as.formula(paste("y ~ ", paste(RFE$optVariables, collapse= "+")))
fullmodel <- lm(y~p1+p2+p3+p4+p5,data.frame(y,p1,p2,p3,p4,p5))
reducedmodel <- lm(fmla,data.frame(y,p1,p2,p3,p4,p5))
summary(fullmodel)
summary(reducedmodel)

इस उदाहरण में, एलगोरिथम का पता चलता है कि 3 "महत्वपूर्ण" चर हैं, लेकिन यह उनमें से केवल 2 को प्राप्त करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.