मेरे पास 9 निरंतर स्वतंत्र चर के साथ एक डेटासेट है। मैं एक मॉडल को एक प्रतिशत (निर्भर) चर में फिट करने के लिए इन चरों के बीच चयन करने की कोशिश कर रहा हूं Score
। दुर्भाग्य से, मुझे पता है कि कई चरों के बीच गंभीर समरूपता होगी।
मैंने stepAIC()
चर चयन के लिए R में फ़ंक्शन का उपयोग करने की कोशिश की है , लेकिन यह विधि, अजीब तरह से, उस क्रम के लिए संवेदनशील लगती है जिसमें चर समीकरण में सूचीबद्ध होते हैं ...
यहां मेरा R कोड है (क्योंकि यह प्रतिशत डेटा है, मैं स्कोर के लिए एक परिवर्तन का उपयोग करता हूं):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
किसी कारण से, मैंने पाया कि समीकरण की शुरुआत में सूचीबद्ध चर stepAIC()
समारोह द्वारा चुने जा रहे हैं , और परिणाम को सूचीबद्ध करके, जैसे, Var9
पहले (टिल्ड के बाद) में हेरफेर किया जा सकता है ।
यहां एक मॉडल को फिट करने का एक अधिक प्रभावी (और कम विवादास्पद) तरीका क्या है? मैं रेखीय प्रतिगमन का उपयोग करने पर वास्तव में मृत नहीं हूं: केवल एक चीज जो मैं चाहता हूं वह यह समझने में सक्षम है कि 9 चर में से कौन सा वास्तव में Score
चर में बदलाव ला रहा है। अधिमानतः, यह कुछ विधि होगी जो इन 9 चर को ध्यान में रखते हुए संपार्श्विकता की प्रबल संभावना बनाती है।
Score
चर में भिन्नता को चला रहा है ", यह वह वाक्य है जिसे मैंने अत्यधिक ध्यान केंद्रित किया हो सकता है। मजबूत कोलिनियरिटी की उपस्थिति में, ओस्सो की टिप्पणी की अधिक सख्त व्याख्याओं में, कम से कम व्याख्या करने के लिए लैस्सो मदद नहीं करने वाला है।