चरणबद्ध प्रतिगमन के लिए आधुनिक, आसानी से उपयोग किए जाने वाले विकल्प क्या हैं?


76

मेरे पास लगभग 30 स्वतंत्र चर के साथ एक डेटासेट है और उनके और आश्रित चर के बीच संबंधों का पता लगाने के लिए एक सामान्यीकृत रैखिक मॉडल (GLM) का निर्माण करना चाहते हैं।

मुझे ज्ञात है कि इस स्थिति के लिए मुझे जो विधि सिखाई गई थी, स्टेप वाइज रिग्रेशन, अब एक सांख्यिकीय पाप माना जाता है ।

इस स्थिति में मॉडल चयन के कौन से आधुनिक तरीकों का उपयोग किया जाना चाहिए?


4
अन्य लोग सांख्यिकीय प्रक्रियाओं का उल्लेख करते हैं, जो सहायक हो सकती हैं, लेकिन मैं सबसे पहले यह पूछना चाहूंगा कि क्या आपके पास चर के बीच संबंध की ताकत और आकार के बारे में कोई सिद्धांत है। आपका नमूना कितना बड़ा है? क्या आपके पास जटिल मॉडल से बचने के कारण हैं?
माइकल बिशप

2
क्या किसी ने मॉडल औसत को पूर्व-परीक्षण पूर्वाग्रह की समस्या और मिस-विनिर्देश के मुद्दों से लड़ने के विकल्प के रूप में माना है? मोटे तौर पर सभी चर बोलने वाले संभावित भविष्यवक्ता होते हैं, और आप उनके उपयोगी होने की संभावना का अनुमान लगा सकते हैं। इस प्रकार संयुक्त अनुमानक न केवल पूर्वानुमान प्रदर्शन में सुधार करता है, बल्कि "गुंजाइश" के तहत चर के मापदंडों के लिए अच्छे गुणों का अनुमान भी लगाता है।

1
संकोचन। कोई भी स्टेपवाइज का उपयोग नहीं करता है, उम्मीद है
अक्सकल

जवाबों:


56

स्टेपवाइज रिग्रेशन के कई विकल्प हैं । सबसे अधिक इस्तेमाल मैंने देखा है:

  • मॉडल में शामिल करने के लिए कौन से चर को तय करने के लिए विशेषज्ञ की राय
  • आंशिक कमानी वर्ग प्रतिगमन । आप अनिवार्य रूप से अव्यक्त चर प्राप्त करते हैं और उनके साथ एक प्रतिगमन करते हैं। आप स्वयं भी पीसीए कर सकते हैं और फिर प्रधान चर का उपयोग कर सकते हैं।
  • कम से कम पूर्ण संकोचन और चयन ऑपरेटर (LASSO)।

PLS रिग्रेशन और LASSO दोनों को R पैकेज में लागू किया गया है

PLS : http://cran.r-project.org/web/packages/pls/ और

लार्स : http://cran.r-project.org/web/packages/lars/index.html

यदि आप केवल अपने आश्रित चर और स्वतंत्र चर के बीच के संबंध का पता लगाना चाहते हैं (जैसे कि आपको सांख्यिकीय महत्व परीक्षणों की आवश्यकता नहीं है), तो मैं रैंडम फ़ॉरेस्ट या वर्गीकरण / प्रतिगमन पेड़ों जैसे मशीन लर्निंग के तरीकों की भी सिफारिश करूँगा । रैंडम फ़ॉरेस्ट आपके निर्भर और स्वतंत्र चर के बीच जटिल गैर-रैखिक संबंधों को भी अनुमानित कर सकते हैं, जो रैखिक तकनीकों (जैसे रैखिक प्रतिगमन ) द्वारा प्रकट नहीं किया गया हो सकता है ।

मशीन लर्निंग का एक अच्छा प्रारंभिक बिंदु CRAN पर मशीन लर्निंग टास्क दृश्य हो सकता है:

मशीन लर्निंग टास्क देखें : http://cran.r-project.org/web/views/MachineLearning.html


10
Glmnet पैकेज लैस्सो का बहुत तेज़ कार्यान्वयन है
डेविड जे। हैरिस

2
मैं चेतावनी दूंगा कि अव्यक्त परिवर्तनशील समुदाय के भीतर, PLSers अपने स्वयं के एक बहुत अलग-थलग रूप का निर्माण करते हैं, और कभी भी गंभीर साहित्य में प्रवेश करने में सक्षम नहीं थे (जिसके द्वारा मेरा मतलब है, उदाहरण के लिए, माइकल के कार्यों में कम से कम वर्गों के अनुमानकों का स्पर्शोन्मुख सिद्धांत। ब्राउन, पीटर बेंटलर, अल्बर्ट सटोररा और एलेक्स शापिरो, और केन बोलेन के इंस्ट्रूमेंटल वैरिएबल मॉडलिंग, कुछ सबसे महत्वपूर्ण नाम)। अजीब तरह से, पीएलएस आंकड़ों के हलकों में एक स्वीकार्य तरीका प्रतीत होता है, जो आमतौर पर अव्यक्त चर मॉडलिंग समुदाय की तुलना में उच्च स्तर की कठोरता को बरकरार रखता है।
StasK

6
सांख्यिकीय लर्निंग के तत्वों differend चर चयन और संकोचन तरीकों की तुलना है: (OLS,) सबसे अच्छा सबसेट, रिज, लैसो, PLS, पीसीआर।
13

19

एक अन्य विकल्प जो आप चर चयन के लिए विचार कर सकते हैं और नियमितीकरण लोचदार नेट है । यह Glmnet पैकेज के माध्यम से R में लागू किया गया है।


16

मॉडल औसत जाने का एक तरीका है (एक सूचना-सिद्धांत संबंधी दृष्टिकोण)। R पैकेज ग्लमुल्टी भविष्यवक्ता चर के हर संयोजन के लिए रैखिक मॉडल का प्रदर्शन कर सकता है, और इन परिणामों के लिए मॉडल औसत प्रदर्शन कर सकता है।

देख Http://sites.google.com/site/mcgillbgsa/work कार्यशाला/glmulti

हालांकि पहले भविष्यवक्ता चरों के बीच मिलीभगत की जांच करना न भूलें। वेरिएंस इन्फ्लेशन फैक्टर (आर पैकेज में उपलब्ध "कार") यहां उपयोगी हैं।


धन्यवाद। क्या यह वास्तव में सभी संभव मॉडल फिट बैठता है? यहां तक ​​कि बातचीत के बिना भी इस मामले में एक अरब मॉडल हैं।
पीटर एलिस

AFAIK यह कर सकता है, लेकिन एक आनुवंशिक एल्गोरिथ्म विकल्प है जो सभी मॉडलों का मूल्यांकन करने में लगने वाले समय को काफी कम कर देता है। Www.jstatsoft.org/v34/i12/paper
OliP

3
भी MuMIn, AICcmodavgसंकुल, हालांकि glmultiबड़े मॉडल सेट के बारे में चतुर है।
बेन बोल्कर

8

@johannes ने एक बेहतरीन जवाब दिया। यदि आप एक SAS उपयोगकर्ता हैं, तो LASSO PROC GLMSELECT के माध्यम से उपलब्ध है और PROC PLS के माध्यम से आंशिक रूप से कम वर्ग हैं।

डेविड कैसेल और मैंने एसएएस उपयोगकर्ता समूहों के एक जोड़े में LASSO (और कम से कम कोण प्रतिगमन) के बारे में एक प्रस्तुति दी। यह यहाँ उपलब्ध है


7

दिलचस्प चर्चा। स्टेप वाइज रिग्रेशन को स्टैटिस्टिकल पाप के रूप में लेबल करना धार्मिक कथन का एक सा है - जब तक कोई जानता है कि वे क्या कर रहे हैं और व्यायाम के उद्देश्य स्पष्ट हैं, यह निश्चित रूप से मान्यताओं के अपने सेट के साथ एक अच्छा दृष्टिकोण है और निश्चित रूप से है पक्षपाती, और इष्टतमता की गारंटी नहीं देता है, आदि, फिर भी, हम अन्य बहुत सी चीजों के बारे में कह सकते हैं। मैंने CCA का उल्लेख नहीं देखा है, जो कि कोवरिएट स्पेस में सहसंबंध संरचना की अधिक मौलिक समस्या को संबोधित करता है, जो कि इष्टतमता की गारंटी देता है, लगभग काफी समय से है, और इसमें कुछ सीखने की अवस्था है। यह आर सहित विभिन्न प्लेटफार्मों पर लागू किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.