आर में अध्यादेशिक प्रतिगमन सीखना?


10

मैं एक परियोजना पर काम कर रहा हूं और मुझे गति प्राप्त करने के लिए संसाधनों की आवश्यकता है।

डेटासेट 30 या इतने पर चर पर 35000 टिप्पणियों के आसपास है। लगभग आधे चर कुछ अलग-अलग संभव मानों के साथ श्रेणीबद्ध होते हैं, अर्थात यदि आप श्रेणीगत चर को डमी चर में विभाजित करते हैं, तो आपके पास 30 से अधिक चर होंगे। लेकिन अभी भी शायद सौ अधिकतम की एक जोड़ी के आदेश पर। (एन> पी)।

हम जो प्रतिक्रिया देना चाहते हैं, वह 5 स्तरों (1,2,3,4,5) के साथ क्रमबद्ध है। प्रीडिक्टर्स निरंतर और श्रेणीबद्ध का मिश्रण होते हैं, प्रत्येक का लगभग आधा। ये अब तक के मेरे विचार / योजनाएं हैं: 1. प्रतिक्रिया को निरंतर और वैनिला रैखिक प्रतिगमन के रूप में मानें। 2. नाममात्र और क्रमिक उपस्कर और प्रोबेट प्रतिगमन को चलाएं 3. MARS और / या गैर-रेखीय प्रतिगमन का एक और स्वाद का उपयोग करें

मैं रैखिक प्रतिगमन से परिचित हूं। MARS अच्छी तरह से Hastie और टिब्शिरानी द्वारा वर्णित है। लेकिन जब यह विशेष रूप से इतने सारे वैरिएबल और एक बड़े डेटा सेट के साथ ऑर्डिनल लॉगिट / प्रोबिट की बात आती है, तो मुझे नुकसान होता है।

आर पैकेज glmnetcr मेरी अब तक की सबसे अच्छी शर्त लगती है, लेकिन प्रलेखन शायद ही मुझे प्राप्त करने के लिए पर्याप्त होता है जहां मुझे होना चाहिए।

मैं और अधिक जानने के लिए कहां जा सकता हूं?


मेरा सुझाव है कि आप आर टैग को भी जोड़ें।
क्रिस्टोफर लाउडेन

1
यह देखते हुए कि यह सांख्यिकीय मॉडल के बारे में एक प्रश्न है, आप क्रॉस- वेलिडेटेड वेबसाइट पर जाना चाह सकते हैं , लेकिन ध्यान रखें कि प्रश्नों को पार करने के लिए यह एक भयानक अभ्यास है: आप या तो इसे व्यवस्थित मुद्दों को उजागर करने के लिए तैयार करना चाहते हैं पूरे प्रश्न का सामना कर रहे हैं या पलायन कर रहे हैं।
StasK

वास्तव में यह समझाने के बिना कि आईएसएल नोट (पी 137 पर) क्यों भेदभावपूर्ण विश्लेषण (जैसे कि एलडीए, क्यूडीए) अक्सर लॉजिस्टिक प्रतिगमन के कई वर्ग एक्सटेंशन की तुलना में उपयोग किया जाता है। इसलिए पैनलिज्ड एलडीए जैसे पैकेज जांचने लायक हो सकते हैं।
मैटबग्ग

जवाबों:


6

मैं सुझाव देता हूं कि इस ट्यूटोरियल को लॉग इन करें: http://www.ats.ucla.edu/stat/r/dae/ologit.htm

यह के उपयोग को प्रदर्शित करता है polrमें MASSपैकेज, और भी मान्यताओं और कैसे अपने परिणामों का विश्लेषण बताते हैं।


6

एक सामान्य श्रेणीबद्ध प्रतिक्रिया के साथ प्रतिगमन के लिए एक काफी शक्तिशाली आर पैकेज वीजीएएम है, सीआरएएन पर। शब्दचित्र में क्रमिक प्रतिगमन के कुछ उदाहरण शामिल हैं, लेकिन वास्तव में मैंने इसे इतने बड़े डेटासेट पर कभी नहीं आज़माया है, इसलिए मैं अनुमान नहीं लगा सकता कि इसमें कितना समय लग सकता है। आपको लेखक के पृष्ठ पर वीजीएएम के बारे में कुछ अतिरिक्त सामग्री मिल सकती है । वैकल्पिक रूप से आप अगस्तास्टी की पुस्तक "श्रेणीबद्ध डेटा विश्लेषण" में लौरा थॉम्पसन के साथी पर एक नज़र डाल सकते हैं । थॉम्पसन की पुस्तक के अध्याय 7 में संचयी लॉगिट मॉडल का वर्णन किया गया है, जिन्हें अक्सर क्रमिक प्रतिक्रियाओं के साथ उपयोग किया जाता है।

उम्मीद है की यह मदद करेगा!


3

यदि आप अध्यादेशिक प्रतिगमन से पूरी तरह से अपरिचित हैं, तो मैं इस विषय पर पहले विषय पर तबैकनीक / फ़िडेल ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) अध्याय पढ़ने की कोशिश करूंगा - जबकि आर के लिए नहीं लिखा गया है, पुस्तक सामान्य तर्क और "क्या करें" और "नोट्स" को व्यक्त करने में बहुत अच्छी है।

एक सवाल के रूप में: आपकी प्रतिक्रिया कैटगेरी क्या हैं? यदि वे कुछ प्रकार के पैमाने हैं, जैसे "अच्छा - बुरा" तो एक रैखिक प्रतिगमन का उपयोग करना ठीक होगा (बाजार अनुसंधान हर समय करता है ...), लेकिन यदि आइटम अधिक अप्रिय हैं, तो एक क्रमिक प्रतिगमन बेहतर हो सकता है । मुझे स्पष्ट रूप से याद है कि संरचनात्मक समानता मॉडलिंग के बारे में कुछ पुस्तकों ने उल्लेख किया है कि रैखिक प्रतिगमन प्रोबेट की तुलना में अच्छे तराजू के लिए बेहतर था - बिट मैं इस समय पुस्तक को याद नहीं कर सकता, क्षमा करें!

सबसे गंभीर समस्या डमी वैरिएबल्स की संख्या हो सकती है - सौ डमी वैरिएबल्स की एक जोड़ी विश्लेषण को धीमा कर देगी, व्याख्या करना कठिन और शायद अस्थिर होगा - क्या प्रत्येक डमी / डमी-संयोजन के लिए पर्याप्त मामले हैं?


3

सामाजिक विज्ञान के दृष्टिकोण से लिखा गया एक मानक संदर्भ जे स्कॉट लॉन्ग की लिमिटेड डिपेंडेंट वेरिएबल्स पुस्तक है। यह बहुत गहरे तक जाता है, जैसे कि तबाचनिक ने एक अन्य उत्तर में सुझाव दिया था : तबाचनिक एक रसोई की किताब है, जिसमें "क्यों" का कोई भी स्पष्टीकरण नहीं है, और ऐसा लगता है कि आप इसे और अधिक विस्तार से जानने से लाभान्वित होंगे जो लंबे समय तक पाया जा सकता है। पुस्तक। अधिकांश परिचयात्मक अर्थमिति पाठ्यक्रमों में साधारण प्रतिगमन को कवर किया जाना चाहिए (वोल्ड्रिज का क्रॉस-सेक्शन और पैनल डेटा एक महान स्नातक स्तर की पुस्तक है), साथ ही मात्रात्मक सामाजिक विज्ञान पाठ्यक्रम (समाजशास्त्र, मनोविज्ञान), हालांकि मुझे लगता है कि बाद में लूप बैक होगा लॉन्ग बुक में।

यह देखते हुए कि आपके चरों की संख्या नमूना आकार की तुलना में वा-एक कम है, आपको जो R पैकेज दिखना चाहिए, वह शायद ordinalइसके बजाय है glmnetcrएक अन्य जवाब में उल्लेख किया गया है कि आप इस कार्यक्षमता को अधिक मुख्यधारा MASSपैकेज में पा सकते हैं ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.