मैं एक परियोजना पर काम कर रहा हूं और मुझे गति प्राप्त करने के लिए संसाधनों की आवश्यकता है।
डेटासेट 30 या इतने पर चर पर 35000 टिप्पणियों के आसपास है। लगभग आधे चर कुछ अलग-अलग संभव मानों के साथ श्रेणीबद्ध होते हैं, अर्थात यदि आप श्रेणीगत चर को डमी चर में विभाजित करते हैं, तो आपके पास 30 से अधिक चर होंगे। लेकिन अभी भी शायद सौ अधिकतम की एक जोड़ी के आदेश पर। (एन> पी)।
हम जो प्रतिक्रिया देना चाहते हैं, वह 5 स्तरों (1,2,3,4,5) के साथ क्रमबद्ध है। प्रीडिक्टर्स निरंतर और श्रेणीबद्ध का मिश्रण होते हैं, प्रत्येक का लगभग आधा। ये अब तक के मेरे विचार / योजनाएं हैं: 1. प्रतिक्रिया को निरंतर और वैनिला रैखिक प्रतिगमन के रूप में मानें। 2. नाममात्र और क्रमिक उपस्कर और प्रोबेट प्रतिगमन को चलाएं 3. MARS और / या गैर-रेखीय प्रतिगमन का एक और स्वाद का उपयोग करें
मैं रैखिक प्रतिगमन से परिचित हूं। MARS अच्छी तरह से Hastie और टिब्शिरानी द्वारा वर्णित है। लेकिन जब यह विशेष रूप से इतने सारे वैरिएबल और एक बड़े डेटा सेट के साथ ऑर्डिनल लॉगिट / प्रोबिट की बात आती है, तो मुझे नुकसान होता है।
आर पैकेज glmnetcr मेरी अब तक की सबसे अच्छी शर्त लगती है, लेकिन प्रलेखन शायद ही मुझे प्राप्त करने के लिए पर्याप्त होता है जहां मुझे होना चाहिए।
मैं और अधिक जानने के लिए कहां जा सकता हूं?