मेरे पास लगभग 5000 सुविधाओं का डेटा सेट है। उस डेटा के लिए मैंने पहली बार फ़ीचर चयन के लिए ची स्क्वायर टेस्ट का इस्तेमाल किया; उसके बाद, मुझे लगभग १५०० चर मिले जो प्रतिक्रिया चर के साथ महत्व संबंध दर्शाते हैं।
अब मुझे उस पर लॉजिस्टिक रिग्रेशन फिट करने की जरूरत है। मैं R के लिए glmulti पैकेज का उपयोग कर रहा हूं (glmulti package vlm के लिए कुशल सबसेट चयन प्रदान करता है) लेकिन यह एक समय में केवल 30 सुविधाओं का उपयोग कर सकता है, अन्यथा इसका प्रदर्शन नीचे चला जाता है क्योंकि मेरे डेटासेट में पंक्तियों की संख्या लगभग 20000 है।
क्या उपरोक्त समस्याओं को हल करने के लिए कोई अन्य दृष्टिकोण या तकनीक है? यदि मैं उपरोक्त विधि से जाता हूं तो मॉडल को फिट करने में बहुत अधिक समय लगेगा।
sklearn
's LogisticRegression
और यह मेरे लैपटॉप पर एक मिनट के बारे में में एक 4000 सुविधाओं, 20,000 पंक्तियों समस्या का हल।