मैं एक लॉजिस्टिक रिग्रेशन मॉडल के साथ कुछ विशेषताओं के आधार पर छात्रों की सफलता या विफलता की भविष्यवाणी करने की कोशिश कर रहा हूं। मॉडल के प्रदर्शन में सुधार करने के लिए, मैंने पहले ही स्पष्ट अंतर के आधार पर छात्रों को अलग-अलग समूहों में विभाजित करने और प्रत्येक समूह के लिए अलग-अलग मॉडल बनाने के बारे में सोचा है। लेकिन मुझे लगता है कि परीक्षा द्वारा इन समूहों को पहचानना मुश्किल हो सकता है, इसलिए मैंने छात्रों को उनकी विशेषताओं पर ध्यान केंद्रित करके विभाजित करने के बारे में सोचा। क्या इस तरह के मॉडल बनाने में यह एक आम बात है? क्या आप यह सुझाव देंगे कि मैं इसे स्पष्ट समूहों (उदाहरण के लिए, पहले छात्र बनाम लौटने वाले छात्र) में तोड़ दूं और फिर उन समूहों पर क्लस्टरिंग करूं या शुरू से क्लस्टर करूं?
स्पष्ट करने का प्रयास करने के लिए:मेरा मतलब है कि मैं समूहों में लॉजिस्टिक प्रतिगमन के लिए अपने प्रशिक्षण सेट को तोड़ने के लिए एक क्लस्टरिंग एल्गोरिथ्म का उपयोग करने पर विचार कर रहा हूं । फिर मैं उन समूहों में से प्रत्येक के लिए अलग-अलग लॉजिस्टिक रेजिमेंट करूँगा। फिर जब किसी छात्र के परिणाम की भविष्यवाणी करने के लिए लॉजिस्टिक रिग्रेशन का उपयोग किया जाता है, तो मैं यह चुनूंगा कि कौन सा मॉडल किस समूह के आधार पर उपयोग करना है।
शायद मैं एक समूह पहचानकर्ता को शामिल करके एक ही काम कर सकता था, उदाहरण के लिए, एक छात्र अगर वापस आ रहा है और एक 0 यदि नहीं।
अब आप मुझे इस बारे में सोचने लगे हैं कि क्या प्रशिक्षण डेटा सेट को क्लस्टर करना और प्रत्येक जनसंख्या के लिए अलग लॉजिस्टिक रिग्रेशन मॉडल बनाने के बजाय लॉजिस्टिक रिग्रेशन में एक सुविधा के रूप में उनके क्लस्टर लेबल का उपयोग करना फायदेमंद हो सकता है।
यदि उन छात्रों के लिए समूह पहचानकर्ता को शामिल करना उपयोगी है जो छात्रों बनाम नए छात्रों को वापस कर रहे हैं, तो क्या यह समूहों की सूची का विस्तार करने के लिए भी उपयोगी हो सकता है? ऐसा करने के लिए क्लस्टरिंग एक प्राकृतिक तरीका लगता है।
मुझे उम्मीद है कि यह स्पष्ट है ...