मैं एक भविष्य कहनेवाला मॉडल का निर्माण कर रहा हूं जो एक शब्द के अंत में छात्र की सफलता की संभावना का अनुमान लगाता है। मुझे विशेष रूप से दिलचस्पी है कि क्या छात्र सफल होता है या विफल रहता है, जहां सफलता आमतौर पर पाठ्यक्रम को पूरा करने और कुल अंकों में से 70% या अधिक अंक प्राप्त करने के रूप में परिभाषित की जाती है।
जब मैं मॉडल को तैनात करता हूं, तो सफलता की संभावना का अनुमान समय के माध्यम से अद्यतन करने की आवश्यकता होती है क्योंकि अधिक जानकारी उपलब्ध हो जाती है - आदर्श कुछ होने के तुरंत बाद होता है, जैसे कि जब कोई छात्र एक असाइनमेंट जमा करता है या एक पर एक ग्रेड प्राप्त करता है। यह अद्यतन मुझे बायसीयन की तरह लगता है, लेकिन शैक्षिक आंकड़ों में मेरा प्रशिक्षण दिया गया है, जो मेरे आराम क्षेत्र से थोड़ा बाहर है।
मैं अब तक एक ऐतिहासिक डेटा सेट के साथ लॉजिस्टिक रिग्रेशन (वास्तव में लासो) का उपयोग कर रहा हूं, जिसमें सप्ताह आधारित स्नैपशॉट हैं। इस डेटा सेट में परस्पर संबंध हैं, क्योंकि प्रत्येक छात्र के पास अवलोकन हैं; एक छात्र के लिए टिप्पणियों को सहसंबद्ध किया जाता है। मैं विशेष रूप से किसी विशेष छात्र के साप्ताहिक टिप्पणियों के भीतर सहसंबंध को मॉडलिंग नहीं कर रहा हूं। मेरा मानना है कि मुझे केवल इस बात पर विचार करने की आवश्यकता होगी कि एक मानक सेटिंग में मानक त्रुटि बहुत छोटी होगी। मुझे लगता है - लेकिन इस पर यकीन नहीं है - कि सहसंबद्ध टिप्पणियों से उत्पन्न होने वाली एकमात्र समस्या यह है कि मुझे सावधान रहना होगा जब मैं डेटा के एक सबसेट में क्लस्टर किए गए टिप्पणियों को रखने के लिए क्रॉस-सत्यापन करता हूं, ताकि मुझे न मिले किसी व्यक्ति के बारे में भविष्यवाणियाँ करने के आधार पर कृत्रिम रूप से कम आउट-ऑफ-सैंपल त्रुटि दर, जो मॉडल पहले ही देख चुका है।
मैं सफलता / असफलता की संभावना उत्पन्न करने और किसी विशेष पाठ्यक्रम के लिए भविष्यवक्ताओं को स्वचालित रूप से चुनने के लिए लॉजिस्टिक मॉडल के साथ एक लासो करने के लिए आर के ग्लमैनेट पैकेज का उपयोग कर रहा हूं । मैं एक कारक के रूप में सप्ताह चर का उपयोग कर रहा हूं, अन्य सभी भविष्यवक्ताओं के साथ बातचीत की। मुझे नहीं लगता कि यह सामान्य रूप से व्यक्तिगत सप्ताह-आधारित मॉडल का अनुमान लगाने से अलग है, इसके अलावा यह कुछ विचार देता है कि कुछ सामान्य मॉडल कैसे हो सकते हैं जो कि पूरे सप्ताह में विभिन्न जोखिम समायोजन कारकों के माध्यम से समायोजित किए जाते हैं।
मेरा मुख्य प्रश्न यह है: क्या समय के साथ (या अन्य अंतराल-आधारित) स्नैपशॉट में सेट किए गए डेटा को विभाजित करने के बजाय समय-समय पर कारक चर को पेश करने के बजाय वर्गीकरण की संभावनाओं को अपडेट करने का एक बेहतर तरीका है, जो हर अन्य विशेषता के साथ बातचीत की गई समय-अवधि के कारक चर को प्रस्तुत करता है, और संचयी सुविधाओं (संचयी अंक अर्जित, कक्षा में संचयी दिन आदि) का उपयोग करना?
मेरा दूसरा सवाल है: क्या मैं सहसंबद्ध टिप्पणियों के साथ भविष्य कहनेवाला मॉडलिंग के बारे में कुछ महत्वपूर्ण याद कर रहा हूं?
मेरा तीसरा प्रश्न है: मैं इसे वास्तविक समय अपडेट करने के लिए कैसे सामान्य कर सकता हूं, यह देखते हुए कि मैं साप्ताहिक स्नैपशॉट कर रहा हूं? मैं वर्तमान साप्ताहिक अंतराल के लिए केवल चर में प्लग करने की योजना बना रहा हूं, लेकिन यह मेरे लिए कठिन है।
FYI करें, मैं एप्लाइड एजुकेशनल स्टैटिस्टिक्स में प्रशिक्षित हूं, लेकिन बहुत समय पहले से मैथमैटिकल स्टैटिस्टिक्स में बैकग्राउंड है। मैं कुछ और अधिक परिष्कृत कर सकता हूं अगर यह समझ में आता है लेकिन मुझे इसकी आवश्यकता है कि यह अपेक्षाकृत सुलभ शब्दों में समझाया जाए।