समय के माध्यम से लॉजिस्टिक प्रतिगमन में वर्गीकरण संभावना को अद्यतन करना


19

मैं एक भविष्य कहनेवाला मॉडल का निर्माण कर रहा हूं जो एक शब्द के अंत में छात्र की सफलता की संभावना का अनुमान लगाता है। मुझे विशेष रूप से दिलचस्पी है कि क्या छात्र सफल होता है या विफल रहता है, जहां सफलता आमतौर पर पाठ्यक्रम को पूरा करने और कुल अंकों में से 70% या अधिक अंक प्राप्त करने के रूप में परिभाषित की जाती है।

जब मैं मॉडल को तैनात करता हूं, तो सफलता की संभावना का अनुमान समय के माध्यम से अद्यतन करने की आवश्यकता होती है क्योंकि अधिक जानकारी उपलब्ध हो जाती है - आदर्श कुछ होने के तुरंत बाद होता है, जैसे कि जब कोई छात्र एक असाइनमेंट जमा करता है या एक पर एक ग्रेड प्राप्त करता है। यह अद्यतन मुझे बायसीयन की तरह लगता है, लेकिन शैक्षिक आंकड़ों में मेरा प्रशिक्षण दिया गया है, जो मेरे आराम क्षेत्र से थोड़ा बाहर है।

मैं अब तक एक ऐतिहासिक डेटा सेट के साथ लॉजिस्टिक रिग्रेशन (वास्तव में लासो) का उपयोग कर रहा हूं, जिसमें सप्ताह आधारित स्नैपशॉट हैं। इस डेटा सेट में परस्पर संबंध हैं, क्योंकि प्रत्येक छात्र के पास अवलोकन हैं; एक छात्र के लिए टिप्पणियों को सहसंबद्ध किया जाता है। मैं विशेष रूप से किसी विशेष छात्र के साप्ताहिक टिप्पणियों के भीतर सहसंबंध को मॉडलिंग नहीं कर रहा हूं। मेरा मानना ​​है कि मुझे केवल इस बात पर विचार करने की आवश्यकता होगी कि एक मानक सेटिंग में मानक त्रुटि बहुत छोटी होगी। मुझे लगता है - लेकिन इस पर यकीन नहीं है - कि सहसंबद्ध टिप्पणियों से उत्पन्न होने वाली एकमात्र समस्या यह है कि मुझे सावधान रहना होगा जब मैं डेटा के एक सबसेट में क्लस्टर किए गए टिप्पणियों को रखने के लिए क्रॉस-सत्यापन करता हूं, ताकि मुझे न मिले किसी व्यक्ति के बारे में भविष्यवाणियाँ करने के आधार पर कृत्रिम रूप से कम आउट-ऑफ-सैंपल त्रुटि दर, जो मॉडल पहले ही देख चुका है।TermLength/7

मैं सफलता / असफलता की संभावना उत्पन्न करने और किसी विशेष पाठ्यक्रम के लिए भविष्यवक्ताओं को स्वचालित रूप से चुनने के लिए लॉजिस्टिक मॉडल के साथ एक लासो करने के लिए आर के ग्लमैनेट पैकेज का उपयोग कर रहा हूं । मैं एक कारक के रूप में सप्ताह चर का उपयोग कर रहा हूं, अन्य सभी भविष्यवक्ताओं के साथ बातचीत की। मुझे नहीं लगता कि यह सामान्य रूप से व्यक्तिगत सप्ताह-आधारित मॉडल का अनुमान लगाने से अलग है, इसके अलावा यह कुछ विचार देता है कि कुछ सामान्य मॉडल कैसे हो सकते हैं जो कि पूरे सप्ताह में विभिन्न जोखिम समायोजन कारकों के माध्यम से समायोजित किए जाते हैं।

मेरा मुख्य प्रश्न यह है: क्या समय के साथ (या अन्य अंतराल-आधारित) स्नैपशॉट में सेट किए गए डेटा को विभाजित करने के बजाय समय-समय पर कारक चर को पेश करने के बजाय वर्गीकरण की संभावनाओं को अपडेट करने का एक बेहतर तरीका है, जो हर अन्य विशेषता के साथ बातचीत की गई समय-अवधि के कारक चर को प्रस्तुत करता है, और संचयी सुविधाओं (संचयी अंक अर्जित, कक्षा में संचयी दिन आदि) का उपयोग करना?

मेरा दूसरा सवाल है: क्या मैं सहसंबद्ध टिप्पणियों के साथ भविष्य कहनेवाला मॉडलिंग के बारे में कुछ महत्वपूर्ण याद कर रहा हूं?

मेरा तीसरा प्रश्न है: मैं इसे वास्तविक समय अपडेट करने के लिए कैसे सामान्य कर सकता हूं, यह देखते हुए कि मैं साप्ताहिक स्नैपशॉट कर रहा हूं? मैं वर्तमान साप्ताहिक अंतराल के लिए केवल चर में प्लग करने की योजना बना रहा हूं, लेकिन यह मेरे लिए कठिन है।

FYI करें, मैं एप्लाइड एजुकेशनल स्टैटिस्टिक्स में प्रशिक्षित हूं, लेकिन बहुत समय पहले से मैथमैटिकल स्टैटिस्टिक्स में बैकग्राउंड है। मैं कुछ और अधिक परिष्कृत कर सकता हूं अगर यह समझ में आता है लेकिन मुझे इसकी आवश्यकता है कि यह अपेक्षाकृत सुलभ शब्दों में समझाया जाए।

जवाबों:


4

आप यहां से वहां नहीं पहुंच सकते। आपको एक अलग मॉडल के साथ शुरुआत करने की आवश्यकता है। मैं साप्ताहिक स्नैपशॉट रखता और प्रत्येक छात्र के राज्य चर में संक्रमण के आसपास एक स्टोकेस्टिक मॉडल का निर्माण करता। मान लीजिए 10 सप्ताह है, जो 11 "निर्णय '' अंक, देता है देखते हैं । पर राज्य है , जहां 1 या 0 है, के अनुसार के रूप में छात्र या नामांकित नहीं है ; और उस बिंदु पर स्कोर है (आज तक परीक्षण और होमवर्क स्कोर का योग)। प्रारंभिक मान हैं । आपको चिंता करने के लिए दो संक्रमण हैं: और का वितरण ।टी0,टी1,...,टीnटीमैं(जेडमैं,एसमैं)जेडमैंएसमैं(1,0)पीआर(zमैं=0|रोंमैं-1)एसमैं

ड्रॉपआउट संभावनाएँ स्थिर नहीं हैं, क्योंकि आपको अंतिम ड्रॉप-रहित-पेनल्टी तिथि से ठीक पहले ड्रॉपआउट का एक द्विभाजन मिलेगा। लेकिन आप पिछले डेटा से इनका अनुमान लगा सकते हैं। आप वर्तमान (निराशाजनक) प्रदर्शन के एक समारोह के रूप में छोड़ने की संभावना का भी अनुमान लगा सकते हैं।

स्कोर एक द्विपद परिणाम (का एक परीक्षण पर सही उत्तरों की संख्या पर एक यादृच्छिक पैदल दूरी पर हैं आइटम, कहते हैं)। आप शायद सशर्त स्वतंत्रता मान सकते हैं - प्रत्येक छात्र के लिए एक अव्यक्त "प्रतिभा" पैरामीटर मान सकते हैं, और उस मूल्य पर सशर्त, प्रत्येक नया स्कोर वर्तमान प्रदर्शन से स्वतंत्र है। आप अपने ऐतिहासिक डेटा के खिलाफ इस धारणा का परीक्षण कर सकते हैं ... क्या असफल छात्र अपनी अध्ययन की आदतों को बदलते हैं और जीत से दूर हो जाते हैं? लेकिन अधिकांश छात्र फॉर्म के लिए सही व्यवहार करते हैं ... इसलिए एक सशर्त रूप से स्वतंत्र मॉडल को ठीक काम करना चाहिए।एसn

तो मूल रूप से, एक छात्र 0 अंक के लिए अंक का परिवर्तन या स्कोर 70 \% पास सीमा को पार करने में विफल रहता है।जेडएस

प्रक्रिया पर अधिक बारीकी से देखें । मॉडल को सरल बनाने के लिए, मान लें कि मूल्यांकन में प्रत्येक सप्ताह 10 परीक्षण वस्तुओं से प्राप्त कुल 100 संभावित बिंदुओं में से 70 अंक या अधिक प्राप्त करना शामिल है।एस

बेसलाइन पर, एक छात्र की पास की संभावना पिछली कक्षा की पास दर है।

समय 1 पर, छात्र ने अंक अर्जित किए (या बाहर निकाले गए)। वह पास हो जाता है अगर वह से कम से कम अंक अर्जित कर सकता है। यह एक द्विपद समस्या है, जिसे मैं आसानी से गणना कर सकता हूं कि मुझे छात्र की सफलता की संभावना पता है। यह अब "क्लास एवरेज" नहीं होगा; मुझे इस प्रकार अब तक छात्र की सफलता के प्रकाश में समायोजित करने की आवश्यकता है। मैं इसके लिए पिछले अनुभव की एक तालिका का उपयोग करूंगा, लेकिन आप समग्र कक्षा की सफलता दर और छात्र की व्यक्तिगत सफलता का भारित औसत कर सकते हैं। बेय्स रूल को यहां मदद करनी चाहिए।एस170-एस1

एक बोनस के रूप में, आप संभावनाओं की एक श्रृंखला की गणना कर सकते हैं, जो कि अवधि बढ़ने पर संकीर्ण होनी चाहिए। वास्तव में, मजबूत छात्र अवधि समाप्त होने से पहले 70 \% का आंकड़ा पार कर लेंगे, और उनकी सफलता उस बिंदु पर निश्चित होगी। कमजोर छात्रों के लिए, असफलता भी अंत से पहले निश्चित हो जाएगी।

पुन: प्रश्न 3. क्या आपको निरंतर समय पर जाना चाहिए? मैं नहीं करूंगा, क्योंकि यह एक को निरंतर समय की प्रक्रियाओं के दायरे में रखता है और इसमें शामिल गणित मेरे वेतन ग्रेड से ऊपर है। इतना ही नहीं, आप एक अलग परिणाम प्राप्त करने की संभावना नहीं है।

मेरे द्वारा उल्लिखित मॉडल को अपग्रेड करने का सबसे अच्छा तरीका निरंतर समय पर जाना नहीं है, बल्कि पूर्व अनुभव के आधार पर संक्रमण की संभावनाओं को समायोजित करना है। शायद कमजोर छात्र एक स्वतंत्रता मॉडल की भविष्यवाणी की तुलना में आगे पीछे हो जाते हैं। अमानवीयता को शामिल करने से असतत से निरंतर समय तक जाने से अधिक मॉडल में सुधार होगा।


0

जब मैं एक समान प्रकार की तैनाती के लिए भविष्य कहनेवाला मॉडल को प्रशिक्षित करता हूं, तो मुझे यकीन है कि मेरे डेटासेट में कुछ प्रकार के टर्म_एंड_डेट हैं ताकि मैं कार्यकाल समाप्त होने तक बचे हुए समय की लंबाई को कम कर सकूं। यह संभवतः आपके मॉडल में एक महत्वपूर्ण भविष्यवक्ता होने का अंत करेगा।

सहसंबद्ध टिप्पणियों के सवाल के बारे में, मुझे लगता है कि यह मायने रखता है कि आपके पास डेटा का भंडार कितना बड़ा है। यदि संभव हो, तो मैं प्रत्येक छात्र के लिए 1 अवलोकन का चयन करूंगा, जिसे टर्म समाप्ति तक [# सप्ताह तक] स्तरीकृत किया जाएगा। यदि संभव हो तो मैं पुराने शब्दों को भी हड़प लूंगा। यदि आपके पास ऐसा करने के लिए पर्याप्त डेटा नहीं है, तो शायद आप बूटस्ट्रैप की तरह फिर से नमूने लेने की कोशिश कर सकते हैं।

मुझे लगता है कि सबसे महत्वपूर्ण बात अगर आपके पास एक छोटा डेटासेट है जो आपके अंतिम मॉडल के स्थिर होने के लिए पर्याप्त डेटा को होल्डआउट के रूप में रख रहा है।

मुझे लगता है कि जब आप सब कर रहे हैं, और आपके पास स्कोरिंग फॉर्मूला है, तो इसे लागू करना बहुत आसान होगा। लेकिन हां, आपको अभी भी साप्ताहिक एक्स चर में प्लग-इन करना चाहिए जिसे आपको स्कोर की गणना करने की आवश्यकता होगी - लेकिन यह डेटा संग्रह मुद्दे की तरह लगता है और मॉडल कार्यान्वयन के बारे में कम है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.