मैं इस डेटा का उपयोग छात्रों के ग्रेडिंग में उदारता के विभिन्न स्तरों के साथ मार्करों को जांचने के लिए कैसे कर सकता हूं?


9

12 शिक्षक 600 छात्रों को पढ़ा रहे हैं। इन शिक्षकों द्वारा पढ़ाए जाने वाले 12 कोष्ठ 40 से 90 छात्रों तक के आकार के होते हैं, और हम सहकर्मियों के बीच व्यवस्थित अंतर की उम्मीद करते हैं, क्योंकि स्नातक छात्रों को विशेष रूप से विशेष रूप से सहकर्मियों को आवंटित किया गया था, और पिछले अनुभव से पता चला है कि औसत स्कोर से स्नातक छात्रों की तुलना में काफी अधिक है। स्नातक छात्रों।

शिक्षकों ने सभी कागजात को अपने समवशरण में वर्गीकृत किया है, और उन्हें 100 में से एक अंक दिया है।

प्रत्येक शिक्षक ने तीन अन्य शिक्षकों से एक बेतरतीब ढंग से चयनित पेपर को भी देखा है, और इसे 100 में से एक अंक दिया है। प्रत्येक शिक्षक के पास उसके तीन पेपर हैं जो किसी अन्य शिक्षक द्वारा चिह्नित हैं। इस प्रकार 36 अलग-अलग कागजात इस तरह से क्रॉस-मार्क किए गए हैं, और मैं इसे अपना अंशांकन डेटा कहता हूं।

मैं यह भी देख सकता हूं कि प्रत्येक काउहोट में कितने स्नातक छात्र थे।

मेरे प्रश्न हैं:

ए) मैं इस अंशांकन डेटा का उपयोग उन्हें मूल बनाने के लिए मूल चिह्नों को समायोजित करने के लिए कैसे कर सकता हूं? विशेष रूप से, मैं अत्यधिक उदार / असभ्य निर्माताओं के प्रभाव को जितना संभव हो उतना धोना चाहूंगा।

बी) मेरा अंशांकन डेटा कितना उपयुक्त है? मेरे पास इस पाठ्यक्रम में प्राप्त अंशांकन डेटा के बजाय सीमित 36 डेटा बिंदुओं में कोई विकल्प नहीं था, और वर्तमान सेमेस्टर के दौरान किसी भी अधिक को इकट्ठा करने का कोई विकल्प नहीं है। हालाँकि, यदि यह स्थिति ठीक हो जाती है तो मैं अधिक अंशांकन डेटा एकत्र करने में सक्षम हो सकता हूँ या फिर विभिन्न प्रकार के अंशांकन डेटा एकत्र कर सकता हूँ।

यह प्रश्न मेरे द्वारा पूछे गए एक लोकप्रिय प्रश्न का एक रिश्तेदार है: मैं छात्रों के ग्रेडिंग में उदारता के विभिन्न स्तरों के साथ मार्करों के प्रभावों से सबसे अच्छा कैसे निपट सकता हूं? । हालाँकि, यह एक अलग पाठ्यक्रम है और मुझे यकीन नहीं है कि इस मौजूदा एक के लिए पृष्ठभूमि के रूप में यह प्रश्न कितना उपयोगी होगा, क्योंकि मुख्य समस्या यह थी कि मेरे पास कोई अंशांकन डेटा नहीं था।

जवाबों:


6

यह एक मैट्रिक्स फैक्टराइजेशन रिकमेंडर सिस्टम का उपयोग करने के लिए एक महान अवसर की तरह लगता है । संक्षेप में, यह निम्नानुसार काम करता है:

  • अपनी टिप्पणियों को आंशिक रूप से देखे गए मैट्रिक्स में डालें कहाँ पे मैंजे स्कोर शिक्षक है मैं छात्र को दिया जे

  • मान लें कि यह मैट्रिक्स कुछ अव्यक्त फ़ीचर वैक्टर का बाहरी उत्पाद है, टी तथा रों--अर्थात्, मैंजे=टीमैंरोंजे

  • अव्यक्त सुविधा वैक्टर के लिए हल जो चुकता पुनर्निर्माण त्रुटि को कम करता है Σमैं,जे(टीमैंरोंजे-मैंजे)2 (जहाँ योग सभी देखे गए कोशिकाओं पर होता है )।

  • के लिए एक अनुमान लगाकर आप इस अपेक्षा-अधिकतमकरण शैली को कर सकते हैं टी और के लिए हल कर रहा है रों कम से कम वर्गों के माध्यम से, फिर उस अनुमान को ठीक करना रों और के लिए हल कर रहा है टी और अभिसरण तक पुनरावृति।

ध्यान दें कि यह शिक्षक के पूर्वाग्रह के रूप में काफी मजबूत धारणा बनाता है - विशेष रूप से, यदि आप छात्रों के अव्यक्त सुविधाओं को उनके "सच्चे स्कोर" के रूप में सोचते हैं, तो एक शिक्षक का पूर्वाग्रह प्रत्येक सच्चे स्कोर को एक स्थिर राशि से गुणा करता है (करने के लिए) इसे जोड़ने योग्य बनाने के बजाय आप मैट्रिक्स में सम्मिलित किए गए स्कोर को एक्सप्रैस करेंगे और फिर "ट्रू स्कोर" के घातांक जानें)। इतने कम अंशांकन डेटा के साथ, आप संभवतः इस फॉर्म की एक मजबूत धारणा बनाए बिना बहुत दूर नहीं जा सकते, लेकिन यदि आपके पास अधिक डेटा था, तो आप अव्यक्त सुविधाओं के दूसरे आयाम जोड़ सकते हैं, आदि (यानी, मान लें)मैंजे=Σ=1nरोंमैंटीजे और फिर से चुकता पुनर्निर्माण त्रुटि को कम करने का प्रयास करें)।


संपादित करें: एक अच्छी तरह से परिभाषित समस्या के लिए आपको अव्यक्त मापदंडों की तुलना में अधिक मैट्रिक्स संचालन की आवश्यकता होती है (या आप किसी प्रकार के नियमितीकरण का उपयोग कर सकते हैं)। आपके पास बस यहीं है (आपके पास 636 अवलोकन और 612 अव्यक्त पैरामीटर हैं), इसलिए मैट्रिक्स फैक्टराइजेशन सुपर अच्छी तरह से काम नहीं कर सकता है - मैंने उनके साथ इतने छोटे नमूनों पर काम नहीं किया है, इसलिए मुझे वास्तव में नहीं पता है।

यदि अंशांकन एक अच्छा सिफारिश करने वाले मॉडल का उपयोग करने के लिए अपर्याप्त हो जाता है, तो आप Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)एक additive शिक्षक पूर्वाग्रह के अनुमानों को निकालने के लिए (अंशांकन डेटा की अनदेखी) पर एक बहुस्तरीय प्रतिगमन की कोशिश कर सकते हैं , और फिर जांचें कि क्या यह पूर्वाग्रह अंशांकन डेटा के अनुरूप है या नहीं लिया। (यदि संभव हो तो आपको शिक्षक द्वारा हेटेरोसेडासिटी की अनुमति देनी चाहिए।) यह अधिक तदर्थ है लेकिन आपको कम गंभीर डेटा संग्रह समस्याएं दे सकता है।


इस पर विस्तार करने के लिए, मैं संभवतः शिक्षक निश्चित प्रभावों और संभावित रूप से मजबूत मानक त्रुटियों के साथ एक सरल मॉडल के साथ शुरू करूँगा ( आर में इस पर चर्चा के लिए इस ब्लॉग पोस्ट को देखें ) और फिर किसी भी आउटलेयर के लिए निर्धारित प्रभावों की तुलना करें। आर में, कुछ ऐसा lm(score ~ gradStudent + ... + teacherIDकरना चाहिए।
इकोबस

2

यहाँ संबंधित दृष्टिकोण के एक जोड़े है।

एक से अधिक शिक्षक द्वारा चिह्नित कागजात के सेट को लें, क्योंकि उनमें शिक्षक प्रभावों के बारे में सबसे अधिक जानकारी होती है और उन कागजों के बाहर, शिक्षक और कोहर्ट प्रभाव को भ्रमित किया जाता है (यदि सहसंबंधी प्रभाव में आने का कोई तरीका था - शायद GPA के माध्यम से या कुछ अन्य भविष्यवक्ता, उदाहरण के लिए, तो आप सभी डेटा का उपयोग कर सकते हैं, लेकिन यह मॉडल को थोड़ा जटिल करेगा)।

छात्रों को लेबल करें मैं=1,2,n, और मार्करों जे=1,2,,। चिह्नों का समुच्चय होyमैंजे,मैं=1,2,

मार्कर-प्रभाव कैसे लागू होता है, इसके लिए आपको सबसे पहले अपने मॉडल पर विचार करना होगा। क्या यह योगात्मक है? क्या यह गुणात्मक है? क्या आपको सीमा प्रभावों के बारे में चिंता करने की ज़रूरत है (जैसे कि एक लॉग-स्केल पर एक additive या गुणक प्रभाव बेहतर होगा)?

दो कागजों पर दो दिए गए मार्करों की कल्पना करें और दूसरे मार्कर की कल्पना करना अधिक उदार है। मान लें कि पहला मार्कर 30 और 60 को कागजात देगा। क्या दूसरा मार्कर दोनों में लगातार संख्या (जैसे 6 अंक) को जोड़ देगा? क्या वे निरंतर प्रतिशत जोड़ेंगे (10% दोनों को कहें, या 3 अंक बनाम 6 अंक)? क्या होगा अगर पहले मार्कर ने 99 दिया हो? - फिर क्या होगा? 0 के बारे में क्या? क्या होगा अगर दूसरा मार्कर कम उदार था? 99 या 0 पर क्या होगा? (यही कारण है कि मैं एक लॉजिट मॉडल का उल्लेख करता हूं - कोई भी संभव चिह्नों के अनुपात के रूप में निशान का इलाज कर सकता है ()पीमैंजे=मैंजे/100), और फिर मार्कर प्रभाव के लॉग में एक स्थिर (कहते हैं) जोड़ने के लिए हो सकता है पी - अर्थात लॉग(पीमैंजे/(1-पीमैंजे))।

(उदारता के साथ-साथ उसके आकार का अनुमान लगाने के लिए आपके पास यहां पर्याप्त डेटा नहीं होगा। आपको स्थिति की अपनी समझ से एक मॉडल चुनना होगा। आपको बातचीत की किसी भी संभावना को नजरअंदाज करने की आवश्यकता होगी; इसके लिए डेटा है)

संभावना 1 - सादा योजक मॉडल। यह तब उपयुक्त हो सकता है जब कोई निशान 0 या 100 के करीब न हो:

जैसे एक मॉडल पर विचार करें (yमैंजे)=μमैं+τजे

यह अनिवार्य रूप से एक दो तरफा एनोवा है। आपको इस पर अड़चनों की आवश्यकता है, इसलिए आप विचलन कोडिंग सेट कर सकते हैं / मॉडल सेट कर सकते हैं ताकि मार्कर प्रभाव 0 हो, या आप एक मॉडल सेट कर सकते हैं जहां एक मार्कर आधार रेखा है (जिसका प्रभाव 0 है, और जिसके निशान आपको की ओर हर दूसरे मार्कर को समायोजित करने की कोशिश करेंगे)।

फिर ले लो τ^जे मूल्य और अंकों की व्यापक आबादी को समायोजित करते हैं yजेadj=yजे-τ^जे

संभावना 2: प्रभाव में, एक समान प्रकार का विचार लेकिन (yमैंजे)=μमैंτजे। यहाँ आप एक नॉनलाइनियर कम से कम वर्ग मॉडल या एक लॉग-लिंक के साथ जीएलएम फिट कर सकते हैं (मैं शायद उन दो में से दूसरे की ओर झुकूंगा)। फिर से आप पर एक बाधा की जरूरत हैτरों।

तब एक उपयुक्त समायोजन द्वारा विभाजित किया जाएगा τजे^

संभावना 3: लॉग पैमाने पर योजक। यह अधिक उपयुक्त हो सकता है यदि कुछ अंक 0 या 100 के करीब हो जाते हैं। यह बहुत छोटे अंकों के लिए मोटे तौर पर गुणा करेगा, नकल के निशान के लिए additive और मोटे तौर पर गुणा में1-पी=(100-)/100बहुत उच्च अंकों के लिए। आप इस मॉडल को फिट करने के लिए बीटा रिग्रेशन या अर्ध-द्विपद जीएलएम का उपयोग लॉगिट लिंक के साथ कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.