ग्रेडिंग छात्र पत्रों में उदारता के विभिन्न स्तरों के साथ मार्करों के प्रभावों से मैं सबसे अच्छा कैसे निपट सकता हूं?


13

लगभग 600 छात्रों का मूल्यांकन के एक व्यापक टुकड़े पर एक अंक है, जिसे अच्छी विश्वसनीयता / वैधता माना जा सकता है। मूल्यांकन 100 में से स्कोर किया गया है, और यह कंप्यूटर द्वारा चिह्नित एक बहु-विकल्प परीक्षण है।

उन 600 छात्रों के पास एक दूसरे, मामूली, मूल्यांकन के टुकड़े पर भी अंक हैं। मूल्यांकन के इस दूसरे भाग में वे 11 अलग-अलग ग्रेडर के साथ 11 सहकर्मियों में अलग हो गए हैं, और अंकन में उनकी 'उदारता' के संदर्भ में ग्रेडर्स के बीच भिन्नता का एक अवांछनीय रूप से भिन्नता है, या इसकी कमी है। यह दूसरा मूल्यांकन भी 100 में से स्कोर किया गया है।

छात्रों को बेतरतीब ढंग से कॉहर्ट्स को नहीं सौंपा गया था, और कॉहर्ट्स के बीच कौशल के स्तर में अंतर की उम्मीद करने के लिए अच्छे कारण हैं।

मुझे यह सुनिश्चित करने के कार्य के साथ प्रस्तुत किया गया है कि दूसरे असाइनमेंट पर कॉहोर्ट मार्करों के बीच अंतर व्यक्तिगत छात्रों को भौतिक रूप से लाभ / हानि नहीं पहुंचाता है।

मेरा विचार है कि दूसरे मूल्यांकन पर कोहॉर्ट स्कोर प्राप्त करना, पहले पर कॉहोर्ट स्कोर के साथ जुटना, जबकि कॉहर्ट्स के भीतर व्यक्तिगत अंतर बनाए रखना। हमें यह मान लेना चाहिए कि मेरे पास यह मानने के अच्छे कारण हैं कि दो कार्यों पर प्रदर्शन अत्यधिक सहसंबद्ध होगा, लेकिन यह कि मार्कर अपनी उदारता में काफी भिन्न होते हैं।

क्या यह सबसे अच्छा तरीका है? यदि नहीं, तो क्या है?

यह बहुत सराहना की जाएगी यदि उत्तरदाता एक अच्छा समाधान लागू करने के बारे में कुछ व्यावहारिक सुझाव दे सकता है, आर या एसपीएसएस या एक्सेल में कहें।


3
बड़ा अच्छा सवाल! क्या बहुविकल्पी और निबंध भागों के लिए अंतिम स्कोर तुलनीय हैं (यानी समान संख्यात्मक सीमाएं)?
गूँग - मोनिका

2
जैसा कि मैं इस प्रश्न को लिख रहा था मैंने सोचा कि यह आपकी गली हो सकती है! अंतिम स्कोर मोटे तौर पर तुलनीय है, लेकिन थोड़ा अलग है। मल्टीपल
चॉइस

7
मुझे केवल आपके द्वारा बताए गए आंकड़ों के आधार पर इस समस्या को हल करने के किसी भी प्रयास पर संदेह होगा, क्योंकि यह मजबूत (और अप्राप्य) धारणा पर आराम करना होगा कि दो अलग-अलग परीक्षण उपकरणों पर सहवास और प्रदर्शन के बीच कोई बातचीत नहीं है। यदि आप संभवतः कर सकते हैं, तो ग्रेडर को कैलिब्रेट करने के लिए एक अलग छोटे प्रयोग के विकल्प पर विचार करें।
whuber

9
बेहतर देखने के लिए जहां समस्या निहित है, मान लीजिए (काल्पनिक रूप से) कि (1) मूल्यांकन के दो रूप बहुविकल्पी और निबंध हैं और (2) आपके पुराने छात्र निबंध के प्रश्नों पर अपेक्षाकृत बेहतर करते हैं। जब आप स्कोर बनाने के लिए अपने डेटा का उपयोग करते हैं, तो "उम्र" के प्रभाव को कम करके, आपको उम्र के प्रभाव के साथ ग्रेडर प्रभावों को भ्रमित करना होगा, जिससे छोटे की तुलना में पुराने छात्रों को व्यवस्थित रूप से नुकसान होगा। कोई फर्क नहीं पड़ता कि आप कितना परिष्कृत एल्गोरिदम चुनते हैं, यह केवल इस बुनियादी समस्या पर कागज कर सकता है। इस उलझन को हल करने के लिए आपको कुछ अतिरिक्त डेटा की आवश्यकता है ।
whuber

3
एक बात पर विचार करने के लिए कि आप छात्रों या अन्य हितधारकों को समायोजन प्रक्रिया को कितनी सहजता से समझाएंगे: कई को लग सकता है कि अंकन के साथ एक संभावित समस्या को देखते हुए, कुछ प्रयासों को मार्करों के उचित अंशांकन में डाल दिया जाए, तो उम्मीद करना बहुत ज्यादा नहीं होगा। परीक्षा एक महत्वपूर्ण है।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


8

यह जानते हुए कि कैसे ग्रेडर अलग है, लेकिन अभी भी आपको यह नहीं बताया गया है कि ग्रेड की भरपाई के लिए क्या करना चाहिए । सादगी के लिए सिर्फ दो ग्रेडर की कल्पना करें। यहां तक ​​कि अगर हम ग्रेडर 1 को समाप्त करते हैं, तो ग्रेडर 2 की तुलना में लगातार 5 अंक अधिक उदार होते हैं, जो आपको यह नहीं बताता है कि दो छात्रों के साथ क्या करना है जो प्रत्येक ग्रेडेड 70 थे, एक ग्रेडर 1 और एक ग्रेडर 2 से। क्या हम कहते हैं कि ग्रेडर 2 एक कठोर मार्कर था, और उस 70 को 75 तक बढ़ा दिया, जबकि 70 को ग्रेडर 1 द्वारा अपरिवर्तित रखा? या क्या हम मान लेते हैं कि ग्रेडर 1 अयोग्य था, अपने छात्र को 65 अंक तक गिरा दिया, और ग्रेडर 2 के 70 को अपरिवर्तित रखा? क्या हम 11 ग्रेडरों के औसत के आधार पर, आपके मामले के बीच आधे रास्ते का समझौता करते हैं? यह बात है कि पूर्ण ग्रेड है, इसलिए सापेक्ष उदारता जानना पर्याप्त नहीं है।

आपका निष्कर्ष इस बात पर निर्भर हो सकता है कि आपको लगता है कि "उद्देश्य" आपको लगता है कि अंतिम पूर्ण चिह्न होना चाहिए। एक मानसिक मॉडल का प्रस्ताव होगा कि प्रत्येक छात्र के पास "सही" ग्रेड हो - जो लीड एसेसर द्वारा प्रदान किया जाएगा, यदि उनके पास प्रत्येक पेपर को व्यक्तिगत रूप से चिह्नित करने का समय हो - जिसमें देखे गए ग्रेड सन्निकटन हैं। इस मॉडल में, उनके ग्रेडर के लिए देखे गए ग्रेड को मुआवजा देने की जरूरत है, ताकि उन्हें उनके "सही" ग्रेड के प्रति यथासंभव करीब लाया जा सके। एक अन्य मॉडल यह हो सकता है कि सभी ग्रेडिंग व्यक्तिपरक है, और हम प्रत्येक प्रेक्षित ग्रेड को उस चिह्न की ओर बदलना चाहते हैं जिसका हम अनुमान लगाते हैं कि यदि सभी ग्रेडर्स ने एक ही पेपर पर विचार किया होता और उसके लिए किसी प्रकार का समझौता या औसत ग्रेड तक पहुँच जाते। मैं दूसरे मॉडल को कम समाधान के रूप में समझाता हूं, भले ही विषय का प्रवेश अधिक यथार्थवादी हो। एक शैक्षिक सेटिंग में आम तौर पर कोई है जो मूल्यांकन के लिए अंतिम जिम्मेदारी वहन करता है, यह सुनिश्चित करने के लिए कि छात्रों को "वे जिस ग्रेड के लायक हैं" प्राप्त करते हैं, लेकिन इस नेतृत्व की भूमिका अनिवार्य रूप से बहुत ही ग्रेडर के लिए ज़िम्मेदार है जिसे हम पहले से ही स्पष्ट रूप से असहमत जानते हैं। यहां से मैं वहां पहुंच गयाहै एक 'सही' ग्रेड कि हम अनुमान के उद्देश्य, लेकिन यह एक contestable प्रस्ताव है और अपनी परिस्थितियों के अनुरूप न हो।

मान लीजिए कि छात्र ए, बी, सी और डी, सभी एक ही समतुल्य में, "को" क्रमशः 75, 80, 85 और 90 के रूप में वर्गीकृत किया जाना चाहिए, लेकिन उनके उदार ग्रेडर में लगातार 5 अंक बहुत अधिक हैं। हम 80, 85, 90 और 95 निरीक्षण करते हैं और 5 घटाना चाहिए, लेकिन घटाना का आंकड़ा खोजना समस्याग्रस्त है। यह सहकर्मियों के बीच परिणामों की तुलना करके नहीं किया जा सकता है क्योंकि हम उम्मीद करते हैं कि सहकर्मी औसत क्षमता में भिन्न हो सकते हैं। एक संभावना दूसरे असाइनमेंट पर सही स्कोर की भविष्यवाणी करने के लिए कई विकल्प परीक्षण परिणामों का उपयोग कर रही है, फिर प्रत्येक ग्रेडर और सही ग्रेड के बीच भिन्नता का आकलन करने के लिए इसका उपयोग करें। लेकिन यह भविष्यवाणी करना गैर-तुच्छ है - यदि आप दो आकलनों के बीच भिन्न माध्य और मानक विचलन की अपेक्षा करते हैं, तो आप यह मान ही नहीं सकते कि दूसरा मूल्यांकन ग्रेड पहले से मेल खाना चाहिए।

इसके अलावा, छात्रों को बहु-विकल्प और लिखित मूल्यांकन में सापेक्ष योग्यता में अंतर होता है। आप इसे किसी प्रकार के यादृच्छिक प्रभाव के रूप में मान सकते हैं, जिससे छात्र "मनाया" और "सच" ग्रेड का एक घटक बन सकता है, लेकिन उनके "अनुमानित" ग्रेड द्वारा कब्जा नहीं किया जाता है। यदि कोहोर्ट्स व्यवस्थित रूप से भिन्न होते हैं और एक पलटन में छात्र समान होते हैं, तो हमें इस प्रभाव की उम्मीद नहीं करनी चाहिए कि प्रत्येक कोहॉर्ट के भीतर शून्य हो। अगर किसी सहकर्मी ने अपने पूर्वानुमानित लोगों के औसत ग्रेड +5 का अवलोकन किया है, तो यह असंभव हैयह निर्धारित करने के लिए कि क्या यह एक उदार ग्रेडर के कारण है, एक सहकर्मी विशेष रूप से कई विकल्पों की तुलना में लिखित मूल्यांकन के लिए बेहतर-अनुकूल है, या दोनों के कुछ संयोजन। एक चरम मामले में, कोहोर्ट के पास दूसरे मूल्यांकन में कम योग्यता हो सकती है, लेकिन इसके लिए एक बहुत ही उदार ग्रेडर - या इसके विपरीत क्षतिपूर्ति की तुलना में अधिक था। आप इसे अलग नहीं कर सकते। यह उलझन है।

मुझे आपके डेटा के लिए इस तरह के एक सरल योगात्मक मॉडल की पर्याप्तता पर भी संदेह है। ग्रेडर्स लीड एसेसर से भिन्न हो सकते हैं, न केवल स्थान में बदलाव के द्वारा, बल्कि यह भी फैलता है - यद्यपि समरूपता की संभावना एकरूपता में भिन्न होती है, आप इसका पता लगाने के लिए प्रत्येक कॉहोर्ट में केवल देखे गए ग्रेड के प्रसार की जांच नहीं कर सकते। इसके अलावा, वितरण के थोक में उच्च स्कोर हैं, सैद्धांतिक रूप से अधिकतम 100 के पास। मैं यह अनुमान लगाता हूं कि अधिकतम के पास संपीड़न के कारण गैर-रैखिकता का परिचय होगा - बहुत उदार ग्रेडर ए, बी, सी और डी जैसे अंक दे सकता है। 85, 90, 94, 97. यह एक स्थिरांक को घटाने के बजाए उल्टा करना कठिन है। इससे भी बदतर, आप "कतरन" देख सकते हैं - एक अत्यंत उदार ग्रेडर उन्हें 90, 95, 100, 100 के रूप में ग्रेड दे सकता है। यह असंभव हैसी और डी के सापेक्ष प्रदर्शन के बारे में जानकारी को उल्टा करना, अपरिवर्तनीय रूप से खो गया है।

आपके ग्रेडर बहुत अलग तरह से व्यवहार करते हैं। क्या आप सुनिश्चित हैं कि वे मूल्यांकन के विभिन्न घटकों में अपनी उदारता के बजाय केवल अपनी समग्र उदारता में भिन्न हैं? यह जाँच के लायक हो सकता है, क्योंकि यह विभिन्न जटिलताओं का परिचय दे सकता है - जैसे B के लिए मनाया गया ग्रेड A की तुलना में खराब हो सकता है, B के 5 अंक "बेहतर" होने के बावजूद, भले ही प्रत्येक घटक के लिए ग्रेड के आवंटित निशान एक नीरस रूप से बढ़ते हुए कार्य हों। लीड एसेसर का! मान लीजिए कि मूल्यांकन Q1 (A को 30/50, B 45/50 स्कोर करना चाहिए) और Q2 (A को 45/50, B 35/50 स्कोर करना चाहिए) के बीच विभाजित किया गया है। कल्पना कीजिए कि क्यू 1 (ग्रेड: ए 40/50, बी 50/50) पर ग्रेड बहुत उदार है, लेकिन Q2 पर कठोर (मनाया: A 42/50, 30/50), तो हम ए और 80 के लिए 82 के योग का निरीक्षण करते हैं। B. यदि आपको घटक स्कोर पर विचार करना है,

तर्क से यह एक उत्तर के बजाय एक विस्तारित टिप्पणी है, इस अर्थ में यह आपकी समस्या के मूल सीमा के भीतर एक विशेष समाधान का प्रस्ताव नहीं करता है। लेकिन अगर आपके ग्रेडर पहले से ही प्रत्येक के बारे में 55 पेपरों को पहले से ही संभाल रहे हैं, तो क्या उनके लिए अंशांकन प्रयोजनों के लिए पांच या दस और देखना कितना बुरा है? आपके पास पहले से ही छात्रों की क्षमताओं का एक अच्छा विचार है, इसलिए ग्रेड की श्रेणी में सही से कागजात का एक नमूना चुन सकते हैं। आप तब मूल्यांकन कर सकते हैं कि क्या आपको पूरे परीक्षण में या प्रत्येक घटक में ग्रेडर उदारता के लिए क्षतिपूर्ति करने की आवश्यकता है, और क्या ऐसा करना निरंतर जोड़ना / घटाना या कुछ और अधिक परिष्कृत जैसे प्रक्षेप (जैसे कि यदि आप गैर के बारे में चिंतित हैं) 100 के पास रैखिकता)। लेकिन प्रक्षेप पर चेतावनी का एक शब्द: मान लीजिए कि लीड असिस्टर ने पांच नमूना पत्र 70, 75, 80, 85 और 90 के रूप में चिह्नित किए हैं जबकि एक ग्रेडर उन्हें 80, 88, 84, 93 और 96 के रूप में चिह्नित करता है, इसलिए आदेश के बारे में कुछ असहमति है। आप शायद ९ ० से १०० के अंतराल पर ९ ६ से १०० तक के ग्रेड का नक्शा बनाना चाहते हैं, और ९ But से ९ ६ के अंतराल पर to५ से ९ ० के बीच ग्रेड का अवलोकन करते हैं। लेकिन इसके नीचे के अंकों के लिए कुछ सोचा जाना आवश्यक है। शायद Perhaps४ से ९ to तक मनाया गया ग्रेड ५ grades से to५ के अंतराल पर मैप किया जाना चाहिए? एक विकल्प एक (संभवतः बहुपद) प्रतिगमन "प्रेस्ड ग्रेड" से "अनुमानित सच ग्रेड" के लिए एक सूत्र प्राप्त करने के लिए होगा। शायद Perhaps४ से ९ to तक मनाया गया ग्रेड ५ grades से to५ के अंतराल पर मैप किया जाना चाहिए? एक विकल्प एक (संभवतः बहुपद) प्रतिगमन "प्रेस्ड ग्रेड" से "अनुमानित सच ग्रेड" के लिए एक सूत्र प्राप्त करने के लिए होगा। शायद Perhaps४ से ९ to तक मनाया गया ग्रेड ५ grades से to५ के अंतराल पर मैप किया जाना चाहिए? एक विकल्प एक (संभवतः बहुपद) प्रतिगमन "प्रेस्ड ग्रेड" से "अनुमानित सच ग्रेड" के लिए एक सूत्र प्राप्त करने के लिए होगा।


1
दुर्भाग्यवश मूल्यांकन 2 की प्रकृति ग्रेडर के लिए अंशांकन प्रयोजनों के लिए अधिक असंभव दिखती है। आप इसे एक मौखिक कविता पाठ की तरह मान सकते हैं जो एक बार बिना किसी रिकॉर्डिंग के साथ किया गया था, और जिसका तुरंत बाद मूल्यांकन किया गया था। अंशांकन प्रयोजनों के लिए विशुद्ध रूप से नए पाठों को शेड्यूल करना अव्यावहारिक होगा। आपके अन्य प्रश्न का उत्तर देने के लिए, मूल्यांकन 2 में वास्तव में स्पष्ट उपकेंद्र नहीं हैं, और हमें घटक स्कोर पर विचार करने की आवश्यकता नहीं है।
user1205901 - मोनिका

1
यह "एक उत्तर नहीं" है, लेकिन एक आदर्श दुनिया में मैंने चीजों को चालू करने और एक उदाहरण के नमूने का उपयोग करने का सुझाव दिया है (संभवत: कृत्रिम बॉर्डर पर जानबूझकर डिजाइन किए गए ग्रेड असाइनमेंट पर, बजाय वास्तविक छात्रों द्वारा) प्रशिक्षण के एक तरीके के रूप में। ग्रेडर के पास समान उदारता है, बजाय अपनी उदारता के कटौती और क्षतिपूर्ति करने के लिए। यदि आकलन किया जाता है तो यह स्पष्ट रूप से आपके लिए कोई समाधान नहीं है, हालांकि।
सिल्वरफिश

1
(+1) बहुत अच्छी तरह से "एक उत्तर नहीं"। बल्कि व्यक्तिपरक परीक्षणों में संगति को अक्सर ग्रेडिंग कार्य को घटकों में विभाजित करके बहुत सुधार किया जा सकता है - अन्यथा एक ग्रेडर के लिए एक और अधिक वजन तालमेल दे सकता है, दूसरे को प्रक्षेपण, और सी।
Scortchi - को पुनः स्थापित मोनिका

यह स्पष्ट है कि उस व्यक्ति को एक संभावित समायोजन प्रस्तुत करने के अलावा, जो अंततः इस मुद्दे को तय करेगा, मुझे समायोजन के पेशेवरों और विपक्षों के कुछ स्पष्टीकरण भी प्रस्तुत करने की आवश्यकता होगी। आपकी प्रतिक्रिया इस बारे में बहुत सारी सहायक सामग्री प्रदान करती है। हालांकि, मुझे आश्चर्य है कि क्या निर्णय लेने के लिए मैं क्या मापदंड का उपयोग कर सकता हूं कि क्या अकेले सब कुछ छोड़ने के लिए, या परिवर्तन करने के लिए अधिक फायदेमंद है। मैं कोहोर्ट ग्रेड को देखता हूं और मेरा अंतर्ज्ञान कहता है कि मार्करों के बीच अंतर एक बड़ा प्रभाव है। अंतर्ज्ञान अविश्वसनीय है, लेकिन मुझे यकीन नहीं है कि मैं इस मामले में और क्या कर सकता हूं।
user1205901 - मोनिका

2
एक सवाल यह है कि क्या आपके पास "अंतर कार्य योग्यता" प्रभाव को छोटा मानने के लिए उचित आधार है, खासकर जब "गडर उदारता" प्रभाव की तुलना में, एक कोहर्ट पर औसतन। यदि ऐसा है, तो आप प्रत्येक सहकर्मी के लिए उदारता प्रभाव का अनुमान लगाने का प्रयास कर सकते हैं - लेकिन आपको जोखिम में डालने का जोखिम है। इसके अलावा, वहाँ एक पकड़ 22 है। मैं मनाया ग्रेड के लिए बड़े "सुधार" लागू करने के लिए सबसे सावधान रहना होगा । लेकिन अगर सुझाए गए सुधार छोटे हैं, तो यह प्रशंसनीय है कि वे सहकर्मियों के बीच अंतर कार्य क्षमता में व्यवस्थित अंतर के कारण हैं, न कि उदारता से।
सिल्वरफिश

2

एक बहुत ही सरल मॉडल:

s1,iis2,iA1,,Ap

प्रत्येक सहकर्मी अपने छात्रों की ताकत और ग्रेडर की सहजता से पक्षपाती है। यह एक योज्य प्रभाव है, हम इसे निम्न तरीके से वापस लेते हैं: हम पहले परीक्षण पर कोहार्ट के औसत स्कोर को घटा देंगे, और दूसरे परीक्षण पर कोहर्ट का औसत स्कोर जोड़ देंगे।

s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

s

i,si=αs1,i+(1α)s2,i

नकारात्मक पक्ष यह है कि अगर किसी दूसरे के टेस्ट में अशुभ होने की घटना हुई तो एक व्यक्तिगत छात्र को दंडित किया जा सकता है। लेकिन किसी भी सांख्यिकीय तकनीक को इस संभावित अनुचित रूप से नकारात्मक रूप से ले जाने वाला है।


3
α

1
नहीं - साथियों को यादृच्छिक पर नहीं चुना जाता है।
स्कोर्टची - मोनिका

1
... जो, जैसा कि @whuber कहता रहता है, किसी अन्य की तुलना में एक प्रकार की परीक्षा में अपेक्षाकृत बेहतर करने के लिए कोहॉर्ट (उम्र के कारण या जो भी हो) की किसी भी अंतर्निहित प्रवृत्ति से भ्रमित है।
Scortchi - को पुनः स्थापित मोनिका

2
आप बड़े गोरे लोगों को ले कर भ्रमित नहीं कर सकते! सबसे अच्छे रूप में आप निर्विवाद मूल्यों के कभी अधिक सटीक अनुमानों के साथ आ सकते हैं।
whuber

3
उचित, शायद: लेकिन यह ओपी को उपलब्ध जानकारी को देखते हुए अप्राप्य है। आपके उत्तर की वैधता इस अंतर्निहित धारणा की सच्चाई पर निर्भर करती है। इससे भी बदतर यह उसका निषेध (जो निश्चित रूप से भी untestable है) अत्यंत उचित भी है: क्योंकि साथियों आत्म चयनित हैं, वे सुझाव यह वास्तव में हो सकता है, लोग हैं, जो अलग-अलग आकलन उपकरणों पर सामान्य तरीके में प्रदर्शन शामिल हो सकते हैं की संभावना है कि अंतर सफलता काउहोट के हिस्से में और केवल आंशिक रूप से ग्रेडर के बीच परिवर्तनशीलता के कारण होगा।
whuber

1

आप नहीं कर सकते। कम से कम, अतिरिक्त डेटा एकत्र किए बिना नहीं। क्यों देखें, इस धागे में @ व्हिबर के कई अपवित्र टिप्पणियों को पढ़ें।


0

संपादित करें

इस उत्तर में हल की गई समस्या उन ग्रेडर को खोजने की है जो उन छात्रों को कम अंक देते हैं जिन्हें वे नापसंद करते हैं।

मूल पोस्ट

मेरा दृष्टिकोण, जो मुझे लगता है कि लागू करना आसान है, इस प्रकार होगा:

μk,ikiyk,i

1

मॉडल मान लें

yk,i=μk,i+α+τek,iααiα

2

Giiy~k,i

yk,iμk,iα=y~k,i=Gi+σie~k,i

और 11 अलग-अलग अनुमान लगाते हैं Gσ

3

अब एक असामान्य अवलोकन एक ऐसा है जो मात्रा है

T=|y~Giσi|

ध्यान दें

eT

आर-कोड

नीचे R. नोट में कोड दिया गया है कि आपके मामले में, mu और y दोनों को दिया जाएगा ताकि जनरेटिंग पंक्तियों को जब उन्हें rnorm- संख्या दी जाए तो इसे अनदेखा कर दिया जाए। मैं उन्हें डेटा के बिना स्क्रिप्ट का मूल्यांकन करने में सक्षम होने के लिए शामिल करता हूं।

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
आपको लगता है कि इस सवाल का जवाब नहीं दिया गया है: आप केवल किसी भी "असामान्य टिप्पणियों" की जांच करने की सिफारिश के साथ समाप्त होते हैं। यह समस्या का समाधान कैसे करता है?
व्हिबर

प्रश्न को फिर से पढ़ना, शायद मैंने "व्यक्तिगत" भाग पर बहुत अधिक ध्यान केंद्रित किया। इस जवाब में हल की गई समस्या यह है कि ग्रेडर खोजने के बजाय जो छात्रों को नापसंद करते हैं उन्हें कम अंक देते हैं। मूल प्रश्न को हल करना असंभव है (!)। जैसा कि पहले से ही सुझाव दिया गया है, यह बहुत संभावना है कि छात्र सहयोग करते हैं या अन्यथा प्रत्येक पलटन के भीतर दृढ़ता से सहसंबंधित होते हैं।
हुनाफू

0

समस्या को फिर से परिभाषित करना: दो भागों के एक परीक्षा के अंक को सेट करने के लिए सबसे अच्छा कैसे परीक्षा की शर्तों के साथ आवश्यक है कि दूसरा भाग डेलिगेट मार्करों की गुणात्मक आकलन की सीमा के कारण अधिक अनिश्चितता के संपर्क में है।

कहाँ: परीक्षा के लिए मास्टर परीक्षक = जवाबदेह व्यक्ति प्रतिनिधि परीक्षक = व्यक्ति (११ में से १) को परीक्षा के परीक्षार्थी # २ अंक दिए जाते हैं = वह व्यक्ति जिसे परीक्षा में बैठने का मज़ा मिलता है

लक्ष्यों में शामिल हैं: ए) छात्रों को एक चिह्न प्राप्त होता है जो उनके काम को दर्शा रहा है बी) मास्टर परीक्षक के इरादे से संरेखित करने के लिए दूसरे भाग की अनिश्चितता को प्रबंधित करें

सुझाया दृष्टिकोण (उत्तर): 1. मास्टर परीक्षक बेतरतीब ढंग से परीक्षा के एक प्रतिनिधि नमूना सेट का चयन करता है, भाग # 2 को चिह्नित करता है और भाग # 1 के साथ सहसंबंध विकसित करता है। प्रत्यायोजित मार्कर के सभी डेटा का आकलन करने के लिए सहसंबंध का उपयोग करें (भाग # 1) बनाम # 2 स्कोर) 3. जहां सहसंबंध मास्टर परीक्षक से काफी अलग है - मास्टर परीक्षक के लिए स्वीकार्य होने का महत्व - परिणाम को फिर से असाइन करने के लिए मास्टर परीक्षक के रूप में परीक्षा की जांच करें।

यह दृष्टिकोण सुनिश्चित करता है कि मास्टर परीक्षक सहसंबंध और स्वीकार्य महत्व के लिए जवाबदेह है। परीक्षण # 1 बनाम # 2 के प्रश्नों के लिए भाग # 1 बनाम # 2 या सापेक्ष स्कोर के रूप में सहसंबंध उतना ही सरल हो सकता है।

मास्टर परीक्षक भी सहसंबंध के "रबर-नेस" के आधार पर भाग # 2 के लिए परिणाम की गुणवत्ता निर्धारित करने में सक्षम होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.