समाचार में समीकरण: एक सामान्य दर्शकों के लिए एक बहु-स्तरीय मॉडल का अनुवाद


24

न्यूयॉर्क टाइम्स ने 'वैल्यू एडेड' शिक्षक मूल्यांकन प्रणाली पर एक लंबी टिप्पणी की है जिसका उपयोग न्यूयॉर्क शहर के शिक्षकों को प्रतिक्रिया देने के लिए किया जा रहा है। लेड वह समीकरण है जिसका उपयोग अंकों की गणना के लिए किया जाता है - बिना संदर्भ के। गणित के माध्यम से बयानबाजी की रणनीति डराने वाली प्रतीत होती है:

वैकल्पिक शब्द

लेख का पूरा पाठ यहां उपलब्ध है: http://www.nytimes.com/2011/03/07/education/07winerip.html

लेखक, माइकल वाइनरिप का तर्क है कि समीकरण का अर्थ किसी भी अन्य की क्षमता से परे है, ओम, मैट डेमन को समझना, बहुत कम औसत शिक्षक:

"सुश्री इसाकसन की 3.69 की भविष्यवाणी की गई स्कोर के लिए गणना और भी अधिक चुनौतीपूर्ण है। यह 32 चर पर आधारित है - जिसमें यह भी शामिल है कि क्या एक छात्र को" सबसे अच्छे साल से पहले ग्रेड में रखा गया था "और क्या एक छात्र" सबसे अच्छे या उत्तर-परीक्षण में शहर में नया है " साल।"

उन 32 चर को एक सांख्यिकीय मॉडल में प्लग किया जाता है जो उन समीकरणों में से एक जैसा दिखता है जो "गुड विल हंटिंग" में केवल मैट डेमन को हल करने में सक्षम थे।

प्रक्रिया पारदर्शी दिखाई देती है, लेकिन यह कीचड़ के रूप में स्पष्ट है, यहां तक ​​कि शिक्षकों, प्रधानाचार्यों और जैसे स्मार्ट बिछाने वाले लोगों के लिए - मैं यह कहने में संकोच करता हूं - पत्रकार।

सुश्री इसाकसन के पास दो आइवी लीग डिग्री हो सकती हैं, लेकिन वह खो गई है। "मुझे यह समझना असंभव लगता है," उसने कहा।

सादे अंग्रेजी में, सुश्री इसाकसन का सबसे अच्छा अनुमान इस बारे में है कि विभाग उसे क्या बताने की कोशिश कर रहा है: भले ही उसके 66 छात्रों में से 65 ने राज्य परीक्षण में दक्षता हासिल की हो, लेकिन उसके 3 एस में से 4 डी का होना चाहिए था।

लेकिन यह केवल एक अनुमान है। ”

आप एक लेपर्सन को मॉडल कैसे समझाएंगे? FYI करें, पूरी तकनीकी रिपोर्ट इस प्रकार है:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

अपडेट: एंड्रयू जेलमैन यहां अपने विचार प्रस्तुत करते हैं: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
गेलमैन के विचार और उनकी पोस्ट की टिप्पणियाँ पढ़ने लायक हैं। स्कोरिंग प्रणाली लगभग निश्चित रूप से कचरा है: विचार करें कि इस शिक्षक के लिए 95% CI । [0%, 52%]
गूँग - मोनिका

जवाबों:


12

यहाँ एक संभावना है।

शिक्षक के प्रदर्शन का आकलन करना पारंपरिक रूप से कठिन रहा है। इस कठिनाई का एक हिस्सा यह है कि विभिन्न छात्रों को किसी विषय में अलग-अलग स्तर की रुचि होती है। यदि किसी दिए गए छात्र को ए मिलता है, तो इसका मतलब यह नहीं है कि शिक्षण उत्कृष्ट था - बल्कि, इसका मतलब यह हो सकता है कि बहुत ही प्रतिभाशाली और इच्छुक छात्र ने खराब शिक्षण गुणवत्ता के बावजूद सफल होने के लिए अपना सर्वश्रेष्ठ प्रदर्शन किया। इसके विपरीत, डी प्राप्त करने वाले एक छात्र के लिए जरूरी नहीं है कि शिक्षण खराब था - बल्कि, इसका मतलब यह हो सकता है कि शिक्षक को शिक्षित करने और प्रेरित करने के सर्वोत्तम प्रयासों के बावजूद एक निराश छात्र ने किनारा कर लिया।

इस तथ्य से कठिनाई बढ़ जाती है कि छात्र का चयन (और इसलिए छात्रों का रुचि का स्तर) यादृच्छिक से दूर है। स्कूलों में दूसरों पर एक विषय (या विषयों का समूह) पर जोर देना आम बात है। उदाहरण के लिए, एक स्कूल मानविकी पर तकनीकी विषयों पर जोर दे सकता है। ऐसे स्कूलों में छात्र शायद तकनीकी क्षेत्रों में इतनी रुचि रखते हैं कि उन्हें सबसे खराब शिक्षक के साथ भी पासिंग ग्रेड प्राप्त होगा। इस प्रकार गणित पास करने वाले छात्रों का अंश शिक्षण का एक अच्छा उपाय नहीं है - हम अच्छे शिक्षकों से अपेक्षा करते हैं कि वे उन छात्रों के साथ बहुत बेहतर करें जो सीखने के लिए उत्सुक हैं। इसके विपरीत, उन्हीं छात्रों को कला में कोई दिलचस्पी नहीं हो सकती है। सभी छात्रों को ए सुनिश्चित करने के लिए सर्वश्रेष्ठ शिक्षक से भी उम्मीद करना मुश्किल होगा।

एक और कठिनाई यह है कि किसी वर्ग में सभी सफलताएँ सीधे उस कक्षा के शिक्षक के लिए उत्तरदायी नहीं होती हैं। बल्कि, सफलता स्कूल (या पूरे जिले) में उपलब्धि के लिए प्रेरणा और रूपरेखा बनाने के कारण हो सकती है।

इन सभी कठिनाइयों को ध्यान में रखते हुए, शोधकर्ताओं ने एक मॉडल बनाया है जो शिक्षक के 'अतिरिक्त मूल्य' का मूल्यांकन करता है। संक्षेप में, मॉडल प्रत्येक छात्र की आंतरिक विशेषताओं (सीखने में रुचि और सफलता के समग्र स्तर), साथ ही साथ स्कूल और जिले के छात्र की सफलता में योगदान देता है, और छात्र ग्रेड की भविष्यवाणी करता है जो 'औसत' के साथ अपेक्षित होगा। उस वातावरण में शिक्षण। तब मॉडल वास्तविक ग्रेड की भविष्यवाणी वाले लोगों से तुलना करता है और इसके आधार पर यह तय करता है कि शिक्षण पर्याप्त था, अन्य सभी विचार, पर्याप्त से बेहतर या बदतर। हालांकि मॉडल एक गैर-गणितज्ञ के लिए जटिल लग सकता है, यह वास्तव में बहुत सरल और मानक है। गणितज्ञ दशकों से समान (और इससे भी अधिक जटिल) मॉडल का उपयोग कर रहे हैं।

संक्षेप में, सुश्री इसाकसन का अनुमान सही है। हालांकि उसके 66 छात्रों में से 65 ने राज्य परीक्षण में दक्षता हासिल की, फिर भी वे केवल एक ही स्कोर करते, भले ही एक कुत्ता उनका शिक्षक था। एक वास्तविक अच्छा शिक्षक इन छात्रों को न केवल 'प्रवीण' प्राप्त करने में सक्षम करेगा, बल्कि वास्तव में एक ही परीक्षा में 'अच्छा' स्कोर देगा।


इस बिंदु पर मैं मॉडल के साथ अपनी कुछ चिंताओं का उल्लेख कर सकता हूं। उदाहरण के लिए, मॉडल डेवलपर्स का दावा है कि यह शिक्षण गुणवत्ता के मूल्यांकन के साथ कुछ कठिनाइयों को संबोधित करता है। क्या मेरे पास उन पर विश्वास करने के लिए पर्याप्त कारण हैं? कम आय वाले आबादी वाले क्षेत्रों में अपेक्षित 'जिला' और 'स्कूल' स्कोर होंगे। मान लीजिए किसी पड़ोस में 2.5 का अपेक्षित स्कोर होगा। एक शिक्षक जो औसत 3 प्राप्त करेगा, उसे एक अच्छा मूल्यांकन मिलेगा। यह शिक्षकों को ४, ५ या ५ के स्कोर के बजाय ३ के स्कोर के लिए प्रेरित करने के लिए प्रेरित कर सकता है। दूसरे शब्दों में, शिक्षक पूर्णता के बजाय सामान्यता के लिए लक्ष्य बनाएंगे। क्या हम चाहते हैं कि ऐसा हो? अंत में, भले ही मॉडल गणितीय रूप से सरल हो, यह एक तरह से बहुत अलग तरीके से काम करता है कि मानव अंतर्ज्ञान कैसे काम करता है। परिणामस्वरूप, हमारे पास मॉडल को मान्य या विवाद करने का कोई स्पष्ट तरीका नहीं है ' निर्णय। सुश्री इसाकसन का दुर्भाग्यपूर्ण उदाहरण दिखाता है कि इससे क्या हो सकता है। क्या हम कंप्यूटर पर आँख बंद करके निर्भर रहना चाहते हैं?


ध्यान दें कि यह एक layperson के लिए एक स्पष्टीकरण है। मैंने यहां कई संभावित विवादास्पद मुद्दों को दरकिनार कर दिया। उदाहरण के लिए, मैं यह नहीं कहना चाहता था कि कम आय वाले जनसांख्यिकी वाले स्कूल जिलों में खराब प्रदर्शन करने की उम्मीद की जाती है, क्योंकि यह एक आम आदमी को अच्छा नहीं लगेगा।

इसके अलावा, मैंने यह मान लिया है कि लक्ष्य वास्तव में मॉडल का यथोचित विवरण देना है। लेकिन मुझे पूरा यकीन है कि यह NYT का लक्ष्य नहीं था। इसलिए कम से कम इस कारण कि उनकी व्याख्या खराब है जानबूझकर FUD, मेरी राय में।


मैं शायद अंतिम पैराग्राफ के दूसरे वाक्य को बदलने के लिए कहूंगा, "भले ही उसके 66 छात्रों में से 65 ने राज्य परीक्षण पर 'कुशल' स्कोर किया हो, लेकिन वे सबसे अधिक संभावना रखते थे, भले ही वे एक अयोग्य शिक्षक हों।"
वेन

11

"आपका शिक्षण स्कोर इस बात पर निर्भर करता है कि आपके छात्रों ने एक भविष्यवाणी के आधार पर कितना अच्छा प्रदर्शन किया

  • जैसा कि वे पहले से जानते थे, जैसा कि एक ढोंग द्वारा मापा गया है,

  • हम कितना अच्छा सोचते हैं कि छात्र व्यक्तिगत रूप से उनके बारे में जो कुछ जानते हैं, उसके आधार पर सीख सकते हैं (उनकी "विशेषताएँ"),

  • और छात्र आपके जिले, स्कूल और कक्षा में औसतन कितना अच्छा करते हैं (यदि आपकी कक्षा में अन्य शिक्षक हैं)।

"दूसरे शब्दों में, हम आपके द्वारा तैयार किए गए संसाधनों के साथ आपके छात्रों की तैयारी और विशेषताओं और सभी छात्रों के विशिष्ट प्रदर्शनों में विशिष्ट प्रदर्शनों में फैक्टरिंग के बाद, सीखने की मात्रा के आधार पर आपका मूल्यांकन कर रहे हैं।

"इस तरह से आपका स्कोर यह दर्शाता है कि आपने छात्र के प्रदर्शन में क्या योगदान दिया है, जैसा कि हम यह निर्धारित कर सकते हैं कि निश्चित रूप से। हम निश्चित रूप से सब कुछ नहीं जान सकते हैं: हम जानते हैं कि आपके पास अद्वितीय और विशेष छात्र थे और आपके द्वारा सामना की गई स्थिति कभी भी दोहराई नहीं जा सकती थी। इसलिए हम। यह पता है कि यह स्कोर केवल एक अनुमान है कि आप कितना अच्छा पढ़ाते हैं, यह पूरी तरह से प्रतिबिंबित करता है, लेकिन यह पूरी तरह से पोस्ट परीक्षण या आपके वर्ग द्वारा किए गए कच्चे परीक्षण लाभ पर आधारित एक से अधिक सटीक अनुमान है। "


2
एनबी कृपया मेरे लिए इन विचारों को विशेषता न दें! मैं केवल अनुरोध किए गए मॉडल को स्पष्ट करने और बचाव करने के लिए अपनी पूरी कोशिश कर रहा हूं। चाहे यह मॉडल उपयुक्त हो, लागू हो, अच्छी तरह से फिट हो, आदि, एक अलग मुद्दा है।
whuber

(+1) अंतिम पैराग्राफ बहुत अच्छी तरह से रखा गया है।
chl

2

यहाँ समझने के लिए कुछ भी नहीं है।

ठीक है, ठीक है, यह सिर्फ एक मानक रैखिक प्रतिगमन मॉडल है। यह मानता है कि एक छात्र के स्कोर को स्कूल और शिक्षक दक्षता गुणांकों सहित कई कारकों के एक रेखीय कार्य के रूप में वर्णित किया जा सकता है - इस प्रकार यह रैखिक मॉडल की सभी मानक समस्याओं को साझा करता है, मुख्य रूप से यह तथ्य है कि यह एक nonlinear का एक बड़ा सन्निकटन है। दुनिया और साथ ही पूरी तरह से या शर्मनाक तरीके से एक स्थिति के आधार पर और कितनी दूर तक कोई इसके साथ एक्सट्रपलेशन करने की कोशिश करेगा, इस पर निर्भर करता है। (हालांकि, एक को चाहिए कि तकनीकी प्रतिनिधि के लेखकों ने इसकी जाँच की और पता चला कि यह ठीक है; ;-))।

लेकिन असली समस्या यह है कि यह एक विश्लेषणात्मक उपकरण है और इसका उपयोग लोगों की उपलब्धियों का आकलन करने के लिए नहीं किया जाना चाहिए - इस तरह (पूरी तरह से अगर अंक अच्छे हैं या नहीं) हर evaluee उसे / उसके निशान को समझने की कोशिश कर रहा है (शायद उम्मीद में इसे अनुकूलित करते हुए) इस मामले में केवल निराशाजनक भ्रम को पूरा करेगा।


3
"यहाँ समझने के लिए कुछ भी नहीं है - यह सिर्फ एक मानक रैखिक प्रतिगमन मॉडल है" - टीहे .... जैसे कि मैथोफोबिक्स के लिए कोई सांत्वना है। मुझे लगता है कि आपने कभी भी सांख्यिकी में स्नातक पाठ्यक्रमों को पढ़ाने का आनंद नहीं लिया है, चलो कहते हैं, समाजशास्त्र या, भगवान मेरी मदद करते हैं, संचार की बड़ी कंपनियों।
फबियों ने f

@ फ़ेबियंस यह केवल मेरी बात साबित करता है - गणित से अधिक जटिल लोगों का सामना करना, गिनती की तुलना में इस दृष्टिकोण का सबसे बड़ा दोष है =] लेकिन मैं इसे फिर से बनाने की कोशिश करूंगा।

यह वैध आलोचना है - विशेष रूप से रैखिकता ग्रहण करने के बारे में हिस्सा - लेकिन यह वास्तव में मूल प्रश्न का जवाब नहीं देता है (जब तक कि आपका इरादा काल्पनिक "आम आदमी" को रोकना नहीं है)।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.