एक सामान्य (या अन्य) वितरण में "ब्रेक" के लिए औपचारिक रूप से परीक्षण कैसे करें


10

यह अक्सर सामाजिक विज्ञान में आता है कि चर को किसी तरह से वितरित किया जाना चाहिए, सामान्य रूप से कहें, कुछ बिंदुओं के आसपास उनके वितरण में एक असंतोष है।

उदाहरण के लिए, यदि विशिष्ट कटऑफ जैसे "पासिंग / फेलिंग" हैं और यदि ये उपाय विकृति के अधीन हैं, तो उस बिंदु पर एक असंतोष हो सकता है।

एक प्रमुख उदाहरण (नीचे उद्धृत) आता है छात्र मानकीकृत परीक्षण स्कोर सामान्य रूप से 60% को छोड़कर हर जगह मूल रूप से वितरित किए जाते हैं जहां 50-60% से बहुत कम द्रव्यमान होता है और 60-65% के आसपास बड़े पैमाने पर अत्यधिक होता है। यह उन मामलों में होता है जहां शिक्षक अपने स्वयं के छात्रों की परीक्षा देते हैं। लेखक जांच करते हैं कि क्या शिक्षक वास्तव में छात्रों को परीक्षा पास करने में मदद कर रहे हैं।

बिना किसी संदेह के सबसे पुख्ता सबूत अलग-अलग परीक्षणों के लिए अलग-अलग कटऑफ के आसपास एक बड़ी असंतोष के साथ घंटी की वक्र के रेखांकन को दिखाने से आता है। हालांकि, आप एक सांख्यिकीय परीक्षण विकसित करने के बारे में कैसे जाएंगे? उन्होंने प्रक्षेप की कोशिश की और फिर ऊपर या नीचे के अंश की तुलना की और कटऑफ के ऊपर और नीचे के 5 बिंदुओं पर एक टी-टेस्ट भी किया। जबकि समझदार, ये तदर्थ हैं। क्या कोई कुछ भी बेहतर सोच सकता है?

लिंक: छात्रों और स्कूलों के मूल्यांकन में नियम और विवेक: न्यूयॉर्क रीजेंट्स परीक्षाओं का मामला http://www.econ.berkeley.edu/~jmcceath/nys_regents_djmr_beb_23_2011.pdf

परीक्षण स्कोर का वितरण, काले रंग में हेरफेर करने वाले, कटऑफ के नीचे घनत्व में तेज गिरावट और इसके बाद के संस्करण के ऊपर वृद्धि पर ध्यान दें


बस स्पष्ट करने के लिए - क्या आप एक सामान्य कमी के लिए परीक्षण कर रहे हैं, उदाहरण के लिए, सामान्यता, या पूर्व-निर्दिष्ट बिंदु पर एक अलग उपस्थिति की उपस्थिति के लिए? आपका उदाहरण बाद का है, लेकिन निश्चित रूप से किसी भी अच्छाई-से-फिट परीक्षण, उदाहरण के लिए, एंडरसन-डार्लिंग या सामान्यता के लिए शापिरो-विल्क की सेवा करेंगे, हालांकि एक अत्यधिक विशिष्ट विकल्प के साथ आप अधिक शक्तिशाली परीक्षणों का निर्माण कर सकते हैं। इसके अलावा, आपके ऊपर आपके ग्राफ में स्पष्ट रूप से हजारों का एक नमूना है; यह भी विशिष्ट होगा?
23

जवाबों:


6

प्रश्न को ठीक से फ्रेम करना और स्कोर के उपयोगी वैचारिक मॉडल को अपनाना महत्वपूर्ण है।

प्रश्न

55, 65, और 85 जैसी संभावित चीटिंग थ्रॉल्ड्स को डेटा से स्वतंत्र रूप से एक प्राथमिकता के रूप में जाना जाता है : उन्हें डेटा से निर्धारित होने की आवश्यकता नहीं है। (इसलिए यह न तो एक बाहरी पहचान समस्या है और न ही एक वितरण फिटिंग समस्या है।) परीक्षण को उन सबूतों का आकलन करना चाहिए कि इन थ्रेसहोल्डों की तुलना में कुछ (सभी) स्कोर कम थे (या, शायद, केवल उन थ्रेसहोल्ड पर)।

वैचारिक प्रतिरूप

वैचारिक मॉडल के लिए, यह समझना महत्वपूर्ण है कि अंकों का सामान्य वितरण होने की संभावना नहीं है (और न ही कोई अन्य आसानी से परिचालित वितरण)। यह पोस्टेड उदाहरण में और मूल रिपोर्ट से हर दूसरे उदाहरण में बहुतायत से स्पष्ट है । ये स्कोर स्कूलों के मिश्रण का प्रतिनिधित्व करते हैं; भले ही किसी भी स्कूल के भीतर वितरण सामान्य था (वे नहीं हैं), मिश्रण सामान्य होने की संभावना नहीं है।

एक सरल दृष्टिकोण स्वीकार करता है कि एक वास्तविक स्कोर वितरण है: वह जो इस विशेष रूप को धोखा देने के अलावा रिपोर्ट किया जाएगा इसलिए यह एक गैर पैरामीट्रिक सेटिंग है। यह बहुत व्यापक लगता है, लेकिन स्कोर वितरण की कुछ विशेषताएं हैं जो वास्तविक डेटा में अनुमानित या देखी जा सकती हैं:

  1. स्कोर , , और की गणना बारीकी से सहसंबंधित होगी, ।i1ii+11i99

  2. स्कोर वितरण के कुछ आदर्शित चिकने संस्करण के आसपास इन गणनाओं में भिन्नता होगी। ये विविधताएँ आमतौर पर गिनती के वर्गमूल के बराबर आकार की होंगी।

  3. दहलीज सापेक्ष धोखा किसी भी स्कोर लिए मायने नहीं रखता । इसका प्रभाव प्रत्येक स्कोर की गिनती के लिए आनुपातिक है (छात्रों को धोखा देने से प्रभावित होने के लिए "जोखिम में" की संख्या)। स्कोर के लिए इस सीमा से नीचे, गिनती कुछ अंश से कम हो जाएगा और इस राशि में जोड़ दिया जाएगा ।titic(i)δ(ti)c(i)t(i)

  4. एक स्कोर और थ्रेशोल्ड के बीच की दूरी के साथ परिवर्तन की मात्रा घट जाती है: का घटता कार्य है ।δ(i)i=1,2,

एक सीमा को देखते हुए , रिक्त परिकल्पना (कोई धोखाधड़ी) वह यह है कि , जिसका अर्थ है हूबहू है । विकल्प यह है कि ।tδ(1)=0δ0δ(1)>0

एक परीक्षण का निर्माण

क्या परीक्षण सांख्यिकीय का उपयोग करने के लिए? इन मान्यताओं के अनुसार, (ए) प्रभाव गिनती में योगात्मक है और (बी) सबसे बड़ा प्रभाव दहलीज के चारों ओर होगा। यह मायने रखता है कि पहले अंतर को देखते हुए, । आगे के विचार से एक कदम और आगे बढ़ने का सुझाव मिलता है: वैकल्पिक परिकल्पना के तहत, हम धीरे-धीरे अवसादग्रस्त गिनती के एक क्रम को देखने की उम्मीद करते हैं क्योंकि स्कोर नीचे से दहलीज जाता है, तब (i) बाद एक बड़ा सकारात्मक परिवर्तन (ii) ए पर बड़ा नकारात्मक परिवर्तन । परीक्षण की शक्ति को अधिकतम करने के लिए, आइए, दूसरे अंतर को देखें,मैं टी टी टी + 1c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

पर क्योंकि यह एक बड़ा सा नकारात्मक गिरावट जोड़ेगा के साथ नकारात्मक एक बड़ी सकारात्मक वृद्धि की , जिससे धोखाधड़ी प्रभाव आवर्धक ।c ( t + 1 ) - c ( t ) c ( t ) - c ( t - 1 )i=t1c(t+1)c(t)c(t)c(t1)

मैं परिकल्पना करने जा रहा हूँ - और यह जाँच की जा सकती है - कि दहलीज के पास की गिनती का क्रमिक सहसंबंध काफी छोटा है। (सीरियल सहसंबंध कहीं और अप्रासंगिक है।) इसका अर्थ है कि का विचरण लगभग हैc(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

मैंने पहले यह सुझाव दिया था कि सभी (कुछ ऐसा भी जिसे जाँचा जा सके)। जहां सेvar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

लगभग इकाई विचरण होना चाहिए। बड़ी स्कोर आबादी के लिए (पोस्ट किया गया 20,000 के आसपास दिखता है) हम लगभग सामान्य वितरण की भी उम्मीद कर सकते हैं। चूंकि हम एक धोखा पैटर्न को इंगित करने के लिए एक अत्यधिक नकारात्मक मूल्य की उम्मीद करते हैं, इसलिए हम आसानी से आकार का एक परीक्षण प्राप्त करते हैं : मानक सामान्य वितरण के cdf के लिए लिखना , थ्रेसहोल्ड पर कोई धोखा की परिकल्पना को अस्वीकार करते हैं जबc(t1)αΦtΦ(z)<α

उदाहरण

उदाहरण के लिए, तीन सामान्य वितरणों के मिश्रण से तैयार किए गए सच्चे परीक्षण स्कोर के इस सेट पर विचार करें :

सही अंकों का हिस्टोग्राम

इसके लिए मैंने दहलीज पर एक धोखा अनुसूची लागू किया, जिसे द्वारा परिभाषित किया गया है । यह एक या दो स्कोर पर लगभग सभी को धोखा देता है जो तुरंत 65 से नीचे है:t=65δ(i)=exp(2i)

धोखा देने के बाद स्कोर का हिस्टोग्राम

परीक्षण क्या करता है, इसकी समझ पाने के लिए, मैंने हर स्कोर के लिए गणना की , न कि केवल , और इसे स्कोर के विरुद्ध प्लॉट किया:zt

Z का प्लॉट

(वास्तव में, छोटी गणनाओं के साथ परेशानियों से बचने के लिए, मैंने पहली बार के हरकार की गणना करने के लिए 0 से 100 तक हर गिनती में 1 जोड़ा ।)z

65 के पास उतार-चढ़ाव स्पष्ट है, जैसा कि अन्य सभी उतार-चढ़ाव की प्रवृत्ति है, जो इस परीक्षण की मान्यताओं के अनुरूप लगभग 1 आकार का है। परीक्षण आँकड़ा जो कि एक समान महत्वपूर्ण परिणाम संगत p- मान के साथ है । प्रश्न में आकृति के साथ दृश्य तुलना से ही पता चलता है कि यह परीक्षण कम-से-कम एक पी-मान लौटाएगा।Φ ( z ) = 0.0000136z=4.19Φ(z)=0.0000136

(कृपया ध्यान दें, हालांकि, परीक्षण स्वयं इस भूखंड का उपयोग नहीं करता है , जो विचारों को चित्रित करने के लिए दिखाया गया है। परीक्षण केवल थ्रेशोल्ड पर प्लॉट किए गए मूल्य पर दिखता है, कहीं और नहीं। फिर भी इस तरह के भूखंड बनाने के लिए अच्छा अभ्यास होगा। यह पुष्टि करने के लिए कि परीक्षण आँकड़ा वास्तव में धोखा देने के लोकी के रूप में अपेक्षित थ्रेसहोल्ड को बाहर करता है और अन्य सभी स्कोर इस तरह के बदलाव के लिए नहीं हैं। यहाँ, हम देखते हैं कि अन्य सभी अंकों में लगभग -2 और 2 के बीच उतार-चढ़ाव है, लेकिन शायद ही कभी। अधिक। ध्यान दें, भी, कि किसी को वास्तव में गणना करने के लिए इस भूखंड में मूल्यों के मानक विचलन की गणना करने की आवश्यकता नहीं है , जिससे कई स्थानों पर उतार-चढ़ाव को प्रभावित करने वाले धोखा प्रभावों से जुड़ी समस्याओं से बचा जा सके।)z

जब इस परीक्षण को कई थ्रेसहोल्ड पर लागू किया जाता है, तो परीक्षण आकार का एक बोनफेरोनी समायोजन बुद्धिमान होगा। एक ही समय में कई परीक्षणों पर लागू होने पर अतिरिक्त समायोजन भी एक अच्छा विचार होगा।

मूल्यांकन

वास्तविक डेटा पर परीक्षण किए जाने तक यह प्रक्रिया उपयोग के लिए गंभीरता से प्रस्तावित नहीं की जा सकती है। एक अच्छा तरीका यह होगा कि एक टेस्ट के लिए स्कोर लिया जाए और टेस्ट के लिए नॉन-क्रिटिकल स्कोर का उपयोग थ्रेशोल्ड के रूप में किया जाए। संभवतः इस तरह की दहलीज इस तरह की धोखाधड़ी के अधीन नहीं है। इस वैचारिक मॉडल के अनुसार धोखा देने का अनुकरण करें और के नकली वितरण का अध्ययन करें । यह इंगित करेगा (ए) कि क्या पी-मान सटीक हैं और (बी) धोखा देने के नकली रूप को इंगित करने के लिए परीक्षण की शक्ति। वास्तव में, कोई भी इस तरह के एक सिमुलेशन अध्ययन का उपयोग कर सकता है बहुत ही डेटा पर एक मूल्यांकन कर रहा है, यह परीक्षण का एक अत्यंत प्रभावी तरीका प्रदान करता है कि क्या परीक्षण उपयुक्त है और इसकी वास्तविक शक्ति क्या है। क्योंकि परीक्षण आँकड़ाzzz इतना सरल है, सिमुलेशन करने और तेजी से निष्पादित करने के लिए व्यावहारिक होगा।


इस परीक्षण को थोड़ा समायोजित करने की आवश्यकता है क्योंकि की उम्मीद वितरण के दूसरे व्युत्पन्न के अनुपात में (लगभग) है। उदाहरण में, जहां दहलीज एक मोड के पास है, वह दूसरी व्युत्पन्न शून्य के पास है, इसलिए कोई समस्या नहीं है, लेकिन उच्च वक्रता वाले क्षेत्र में (सिम्युलेटेड डेटा में लगभग 70 या 90) समायोजन सामग्री हो सकती है। अगर मुझे मौका मिलता है तो मैं इस जवाब को उसी हिसाब से संपादित करूंगा। z
whuber

1

मैं एक मॉडल फिट करने का सुझाव देता हूं जो स्पष्ट रूप से डिप्स की भविष्यवाणी करता है और फिर दिखा रहा है कि यह डेटा को एक भोले की तुलना में बेहतर रूप से फिट करता है।

आपको दो घटकों की आवश्यकता है:

  • अंकों का प्रारंभिक वितरण,
  • जब कोई एक सीमा से नीचे बैठता है तो स्कोर की रीचेकिंग (ईमानदार या नहीं) की प्रक्रिया।

एकल सीमा (मान ) के लिए एक संभावित मॉडल निम्नलिखित है: जहाँपी मैं n एक एल ( रों ) = पी मैं n मैं टी मैं एक एल ( रों ) - पी मैं n मैं टी मैं एक एल ( रों ) मीटर ( रों टी ) + δ ( रों = टी ) टी - 1 s = 0 p i n i t it

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) - अंतिम स्कोर की संभावना वितरण,
  • pinitial(s) - संभावना वितरण, अगर थ्रेसहोल्ड नहीं थे,
  • m(st) - के हेरफेर स्कोर संभावना उत्तीर्णांक में ,st
  • δ(s=t) क्रोनकर डेल्टा है, अर्थात 1 यदि और ० अन्यथा।s=t

आमतौर पर आप स्कोर को बहुत अधिक नहीं बढ़ा सकते हैं। मैं घातीय क्षय शक , जहां फिर से जांचा (चालाकी) स्कोर के अनुपात में है।m(st)aqtsa

प्रारंभिक वितरण के रूप में आप पॉइसन या गाऊसी वितरण का उपयोग करने का प्रयास कर सकते हैं। बेशक यह आदर्श रूप से एक ही परीक्षा होगी, लेकिन शिक्षकों के एक समूह के लिए थ्रेसहोल्ड और दूसरे के लिए - कोई थ्रेसहोल्ड प्रदान नहीं करता है।

यदि अधिक थ्रेसहोल्ड हैं तो एक ही फॉर्मूला लागू कर सकते हैं लेकिन प्रत्येक लिए सुधार के साथ । शायद अलग भी होगी (जैसे कि असफल-पास के बीच का अंतर अधिक महत्वपूर्ण हो सकता है कि दो पासिंग ग्रेड के बीच)।एक मैंtiai

टिप्पणियाँ:

  • कभी-कभी पासिंग ग्रेड से नीचे होने पर परीक्षणों की जांच करने की प्रक्रिया होती है। तब यह कहना अधिक कठिन है कि कौन से उदाहरण ईमानदार थे और कौन - से नहीं।
  • sm(st) निश्चित रूप से परीक्षण के प्रकार पर निर्भर करेगा। उदाहरण के लिए यदि खुले प्रश्न हैं, तो कुछ उत्तर अस्पष्ट हो सकते हैं और उनमें से संख्या पर निर्भर करती है (इसलिए कम स्कोरिंग के लिए स्कोर बढ़ाना आसान हो सकता है)। जबकि बंद-पसंद परीक्षण के लिए सही और गलत उत्तरों की संख्या पर कोई अंतर नहीं होना चाहिए।s
  • कभी-कभी 'सुधारे हुए' स्कोर से ऊपर हो सकते हैं - आदर्शित के बजाय, यह अलग से प्लग कर सकता है।δ ( रों = टी )tδ(s=t)

मुझे यकीन नहीं है कि मेरे सटीक सवाल का जवाब है। इस मामले में, हमारे पास किसी भी परीक्षा को फिर से जाँचने की क्षमता नहीं है। जो कुछ भी देखा जाता है, वह अंतिम अंकों का वितरण होता है। वितरण ज्यादातर सामान्य है। सिवाय, एक निश्चित कटऑफ बिंदु के आसपास जहां हम हेरफेर पर संदेह करते हैं, सामान्य वक्र में एक विराम है। यदि शून्य यह है कि उस बिंदु पर वक्र "चिकना" होगा, तो हम इसे एक वैकल्पिक परिकल्पना के खिलाफ कैसे परीक्षण कर सकते हैं जहां यह "ऊबड़" है
d_a_c321

मुझे लगता है कि मैं प्रश्न को समझता हूं। मेरा कहना था: गॉसियन (2 पैरामीटर) फिट करें और गणना करें , फिर थ्रेसहोल्ड के लिए (गॉसियन + (टी + 1) मापदंडों के लिए 2 पैरामीटर) फिट करें और इसके गणना करें । चिकनाई की गणना करना (जैसे कि ) के रूप में दिलचस्प हो सकता है लेकिन फिर अंतर्निहित मान्यताओं और आदि की जांच करना महत्वपूर्ण है ( उदाहरण के लिए 2 अंकों के बहुत सारे सवालों के साथ परीक्षण काफी उच्च "प्रारंभिक" दांतेदार) हो सकता है। यदि किसी के पास कच्चे डेटा (यानी सभी उत्तर, न केवल कुल स्कोर) तक पहुंच है, तो परीक्षण के लिए और भी अधिक जगह है ...पी मैं n एक एल एक्स 2 Σ 99 रों = 0 | p ( s + 1 ) - p ( s ) | 2X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal

1

मैं इस समस्या को दो उपप्रकारों में विभाजित करूंगा:

  • डेटा को फिट करने के लिए एक वितरण के मापदंडों का अनुमान लगाएं
  • फिटेड डिस्ट्रीब्यूशन का उपयोग करते हुए बाहरी पहचान करें

उपप्रकारों में से किसी से निपटने के विभिन्न तरीके हैं।

यह मुझे लगता है कि एक पॉइसन डिस्ट्रीब्यूशन डेटा को फिट करेगा, अगर यह स्वतंत्र रूप से और पहचान के साथ वितरित किया गया (आईआईडी) , तो निश्चित रूप से हमें लगता है कि यह नहीं है। अगर हम वितरण के मापदंडों का अनुमान लगाने के लिए भोलेपन से प्रयास करते हैं तो हम आउटलेर्स द्वारा तिरछा हो जाएंगे। इस पर काबू पाने के दो संभावित तरीके हैं , रोबस्ट रिग्रेशन तकनीक या क्रॉस-वेलिडेशन जैसी एक हेयुरिस्टिक विधि का उपयोग करना।

बाहरी पता लगाने के लिए फिर से कई दृष्टिकोण हैं। सबसे आसान है कि हम चरण 1 में लगाए गए वितरण से विश्वास अंतराल का उपयोग करें। अन्य विधियों में बूटस्ट्रैप विधियाँ और मोंटे-कार्लो दृष्टिकोण शामिल हैं।

यद्यपि यह आपको नहीं बताएगा कि वितरण में "कूद" है, यह आपको बताएगा कि नमूना आकार के लिए अपेक्षा से अधिक आउटलेयर हैं या नहीं।

एक अधिक जटिल दृष्टिकोण डेटा के लिए विभिन्न मॉडलों का निर्माण करना होगा, जैसे कि यौगिक वितरण, और यह निर्धारित करने के लिए कि मॉडल में से कौन सा मॉडल डेटा के लिए सबसे उपयुक्त है, किसी प्रकार की मॉडल तुलना विधि (एआईसी / बीआईसी) का उपयोग करें। हालाँकि यदि आप बस "एक अपेक्षित वितरण से विचलन" की तलाश कर रहे हैं तो यह ओवरकिल जैसा लगता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.