आप कैसे बताते हैं कि क्या अच्छा प्रदर्शन धारियों में आता है?

10

मैं रूबिक के क्यूब्स को एक शौक के रूप में हल करता हूं। मैं कुछ सॉफ्टवेयर का उपयोग करके घन को हल करने में लगने वाले समय को रिकॉर्ड करता हूं, और इसलिए अब मेरे पास हजारों सॉल्व का डेटा है। डेटा मूल रूप से प्रत्येक अनुक्रमिक हल के समय का प्रतिनिधित्व करने वाली संख्याओं की एक लंबी सूची है (उदाहरण के लिए 22.11, 20.66, 21.00, 18.74, ...)

क्यूब को हल करने में मुझे जो समय लगता है वह स्वाभाविक रूप से हल करने के लिए कुछ हद तक भिन्न होता है, इसलिए अच्छे हल और बुरे हल होते हैं।

मैं जानना चाहता हूं कि क्या मैं "गर्म हो" - क्या अच्छी लकीरों में लकीरें आती हैं। उदाहरण के लिए, यदि मैंने अभी कुछ लगातार अच्छे हल निकाले हैं, तो क्या यह अधिक संभावना है कि मेरा अगला समाधान अच्छा होगा?

किस तरह का विश्लेषण उचित होगा? मैं कुछ विशिष्ट चीजों के बारे में सोच सकता हूं, उदाहरण के लिए एक मार्कोव प्रक्रिया के रूप में टहनियों का इलाज करना और यह देखना कि अगले हल को कितनी अच्छी तरह से हल करता है और यादृच्छिक डेटा की तुलना करता है, यह देखते हुए कि अंतिम के लिए मंझले से नीचे लगातार एकांत की सबसे लंबी लकीरें कितनी लंबी हैं। 100 हैं और यादृच्छिक डेटा में क्या उम्मीद की जाएगी, इसकी तुलना में, मुझे यकीन नहीं है कि ये परीक्षण कितने सुखद होंगे, और आश्चर्य होगा कि क्या इस तरह की समस्या के लिए कुछ अच्छी तरह से विकसित दृष्टिकोण हैं।

probability

— मार्क इचेनलाउब
स्रोत

8

Wald-वुल्फोवित्ज़ चलाता टेस्ट संभावित उम्मीदवार, जहां एक "रन" क्या आप एक "लकीर" कहा जाता है हो रहा है। इसके लिए द्विबीजपत्री डेटा की आवश्यकता होती है, इसलिए आपको प्रत्येक समाधान को कुछ सीमा के अनुसार "खराब" बनाम "अच्छा" के रूप में लेबल करना होगा - जैसा कि आपने सुझाया था कि माध्य समय की तरह। शून्य परिकल्पना यह है कि "अच्छा" और "बुरा" वैकल्पिक रूप से यादृच्छिक रूप से हल करता है। आपके अंतर्ज्ञान के अनुरूप एक तरफा वैकल्पिक परिकल्पना यह है कि "अच्छा" लंबी धारियों में एक साथ टकराता है, जिसका अर्थ है कि यादृच्छिक डेटा के साथ अपेक्षा से कम रन हैं। टेस्ट स्टेटिस्टिक रन की संख्या है। आर में:

> N      <- 200                          # number of solves
> DV     <- round(runif(N, 15, 30), 1)   # simulate some uniform data
> thresh <- median(DV)                   # threshold for binary classification

# do the binary classification
> DVfac <- cut(DV, breaks=c(-Inf, thresh, Inf), labels=c("good", "bad"))
> Nj    <- table(DVfac)                  # number of "good" and "bad" solves
> n1    <- Nj[1]                         # number of "good" solves
> n2    <- Nj[2]                         # number of "bad" solves
> (runs <- rle(as.character(DVfac)))     # analysis of runs
Run Length Encoding
lengths: int [1:92] 2 1 2 4 1 4 3 4 2 5 ...
values : chr [1:92] "bad" "good" "bad" "good" "bad" "good" "bad" ...

> (nRuns <- length(runs$lengths))        # test statistic: observed number of runs
[1] 92

# theoretical maximum of runs for given n1, n2
> (rMax <- ifelse(n1 == n2, N, 2*min(n1, n2) + 1))
199

जब आपके पास केवल कुछ अवलोकन होते हैं, तो आप अशक्त परिकल्पना के तहत प्रत्येक संख्या के लिए सटीक संभावनाओं की गणना कर सकते हैं। अन्यथा, "रन की संख्या" के वितरण को एक मानक सामान्य वितरण द्वारा अनुमानित किया जा सकता है।

> (muR  <- 1 + ((2*n1*n2) / N))                     # expected value
100.99 

> varR  <- (2*n1*n2*(2*n1*n2 - N)) / (N^2 * (N-1))  # theoretical variance
> rZ    <- (nRuns-muR) / sqrt(varR)                 # z-score
> (pVal <- pnorm(rZ, mean=0, sd=1))                 # one-sided p-value
0.1012055

पी-मूल्य एक तरफा वैकल्पिक परिकल्पना के लिए है कि "अच्छा" एकांत में लकीरें आती हैं।

— कैरकल
स्रोत

3

बहुत बढ़िया जवाब। हालाँकि, मैं एक सतत चर को द्विआधारी में बदलने के लिए अनिच्छुक रहूंगा। बहुत सारी सार्थक परिवर्तनशीलता खो जाएगी।

— जेरोमे एंग्लीम

@ जिरॉमी - यह सामान्य रूप से एक अच्छा बिंदु है, लेकिन यह इस विशिष्ट प्रश्न के लिए प्रतीत होता है, बिनिंग ज्यादा जानकारी नहीं फेंकती है - विशेष रूप से "अच्छा" और "बुरा" केवल प्रश्न में एक द्विभाजन के रूप में परिभाषित किया गया है, एक सामान्य के रूप में नहीं सातत्य।

— प्रोबेबिलिसलोजिक

@probabilityislogic मुझे समझ में आता है कि @mark ने समाधान समय को "अच्छा" या "बुरा" के रूप में संचालित किया हो सकता है, जो कुछ समय के समाधान समाधान को बैठता है। हालाँकि, जहाँ भी थ्रेशोल्ड स्थित है, निश्चित रूप से यह थोड़ा मनमाना है। यदि दहलीज 5 मिनट की थी, तो निश्चित रूप से 5 मिनट और 1 सेकंड "अच्छाई" में 4 मिनट और 59 सेकंड से ज्यादा नहीं होंगे। मैं कल्पना करता हूं कि "अच्छे" और "बुरे" निरंतर पूर्ण समय के संबंध में फजी श्रेणियां हैं।

— जेरोमी एंग्लीम

लेकिन "अच्छे" और "बुरे" की कोई भी परिभाषा मनमानी है - क्योंकि उन शब्दों की सापेक्ष प्रकृति। चाहे आप "डेटा" को अस्पष्टता को हल करने दें, या चाहे आप इसे स्वयं हल करें, इसे अधिक या कम अस्पष्ट नहीं बनाते हैं। और यह हो सकता है कि इस तरह के एक तेज अंतर को वारंट किया जाता है - अगर आपको किसी प्रतियोगिता में फाइनल के लिए क्वालीफाई करने के लिए 5 मिनट से कम की आवश्यकता होती है। मुझे यकीन है कि न्यायाधीश इस तरह की दलीलें नहीं सुनाई देंगे "लेकिन यह क्वालीफाइंग समय के बाहर केवल 2 सेकंड था"

— संभाव्यताजन्य

5

कुछ विचार:

समय के वितरण को प्लॉट करें। मेरा अनुमान है कि वे सकारात्मक रूप से तिरछे होंगे, जैसे कि कुछ समाधान समय वास्तव में धीमा है। उस स्थिति में आप समाधान समय के लॉग या कुछ अन्य परिवर्तन पर विचार करना चाह सकते हैं।
X अक्ष और समाधान समय (या y- अक्ष पर लॉग समाधान समय) पर परीक्षण का एक बिखरा हुआ भूखंड बनाएं। इससे आपको डेटा की सहज समझ मिलनी चाहिए। यह "हॉट लकीर" के अलावा अन्य प्रकार के रुझानों को भी प्रकट कर सकता है।
विचार करें कि क्या समय के साथ सीखने का कोई प्रभाव पड़ता है। अधिकांश पहेलियों के साथ, आप अभ्यास के साथ जल्दी हो जाते हैं। प्लॉट को यह प्रकट करने में मदद करनी चाहिए कि क्या यह मामला है। इस तरह के एक प्रभाव "गर्म लकीर" प्रभाव के लिए अलग है। यह परीक्षणों के बीच सहसंबंध पैदा करेगा क्योंकि जब आप पहली बार सीख रहे हैं, तो धीमी गति से परीक्षण अन्य धीमी परीक्षणों के साथ सह-घटित होगा, और जैसा कि आप अधिक अनुभवी हैं, तेजी से परीक्षण तेजी से परीक्षणों के साथ सह-घटित होंगे।
"गर्म धारियाँ" की अपनी वैचारिक परिभाषा पर विचार करें। उदाहरण के लिए, क्या यह केवल उन परीक्षणों पर लागू होता है जो समय के साथ समीप होते हैं या क्रम की निकटता के बारे में होते हैं। कहते हैं कि आपने मंगलवार को जल्दी से क्यूब को हल किया, और फिर एक ब्रेक था और अगले शुक्रवार को आपने इसे जल्दी से हल किया। क्या यह एक गर्म लकीर है, या क्या यह केवल उसी दिन को गिनने पर ही होता है?
वहाँ अन्य प्रभाव है कि एक गर्म लकीर प्रभाव से अलग हो सकता है? उदाहरण के लिए, दिन का समय जो आप पहेली हल करते हैं (जैसे, थकान), वह डिग्री जिसके लिए आप वास्तव में कड़ी मेहनत कर रहे हैं? आदि।
एक बार वैकल्पिक व्यवस्थित प्रभावों को समझ लेने के बाद, आप एक मॉडल विकसित कर सकते हैं जिसमें उनमें से कई शामिल हैं। आप x- अक्ष पर y अक्ष और परीक्षण पर अवशिष्ट को प्लॉट कर सकते हैं। तब आप देख सकते हैं कि मॉडल में अवशिष्टों में ऑटो-सहसंबंध हैं या नहीं। यह ऑटो-सहसंबंध गर्म लकीरों के कुछ सबूत प्रदान करेगा। हालांकि, एक वैकल्पिक व्याख्या यह है कि कुछ अन्य व्यवस्थित प्रभाव हैं जिन्हें आपने बाहर नहीं किया है।

— जेरोमी एंग्लिम
स्रोत

व्यवस्थित भाग के लिए +1। मुझे लगता है कि इस मामले में यह प्रदर्शन में बदलाव का सबसे अच्छा विवरण है।

— एमपिकेटस

2

शोधकर्ताओं ने इस सवाल की जांच कैसे की है, यह देखना चाहते हैं। एक क्लासिक है गिलोविच, टी।, वालोन, आर। एंड टवेस्की, ए।, बास्केटबॉल में गर्म हाथ: यादृच्छिक दृश्यों की गलत धारणा पर। संज्ञानात्मक मनोविज्ञान 17, 295-314 (1985)।

— dmk38

2

अपनी प्रक्रिया के लिए correlogram की गणना करें। यदि आपकी प्रक्रिया गाऊसी है (आपके नमूने के अनुसार यह है) तो आप निम्न / ऊपरी सीमाएं (बी) स्थापित कर सकते हैं और जांच सकते हैं कि दिए गए अंतराल पर सहसंबंध महत्वपूर्ण हैं या नहीं। लैग 1 में सकारात्मक स्वसंबंध "भाग्य की लकीरों" के अस्तित्व का संकेत देगा।

2

सकारात्मक स्वसंरचना अन्य व्यवस्थित प्रभावों जैसे कि सीखने की प्रक्रिया से भी हो सकती है। मुझे लगता है कि "गर्म लकीर" के सबूत के रूप में ऑटो-सहसंबंध की व्याख्या करने से पहले इस तरह के प्रभावों को दूर करना महत्वपूर्ण है।

— जेरोमे एंग्लीम