यह प्रश्न रेमन स्निर के पहले के बारे में है कि शतरंज के खेल में विभिन्न प्रकार के टुकड़ों को कितनी बार स्थानांतरित किया जाता है। मेरा प्रश्न:

क्या दिए गए प्रकारों के टुकड़ों की सापेक्ष संख्याएँ अलग-अलग होती हैं जब कोई कमजोर खिलाड़ियों के खेल के विपरीत मजबूत खिलाड़ियों के खेल को देखता है? (उदाहरण के लिए, हो सकता है कि कमजोर खिलाड़ी टुकड़ा चाल की कीमत पर अधिक मोहरे बनाने के लिए करते हैं, या वे बहुत अधिक रानी चालें बनाते हैं। मुझे नहीं पता।)

मैं कच्चे डेटा का उपयोग करके पहले वाले प्रश्न का उत्तर देने में सक्षम था जिसे किसी अन्य व्यक्ति द्वारा एक बड़े डेटाबेस से निकाला गया था । यह डेटा 4M + गेम के एक नमूने से आया है, जो कि ग्रैंडमास्टर से लेकर कमजोर शौकिया खेल तक है, और चाल योग के लिए कुल संख्या जो वहां दिए गए हैं, खिलाड़ी की ताकत के आधार पर भेदभाव नहीं करते हैं। मेरे प्रश्न का उत्तर देने के लिए मजबूत खिलाड़ियों और कमजोर खिलाड़ियों के बीच खेल के लिए अलग-अलग डेटा प्राप्त करने की आवश्यकता होगी, और मैं उपाख्यानों के बजाय डेटा द्वारा समर्थित उत्तरों की तलाश कर रहा हूं ।

यहाँ मेरे प्रश्न का अधिक विशिष्ट रूप है:

क्या कुछ एलो रेटिंग थ्रेशोल्ड एन ऐसी है कि, जब कोई खेल में टुकड़ों की औसत संख्या को टुकड़ों के प्रकार से तोड़ता है, तो एन के ऊपर खिलाड़ियों की विशेषता वाले खेलों में क्या पाया जाता है, और किसी को गेम में क्या मिलता है, के बीच एक महत्वपूर्ण अंतर है। नीचे के खिलाड़ी

यह दिलचस्प होगा कि अगर इस तरह की चीज़ों को और अधिक पाया जा सकता है, यानी मजबूत और कमजोर खिलाड़ियों के बीच ठोस अंतर जिसे डेटा माइनिंग द्वारा पता लगाया जा सकता है। ऐसे निष्कर्ष विशिष्ट व्यवहारों की ओर इशारा कर सकते हैं जो खिलाड़ियों को वापस पकड़ते हैं, या इसके विपरीत उन्हें आगे बढ़ाते हैं। अब, शायद इस तरह के आंकड़ों को देखकर ऐसा कोई मतभेद नहीं होगा, लेकिन मैं यह जानना चाहूंगा।

learning statistics pieces

— ETD
स्रोत

मुझे इस तरह के एकत्रित डेटा के बारे में थोड़ा संदेह है, क्योंकि यह इस बिंदु को याद कर सकता है। कुछ खेल प्यादों को धक्का देकर टुकड़ों के साथ खेलने के द्वारा तय किए जाते हैं। एक टुकड़े की आवृत्ति चाल की गुणवत्ता के बारे में कुछ नहीं कहती है। अंगूठे का एक नियम है जो कहता है कि आपको उद्घाटन में अक्सर एक भी टुकड़ा नहीं हिलना चाहिए। हालांकि, मजबूत खिलाड़ी कभी-कभी इस रणनीति को अपनाते हैं, अगर यह स्थिति द्वारा उचित है।

— माइकल

@ मिचेल, मैं पूरी तरह से सहमत हूं कि मैं जिस कारक के बारे में पूछ रहा हूं वह अपने आप में अच्छा खेलने का संकेत नहीं होगा; यदि मैं अपने टुकड़े प्रकारों को एरोवियन के समान सापेक्ष आवृत्ति पर स्थानांतरित करता हूं, तो कहो, इसका मतलब यह नहीं है कि मैं उतना ही खेल रहा हूं जितना वह है। लेकिन ठीक यही कारण है कि ऊपर हो सकता है, कहते हैं, एलो 1800, इन रिश्तेदार आवृत्तियों में कोई भी पता लगाने योग्य अंतर नहीं है (हालांकि 1800 से ऊपर क्षमताओं की एक विशाल श्रृंखला है), जबकि 1800 से नीचे यह काफी तिरछा है। डेटा में यह पता लगाना एक खिलाड़ी के पीछे एक कारक का संकेत कर सकता है जो कि ताकत की सीमा से नीचे है।

— ETD

ध्यान रखें कि डेटा आपको यह दिखाने के लिए जा रहे हैं कि ग्रैंडमास्टर्स क्या करते हैं जब वे अन्य ग्रैंडमास्टर्स का सामना कर रहे हैं , और इसी तरह कम खिलाड़ियों के साथ। आदर्श रूप से आप तुलना करना चाहेंगे कि बेहतर और बदतर खिलाड़ी एक जैसे पदों पर क्या करते हैं , लेकिन यह संभव नहीं होगा कि वे उद्घाटन के अलावा डेटामाइनिंग के माध्यम से संभव हो।

— इवान हार्पर

@ ईडीन - यह काफी दिलचस्प विषय है। किसी भी विचार जहां वास्तव में वह 4M + खेल मिला? क्या कोई ऐसा स्थान है जहां हम एक प्रतिष्ठित लेकिन मुक्त स्रोत से महत्वपूर्ण आकार (जैसे, 100K + गेम) प्राप्त कर सकते हैं? मैं विशेष रूप से आसानी से डाउनलोड करने योग्य स्रोत के बारे में सोच रहा हूं, "ऑनलाइन खोज योग्य" के विपरीत।

— डैनियल बी

बस फॉलो करने के लिए, विकिपीडिया के शतरंज गेम कलेक्शन पर अच्छा पेज है । इनमें से, पहला लिंक अब तक सबसे अधिक आशाजनक (डाउनलोड करने के लिए ज़िप्ड पीजीएन की अपेक्षाकृत कम संख्या) लग रहा था, लेकिन बड़े खंड गायब हैं (ईसीओ कोड बी से ई), जो विश्लेषण को एक तरफा और काफी बेकार बना देगा।

— डैनियल बी

यहां "मिलियन बेस" पीजीएन डेटाबेस पर आधारित एक त्वरित गंदा विश्लेषण है। मैंने थोड़ी हड़बड़ी में ऐसा किया, इसलिए मेरी प्रोग्रामिंग या तर्क में गलतियाँ हो सकती हैं। कृपया इसे किसी भी गंभीर चीज़ के लिए उपयोग न करें। अद्यतन - नोट: वास्तव में, मैंने अभी देखा है कि मैंने डेटा सेट में गलती की है, और इसे पहले 1 मिलियन रिकॉर्ड तक सीमित कर दिया है। जब मुझे पूरी तरह से इसे फिर से चलाने के लिए कुछ खाली समय मिलेगा तो मैं एक अपडेट पोस्ट करूँगा। इस बीच, ये संख्या दिलचस्प होनी चाहिए, फिर भी।

डेटा प्राप्त करना:

मैंने इस URL से मिलियन बेस 1.74 फ़ाइल प्राप्त की , क्योंकि शीर्ष-5000.nl साइट 404 लगती है, जब आप वास्तव में इसे डाउनलोड करने का प्रयास करते हैं। फ़ाइल में PGN निर्यात प्रारूप में केवल 1 मिलियन से अधिक गेम शामिल हैं (जो कहना आसान है, पार्स करना आसान है)।

दुर्भाग्य से, 60% से अधिक खेलों में किसी भी रेटिंग की जानकारी का अभाव था (मैं "व्हाइटेलो" और "ब्लैकेलो" टैग की तलाश में था), और दोनों खिलाड़ियों के लिए रेटिंग भी कम थी। अंत में, मैंने एक बड़ा नमूना आकार प्राप्त करने का निर्णय लिया, जितना कि मैं कर सकता था, और किसी खिलाड़ी की चाल को गिना जाए, यदि उसकी रेटिंग अन्य खिलाड़ी की रेटिंग की परवाह किए बिना जानी जाती थी।

प्रक्रिया:

खेलों को एक-एक करके पार्स किया गया था, और अगर किसी खिलाड़ी की रेटिंग ज्ञात थी, तो उस गेम के लिए उनके सभी मूव्स खिलाड़ी के रेटिंग समूह के लिए कुल में जोड़े जाएंगे। मैंने रेटिंग्स को 100 के समूहों में विभाजित करना चुना, इसलिए 1600 से 1699 एकल समूह था।

चूंकि पीजीएन में वास्तविक मूवमेंट सैन है, इसलिए मैंने चालें गिनने के लिए निम्न शॉर्टकट का उपयोग किया: नाइट (एन), बिशप (बी), रूक (आर), क्वीन (क्यू) और किंग (के) चालें सभी अपने पत्र के साथ शुरू होती हैं । Castling (OO और OOO) को एक विशेष मामले के रूप में अलग से गिना जाता था। सभी शेष चालों को आगे की परीक्षा के बिना प्यादा चाल के रूप में गिना गया।

कोई डेटा क्लीनअप नहीं किया गया था। बाहरी लोगों की पहचान करने और उन्हें हटाने का कोई प्रयास नहीं किया गया था (उदाहरण के लिए बहुत कम और लंबे खेल, आदि)। मैंने रखा, लेकिन निम्नलिखित विश्लेषण में शामिल नहीं किया, 1600 से नीचे की रेटिंग के परिणाम - इन खेलों के लिए नमूना आकार 100 से नीचे था, जिसके परिणामस्वरूप परिणामों में बड़े बदलाव हुए। इस पोस्ट के अंत में कच्चा डेटा दिया गया है।

जानकारी की कुछ कमियाँ: फिलहाल, मैंने केवल बहुत ही मूल योग एकत्र किए हैं, और औसत प्रदान किए हैं। मुझे पूरा यकीन है कि सामान्य रूप से, डेटा सामान्य रूप से वितरित नहीं किया जाता है, लेकिन वास्तव में कच्ची गणनाओं को आउटपुट करने और उन्हें सांख्यिकीय कार्यक्रम के माध्यम से चलाने के बिना अधिक कहने में सक्षम नहीं होगा। अगर दिलचस्पी है तो मैं ऐसा कर सकता हूं। फिलहाल, इसका मतलब है कि कोई आत्मविश्वास अंतराल, या उन संख्याओं के वितरण के बारे में अन्य जानकारी जो उन औसत का प्रतिनिधित्व करते हैं। मैंने यह भी नहीं जांचा है कि डेटा सेट कितने वर्षों तक फैला है - यदि यह कई वर्षों का प्रतिनिधित्व करता है, तो यह क्षेत्र की समग्र ताकत के लिए सही करने का प्रयास करने के लिए फायदेमंद हो सकता है।

कुछ रुझान:

खिलाड़ी रेटिंग पर एक शब्द - सबसे अधिक रेटिंग वाले समूहों का सामना करना पड़ा, क्रम में: 2400 से 2500, 2500 से 2600 और 2300 से 2400। इन रेटिंग समूहों ने 72% खेलों की गिनती की।

वास्तविक परिणामों को देखते हुए, औसत खेल की लंबाई एक आश्चर्य की बात थी:

रेटिंग समूह द्वारा चालों की औसत संख्या

2000 के बाद के सभी रेटिंग समूहों में उच्च समूहों की तुलना में काफी कम गेम थे। यह अच्छी तरह से इस संभावना से समझाया जा सकता है कि वे मजबूत विरोधियों (औसत रेटिंग, ऊपर देखें) खेल रहे थे, और यह कि वे कम चालों में हार गए थे। यह शीर्ष रेटिंग समूह द्वारा खेले जाने वाले थोड़े छोटे खेलों के खिलाफ जाता है, हालांकि छोटे नमूना आकार में इसका योगदान हो सकता है।

औसत खेल की लंबाई में अपेक्षाकृत बड़े अंतर का मतलब था कि एक टुकड़ा ले जाने की कुल संख्या के बजाय एक निश्चित टुकड़े को स्थानांतरित करने की आवृत्ति प्रदान करना, शायद अधिक उचित तुलना है। निम्न ग्राफ में आवृत्तियों की गणना के परिणाम:

टुकड़ा द्वारा आवृत्तियों को स्थानांतरित करें

निम्नलिखित रुझान मौजूद प्रतीत होते हैं:

नाइट मूव्स की आवृत्ति रेटिंग के साथ थोड़ा नीचे की ओर लगती है।
बिशप लगभग 2000 तक नीचे की ओर बढ़ता है, फिर धीरे-धीरे ऊपर की ओर बढ़ता है।
रूक ने लगभग उसी बिंदु पर तेजी से ऊपर की ओर रुख किया, और उच्च-स्तरीय नाटक में बिशप चालों की तुलना में अधिक लगातार रहता है।
बढ़ी हुई रेटिंग के साथ प्यादा चालें थोड़ा नीचे की ओर जाती हैं। एक बड़ा अपवाद शीर्ष श्रेणी है, 2800 से 2900। यह हमें अगले बिंदु पर लाता है:
शीर्ष रेटिंग श्रेणी काफी संख्या में माप में आउटलेयर या काउंटर-ट्रेंड प्रदान करती है। इसे कई तरीकों से समझाया जा सकता है - 1) नमूना का आकार 363 पर काफी कम है, न कि छोटे से, बल्कि अगले सबसे छोटे नमूने के आकार का 10% शामिल है। 2) चूंकि वे रेटिंग समूहों में सबसे ऊपर हैं, इसलिए वे कभी भी अपने से अधिक "मजबूत" विरोधियों को नहीं खेलते हैं। 3) या बस इस स्तर पर, उनकी खेल शैली ने उनके नीचे के स्तरों को पार कर लिया है। मेरा अनुमान 1) और 2) का संयोजन होगा।
रानी चाल और कास्टल चाल में अंतर किसी भी वास्तविक रुझान के बिना बहुत छोटा है, दोनों मामलों में नीचे की ओर एक छोटी प्रवृत्ति के अलावा।
राजा चालों की आवृत्ति में कुछ सबसे बड़े अंतर हैं। कोई स्पष्ट प्रवृत्ति दिखाई नहीं देती है, और यह 3 या 4 बार दिशा बदलने लगती है।

आगे के विश्लेषण

भविष्य के विश्लेषण के लिए कुछ विचार:

बुनियादी सांख्यिकीय सुधार: मुझे लगता है कि बेहद छोटे और लंबे खेल को शायद बाहर रखा जाना चाहिए। इसके अलावा, वास्तविक गणना का वितरण बहुत कुछ कह सकता है।
विश्लेषण को आगे विभाजित करने से दिलचस्प परिणाम भी मिल सकते हैं। उदाहरण के लिए, मुझे यह जानने में दिलचस्पी होगी कि ब्लैक एंड व्हाइट के लिए आवृत्तियों का मिलान कैसे होता है (क्या वे समान हैं, या उच्च क्यों?)।
रेटिंग में अंतर से वर्गीकरण भी दिलचस्प हो सकता है, क्या खिलाड़ी अधिक मजबूत प्रतिद्वंद्वी (उनके ऊपर 200 रेटिंग) खेलने वाले खिलाड़ी अलग-अलग आवृत्तियों के साथ खेलते हैं? दुर्भाग्य से इसके लिए दोनों खिलाड़ियों के ईएलओ की आवश्यकता होती है, जो इस डेटा सेट में दुर्लभ है।
कम बनाम लंबी-महल की प्रवृत्ति भी रेटिंग के आधार पर भिन्न हो सकती है।
टुकड़ा संवर्धन के आँकड़े, कुछ हल्के संरचनात्मक विश्लेषण (उदाहरण के लिए, दोगुने प्यादे, एन पसेंट, पिंस, कांटे, रेटिंग द्वारा दिखाए गए) की घटना आनंददायक हो सकती है।
रेटिंग द्वारा दिखाए गए वास्तविक बोर्ड पर टुकड़ा प्लेसमेंट के "हीट-मैप्स" भी काफी इंटरस्टिंग हो सकते हैं।

CSV प्रारूप में डेटा एकत्र करना

उन लोगों के लिए जो डेटा के साथ खेलना चाहते हैं, स्वतंत्र महसूस करते हैं।

रेटिंग रेंज, नमूना आकार, औसत गेम की लंबाई, औसत पॉन मूव्स, औसत नाइट मूव्स, औसत बिशप मूव्स, औसत रूक मूव्स, औसत क्वीन मूव्स, औसत किंग मूव्स, औसत कास्टलिंग

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857

— डैनियल बी
स्रोत

अच्छा! यहां नंबर चलाने के लिए धन्यवाद। वैसे, अगर आपको लगता है कि आपके "आगे के विश्लेषण" अनुभाग में कोई भी विचार पूछा गया है, तो कृपया ऐसा करने में संकोच न करें।

— ETD

@EDDean धन्यवाद, और समय आने पर मैं शायद कुछ और विश्लेषण करूंगा। मैंने कुछ और सुधार भी देखे हैं जो किए जा सकते हैं (जैसे ब्लिट्ज और एक साथ गेम को फ़िल्टर करना, और संभवतः अन्य), इसलिए यह शायद थोड़ा सा काम करने वाला है। जब मेरे पास कुछ होगा तो मैं एक अपडेट बनाऊंगा।

— डैनियल बी

वाह। यह काफी जवाब था। बहुत खुबस।

— जेम्स टॉमसिनो

मुझे आश्चर्य नहीं होगा, अगर कहें, मजबूत खिलाड़ियों के बीच बदमाशों की बढ़ती संख्या का मतलब है कि वे लंबे समय तक चलने वाले अंत में समाप्त होने की अधिक संभावना रखते हैं, बजाय इसके कि वे इसी तरह के पदों पर अधिक बार बदमाशों को स्थानांतरित करते हैं।

— dfan

@ मैं सहमत हूं, इन संख्याओं को विभिन्न 2-ऑर्डर प्रभावों के साथ अधिक करना पड़ सकता है, उदाहरण के लिए कम रेटेड खिलाड़ियों को जल्दी से जल्दी और लंबे एंडगेम में नहीं मिल रहा है, आदि। मेरे पास विभिन्न विचार हैं कि इसे कैसे अधिक सटीक बनाया जा सकता है, लेकिन दुर्भाग्य से उन्हें लागू करने का समय नहीं है।

— डैनियल बी

क्या मजबूत खिलाड़ी कमजोर खिलाड़ियों की तुलना में विभिन्न सापेक्ष आवृत्तियों के साथ अपने टुकड़े हिलाते हैं?

डेटा प्राप्त करना:

प्रक्रिया:

कुछ रुझान:

आगे के विश्लेषण

CSV प्रारूप में डेटा एकत्र करना