यहां "मिलियन बेस" पीजीएन डेटाबेस पर आधारित एक त्वरित गंदा विश्लेषण है। मैंने थोड़ी हड़बड़ी में ऐसा किया, इसलिए मेरी प्रोग्रामिंग या तर्क में गलतियाँ हो सकती हैं। कृपया इसे किसी भी गंभीर चीज़ के लिए उपयोग न करें। अद्यतन - नोट: वास्तव में, मैंने अभी देखा है कि मैंने डेटा सेट में गलती की है, और इसे पहले 1 मिलियन रिकॉर्ड तक सीमित कर दिया है। जब मुझे पूरी तरह से इसे फिर से चलाने के लिए कुछ खाली समय मिलेगा तो मैं एक अपडेट पोस्ट करूँगा। इस बीच, ये संख्या दिलचस्प होनी चाहिए, फिर भी।
डेटा प्राप्त करना:
मैंने इस URL से मिलियन बेस 1.74 फ़ाइल प्राप्त की , क्योंकि शीर्ष-5000.nl साइट 404 लगती है, जब आप वास्तव में इसे डाउनलोड करने का प्रयास करते हैं। फ़ाइल में PGN निर्यात प्रारूप में केवल 1 मिलियन से अधिक गेम शामिल हैं (जो कहना आसान है, पार्स करना आसान है)।
दुर्भाग्य से, 60% से अधिक खेलों में किसी भी रेटिंग की जानकारी का अभाव था (मैं "व्हाइटेलो" और "ब्लैकेलो" टैग की तलाश में था), और दोनों खिलाड़ियों के लिए रेटिंग भी कम थी। अंत में, मैंने एक बड़ा नमूना आकार प्राप्त करने का निर्णय लिया, जितना कि मैं कर सकता था, और किसी खिलाड़ी की चाल को गिना जाए, यदि उसकी रेटिंग अन्य खिलाड़ी की रेटिंग की परवाह किए बिना जानी जाती थी।
प्रक्रिया:
खेलों को एक-एक करके पार्स किया गया था, और अगर किसी खिलाड़ी की रेटिंग ज्ञात थी, तो उस गेम के लिए उनके सभी मूव्स खिलाड़ी के रेटिंग समूह के लिए कुल में जोड़े जाएंगे। मैंने रेटिंग्स को 100 के समूहों में विभाजित करना चुना, इसलिए 1600 से 1699 एकल समूह था।
चूंकि पीजीएन में वास्तविक मूवमेंट सैन है, इसलिए मैंने चालें गिनने के लिए निम्न शॉर्टकट का उपयोग किया: नाइट (एन), बिशप (बी), रूक (आर), क्वीन (क्यू) और किंग (के) चालें सभी अपने पत्र के साथ शुरू होती हैं । Castling (OO और OOO) को एक विशेष मामले के रूप में अलग से गिना जाता था। सभी शेष चालों को आगे की परीक्षा के बिना प्यादा चाल के रूप में गिना गया।
कोई डेटा क्लीनअप नहीं किया गया था। बाहरी लोगों की पहचान करने और उन्हें हटाने का कोई प्रयास नहीं किया गया था (उदाहरण के लिए बहुत कम और लंबे खेल, आदि)। मैंने रखा, लेकिन निम्नलिखित विश्लेषण में शामिल नहीं किया, 1600 से नीचे की रेटिंग के परिणाम - इन खेलों के लिए नमूना आकार 100 से नीचे था, जिसके परिणामस्वरूप परिणामों में बड़े बदलाव हुए। इस पोस्ट के अंत में कच्चा डेटा दिया गया है।
जानकारी की कुछ कमियाँ: फिलहाल, मैंने केवल बहुत ही मूल योग एकत्र किए हैं, और औसत प्रदान किए हैं। मुझे पूरा यकीन है कि सामान्य रूप से, डेटा सामान्य रूप से वितरित नहीं किया जाता है, लेकिन वास्तव में कच्ची गणनाओं को आउटपुट करने और उन्हें सांख्यिकीय कार्यक्रम के माध्यम से चलाने के बिना अधिक कहने में सक्षम नहीं होगा। अगर दिलचस्पी है तो मैं ऐसा कर सकता हूं। फिलहाल, इसका मतलब है कि कोई आत्मविश्वास अंतराल, या उन संख्याओं के वितरण के बारे में अन्य जानकारी जो उन औसत का प्रतिनिधित्व करते हैं। मैंने यह भी नहीं जांचा है कि डेटा सेट कितने वर्षों तक फैला है - यदि यह कई वर्षों का प्रतिनिधित्व करता है, तो यह क्षेत्र की समग्र ताकत के लिए सही करने का प्रयास करने के लिए फायदेमंद हो सकता है।
कुछ रुझान:
खिलाड़ी रेटिंग पर एक शब्द - सबसे अधिक रेटिंग वाले समूहों का सामना करना पड़ा, क्रम में: 2400 से 2500, 2500 से 2600 और 2300 से 2400। इन रेटिंग समूहों ने 72% खेलों की गिनती की।
वास्तविक परिणामों को देखते हुए, औसत खेल की लंबाई एक आश्चर्य की बात थी:
2000 के बाद के सभी रेटिंग समूहों में उच्च समूहों की तुलना में काफी कम गेम थे। यह अच्छी तरह से इस संभावना से समझाया जा सकता है कि वे मजबूत विरोधियों (औसत रेटिंग, ऊपर देखें) खेल रहे थे, और यह कि वे कम चालों में हार गए थे। यह शीर्ष रेटिंग समूह द्वारा खेले जाने वाले थोड़े छोटे खेलों के खिलाफ जाता है, हालांकि छोटे नमूना आकार में इसका योगदान हो सकता है।
औसत खेल की लंबाई में अपेक्षाकृत बड़े अंतर का मतलब था कि एक टुकड़ा ले जाने की कुल संख्या के बजाय एक निश्चित टुकड़े को स्थानांतरित करने की आवृत्ति प्रदान करना, शायद अधिक उचित तुलना है। निम्न ग्राफ में आवृत्तियों की गणना के परिणाम:
निम्नलिखित रुझान मौजूद प्रतीत होते हैं:
- नाइट मूव्स की आवृत्ति रेटिंग के साथ थोड़ा नीचे की ओर लगती है।
- बिशप लगभग 2000 तक नीचे की ओर बढ़ता है, फिर धीरे-धीरे ऊपर की ओर बढ़ता है।
- रूक ने लगभग उसी बिंदु पर तेजी से ऊपर की ओर रुख किया, और उच्च-स्तरीय नाटक में बिशप चालों की तुलना में अधिक लगातार रहता है।
- बढ़ी हुई रेटिंग के साथ प्यादा चालें थोड़ा नीचे की ओर जाती हैं। एक बड़ा अपवाद शीर्ष श्रेणी है, 2800 से 2900। यह हमें अगले बिंदु पर लाता है:
- शीर्ष रेटिंग श्रेणी काफी संख्या में माप में आउटलेयर या काउंटर-ट्रेंड प्रदान करती है। इसे कई तरीकों से समझाया जा सकता है - 1) नमूना का आकार 363 पर काफी कम है, न कि छोटे से, बल्कि अगले सबसे छोटे नमूने के आकार का 10% शामिल है। 2) चूंकि वे रेटिंग समूहों में सबसे ऊपर हैं, इसलिए वे कभी भी अपने से अधिक "मजबूत" विरोधियों को नहीं खेलते हैं। 3) या बस इस स्तर पर, उनकी खेल शैली ने उनके नीचे के स्तरों को पार कर लिया है। मेरा अनुमान 1) और 2) का संयोजन होगा।
- रानी चाल और कास्टल चाल में अंतर किसी भी वास्तविक रुझान के बिना बहुत छोटा है, दोनों मामलों में नीचे की ओर एक छोटी प्रवृत्ति के अलावा।
- राजा चालों की आवृत्ति में कुछ सबसे बड़े अंतर हैं। कोई स्पष्ट प्रवृत्ति दिखाई नहीं देती है, और यह 3 या 4 बार दिशा बदलने लगती है।
आगे के विश्लेषण
भविष्य के विश्लेषण के लिए कुछ विचार:
- बुनियादी सांख्यिकीय सुधार: मुझे लगता है कि बेहद छोटे और लंबे खेल को शायद बाहर रखा जाना चाहिए। इसके अलावा, वास्तविक गणना का वितरण बहुत कुछ कह सकता है।
- विश्लेषण को आगे विभाजित करने से दिलचस्प परिणाम भी मिल सकते हैं। उदाहरण के लिए, मुझे यह जानने में दिलचस्पी होगी कि ब्लैक एंड व्हाइट के लिए आवृत्तियों का मिलान कैसे होता है (क्या वे समान हैं, या उच्च क्यों?)।
- रेटिंग में अंतर से वर्गीकरण भी दिलचस्प हो सकता है, क्या खिलाड़ी अधिक मजबूत प्रतिद्वंद्वी (उनके ऊपर 200 रेटिंग) खेलने वाले खिलाड़ी अलग-अलग आवृत्तियों के साथ खेलते हैं? दुर्भाग्य से इसके लिए दोनों खिलाड़ियों के ईएलओ की आवश्यकता होती है, जो इस डेटा सेट में दुर्लभ है।
- कम बनाम लंबी-महल की प्रवृत्ति भी रेटिंग के आधार पर भिन्न हो सकती है।
- टुकड़ा संवर्धन के आँकड़े, कुछ हल्के संरचनात्मक विश्लेषण (उदाहरण के लिए, दोगुने प्यादे, एन पसेंट, पिंस, कांटे, रेटिंग द्वारा दिखाए गए) की घटना आनंददायक हो सकती है।
- रेटिंग द्वारा दिखाए गए वास्तविक बोर्ड पर टुकड़ा प्लेसमेंट के "हीट-मैप्स" भी काफी इंटरस्टिंग हो सकते हैं।
CSV प्रारूप में डेटा एकत्र करना
उन लोगों के लिए जो डेटा के साथ खेलना चाहते हैं, स्वतंत्र महसूस करते हैं।
रेटिंग रेंज, नमूना आकार, औसत गेम की लंबाई, औसत पॉन मूव्स, औसत नाइट मूव्स, औसत बिशप मूव्स, औसत रूक मूव्स, औसत क्वीन मूव्स, औसत किंग मूव्स, औसत कास्टलिंग
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857