यह कैसे साबित करें कि एलो रेटिंग या पेज रैंकिंग मेरे सेट के लिए एक अर्थ है?


13

मेरे पास खिलाड़ियों का एक सेट है। वे एक दूसरे के खिलाफ (जोड़ीदार) खेलते हैं। खिलाड़ियों के जोड़े बेतरतीब ढंग से चुने जाते हैं। किसी भी खेल में, एक खिलाड़ी जीतता है और दूसरा हारता है। खिलाड़ी एक दूसरे के साथ सीमित संख्या में खेल खेलते हैं (कुछ खिलाड़ी अधिक खेल खेलते हैं, कुछ कम)। इसलिए, मेरे पास डेटा है (कौन किसके खिलाफ और कितनी बार जीता है)। अब मैं मानता हूं कि प्रत्येक खिलाड़ी के पास एक रैंकिंग होती है जो जीतने की संभावना निर्धारित करती है।

मैं जांचना चाहता हूं कि क्या यह धारणा वास्तव में सत्य है। बेशक, मैं हर खिलाड़ी के लिए गणना रेटिंग के लिए एलो रेटिंग प्रणाली या पेजरैंक एल्गोरिथ्म का उपयोग कर सकता हूं । लेकिन रेटिंग की गणना करके मैं यह साबित नहीं करता कि वे (रेटिंग) वास्तव में मौजूद हैं या उनका मतलब कुछ भी है।

दूसरे शब्दों में, मैं साबित करना चाहता हूं (या जांचना) कि खिलाड़ियों के पास अलग-अलग ताकत है। मैं यह कैसे कर सकता हूं?

जोड़ा

अधिक विशिष्ट होने के लिए, मेरे पास 8 खिलाड़ी हैं और केवल 18 गेम हैं। इसलिए, बहुत सारे ऐसे खिलाड़ी हैं जो एक-दूसरे के खिलाफ नहीं खेले और बहुत सारे ऐसे जोड़े हैं जो केवल एक-दूसरे के साथ खेलते हैं। परिणामस्वरूप, मैं खिलाड़ियों की जोड़ी के लिए जीत की संभावना का अनुमान नहीं लगा सकता। मैं यह भी देखता हूं, उदाहरण के लिए, एक खिलाड़ी है जिसने 6 खेलों में 6 बार जीता है। लेकिन शायद यह महज एक संयोग है।


क्या आप अशक्त परिकल्पना का परीक्षण करना चाहते हैं कि सभी खिलाड़ियों के पास एक ही ताकत है, या खिलाड़ी ताकत के एक मॉडल के फिट की जांच करें?
OneStop

@onestop: एक ही ताकत वाले सभी खिलाड़ी बहुत ही अनुचित होंगे, है ना? आप इसे परिकल्पना के रूप में क्यों सुझाते हैं?
एंडोलिथ

जवाबों:


10

आपको एक संभावना मॉडल की आवश्यकता है।

एक रैंकिंग प्रणाली के पीछे विचार यह है कि एक एकल संख्या एक खिलाड़ी की क्षमता को पर्याप्त रूप से चिह्नित करती है। हम इस संख्या को उनकी "ताकत" कह सकते हैं (क्योंकि "रैंक" पहले से ही आंकड़ों में कुछ विशिष्ट है)। हम भविष्यवाणी करेंगे कि खिलाड़ी A खिलाड़ी B को हरा देगा जब ताकत (A) शक्ति (B) से अधिक हो जाएगी। लेकिन यह कथन बहुत कमजोर है क्योंकि (ए) यह मात्रात्मक नहीं है और (बी) यह कमजोर खिलाड़ी की संभावना के लिए जिम्मेदार नहीं होता है जो कभी-कभी एक मजबूत खिलाड़ी को हरा देता है। हम संभावना को मानकर दोनों समस्याओं को दूर कर सकते हैं कि ए बी बी उनकी ताकत में अंतर पर निर्भर करता है। यदि ऐसा है, तो हम फिर से व्यक्त कर सकते हैं सभी ताकत आवश्यक है ताकि ताकत में अंतर एक जीत के लॉग बाधाओं के बराबर हो।

विशेष रूप से, यह मॉडल है

logit(Pr(A beats B))=λAλB

जहां, परिभाषा के अनुसार, लॉग ऑड्स है और मैंने खिलाड़ी A की ताकत, आदि के लिए लिखा है ।logit(p)=log(p)log(1p)λA

इस मॉडल में खिलाड़ियों के रूप में कई पैरामीटर हैं (लेकिन स्वतंत्रता की एक कम डिग्री है, क्योंकि यह केवल सापेक्ष शक्तियों की पहचान कर सकता है , इसलिए हम एक पैरामीटर को एक मनमाना मूल्य पर तय करेंगे)। यह एक तरह का सामान्यीकृत रैखिक मॉडल है (द्विपद परिवार में, लॉगजीआई लिंक के साथ)।

मापदंडों का अनुमान अधिकतम संभावना द्वारा लगाया जा सकता है । एक ही सिद्धांत पैरामीटर अनुमानों के आसपास आत्मविश्वास अंतराल को खड़ा करने और परिकल्पनाओं का परीक्षण करने के लिए एक साधन प्रदान करता है (जैसे अनुमान के अनुसार सबसे मजबूत खिलाड़ी, अनुमानित कमजोर खिलाड़ी की तुलना में काफी मजबूत है)।

विशेष रूप से, खेल के एक सेट की संभावना उत्पाद है

all gamesexp(λwinnerλloser)1+exp(λwinnerλloser).

से किसी एक के मान को ठीक करने के बाद , दूसरों के अनुमान ऐसे मान हैं जो इस संभावना को अधिकतम करते हैं। इस प्रकार, किसी भी अनुमान को अलग करने से इसकी अधिकतम संभावना कम हो जाती है। यदि यह बहुत कम हो गया है, तो यह डेटा के अनुरूप नहीं है। इस फैशन में हम सभी मापदंडों के लिए आत्मविश्वास अंतराल पा सकते हैं: वे सीमाएं हैं जिनमें अनुमानों को अलग-अलग करने से लॉग संभावना की कमी नहीं होती है। सामान्य परिकल्पनाओं का इसी प्रकार परीक्षण किया जा सकता है: एक परिकल्पना शक्ति को संकुचित करती है (जैसे कि वे सभी समान हैं), यह बाधा इस बात को सीमित करती है कि संभावना कितनी बड़ी हो सकती है, और यदि यह प्रतिबंधित अधिकतम वास्तविक अधिकतम से बहुत कम हो जाती है, तो परिकल्पना है अस्वीकृत।λ


इस विशेष समस्या में 18 गेम और 7 मुफ्त पैरामीटर हैं। सामान्य तौर पर यह बहुत अधिक पैरामीटर है: इसमें इतना लचीलापन है कि अधिकतम संभावना को बदले बिना पैरामीटर काफी स्वतंत्र रूप से भिन्न हो सकते हैं। इस प्रकार, एमएल मशीनरी लगाने से स्पष्ट साबित होने की संभावना है, जो यह है कि संभावना नहीं है कि ताकत के अनुमानों में आत्मविश्वास होने के लिए पर्याप्त डेटा हो।


2
(+1) इस मॉडल पर अतिरिक्त खोज के साथ ओपी की मदद करने के लिए, यहां कुछ अतिरिक्त बिंदु दिए गए हैं। (1) इस मॉडल को अक्सर ब्रैडले-टेरी मॉडल कहा जाता है (हालांकि यह जर्मेलो के कम से कम कुछ काम पर वापस चला जाता है)। (2) दे , की भविष्यवाणी की संभावना पिटाई है । (3) यदि एक पूर्ण राउंड-रॉबिन टूर्नामेंट खेला जाता है (जो कि यहां मामला नहीं है), तो ताकत की रैंकिंग प्रत्येक खिलाड़ी के जीतने के प्रतिशत के साथ मेल खाएगी। (4) अच्छाई-से-फिट खिलाड़ियों के साथ ग्राफ के साथ बहने से संबंधित है और किनारों के रूप में खेल। sA=exp(λA)ABsA/(sA+sB)
कार्डिनल

(प्रतियोगिता।) लेस्टर आर। फोर्ड, जूनियर ने एक आमेर में इस विचार के आधार पर एक फिटिंग एल्गोरिथ्म पर चर्चा करते हुए एक लेख भी दिया है 1957 का मैथ मंथली पीस उनके पिता के सम्मान में लिखा गया।
कार्डिनल

4

यदि आप अशक्त परिकल्पना का परीक्षण करना चाहते हैं कि प्रत्येक खिलाड़ी को प्रत्येक खेल को जीतने या खोने की समान रूप से संभावना है, तो मुझे लगता है कि आप हारने वालों के खिलाफ विजेताओं द्वारा बनाई गई आकस्मिक तालिका की समरूपता का परीक्षण चाहते हैं ।

डेटा सेट करें ताकि आपके पास दो चर हों, 'विजेता' और 'हारे' जिसमें विजेता की आईडी हो और प्रत्येक खेल के लिए हारे हुए, अर्थात प्रत्येक 'अवलोकन' एक खेल है। फिर आप विजेता बनाम हारने की एक आकस्मिक तालिका का निर्माण कर सकते हैं। आपकी अशक्त परिकल्पना यह है कि आप उम्मीद करेंगे कि यह तालिका सममित हो (औसतन बार-बार होने वाले टूर्नामेंट में)। आपके मामले में, आपको एक 8 × 8 तालिका मिलेगी जहां अधिकांश प्रविष्टियां शून्य हैं (खिलाड़ियों के अनुरूप जो कभी नहीं मिले), अर्थात। तालिका बहुत विरल होगी , इसलिए एक 'सटीक' परीक्षण लगभग निश्चित रूप से आवश्यक होगा बजाय कि एसिम्पोटिक्स पर भरोसा करने के लिए।

ऐसा सटीक परीक्षण समता कमांड के साथ स्टाटा में उपलब्ध है । इस मामले में, वाक्यविन्यास होगा:

symmetry winner loser, exact

इसमें कोई संदेह नहीं है कि यह अन्य आँकड़ों के पैकेजों में भी लागू होता है जिनसे मैं कम परिचित हूँ।


(+1) यह मज़ेदार है, मुझे अभी पता चला है कि इस स्टैटा कमांड का उपयोग आनुवांशिकी में संचरण / असमानता परीक्षण के लिए किया जा सकता है :) मैंने आर पैकेजों की चर्चा पहले की प्रतिक्रिया में की थी
chl

दरअसल, टीडीटी एक ऐसा अनुप्रयोग है जिसकी चर्चा ऊपर दी गई स्टैटा मदद में की गई है। यह भी संदर्भ है जिसमें मैं पहली बार इस परीक्षा में आया था। उस पिछले क्यू के लिंक के लिए धन्यवाद - ऐसा लगता है कि जब मैं पोस्ट किया गया था तो मैं अन्य क्यू के साथ व्यस्त था।
OneStop

यद्यपि यह प्रश्न परिकल्पना परीक्षण का उल्लेख करता है, लेकिन जोर का अपना विकल्प फिट प्रश्न की अच्छाई पर है: क्या एकल संख्यात्मक (स्केलर) ताकत खिलाड़ियों के बीच मैचों के परिणामों को प्रभावी ढंग से दर्शाती है?
whuber

1

क्या आपने मार्क ग्लिकमैन के कुछ प्रकाशनों की जाँच की है? वे प्रासंगिक लगते हैं। http://www.glicko.net/

रेटिंग के मानक विचलन में निहित एक खेल का अपेक्षित मूल्य है। (यह मानक विचलन बुनियादी एलो में एक विशिष्ट संख्या में तय किया गया है, और ग्लिको सिस्टम में चर)। मैं कहता हूं कि ड्रॉ के कारण जीत की संभावना के बजाय अपेक्षित मूल्य। आपके पास जो भी एलो रेटिंग है, उसके बारे में समझने के लिए महत्वपूर्ण बातें अंतर्निहित वितरण धारणा है (सामान्य या तार्किक, उदाहरण के लिए) और मानक विचलन।

एलो फॉर्मूले के लॉजिस्टिक वर्जन से पता चलता है कि 110 अंकों के रेटिंग अंतर का अपेक्षित मूल्य .653 है, उदाहरण के लिए खिलाड़ी A 1330 के साथ और खिलाड़ी B 1220 के साथ।

http://en.wikipedia.org/wiki/Elo_rating_system (ठीक है, यह एक विकिपीडिया संदर्भ है लेकिन मैंने पहले ही इस उत्तर पर बहुत अधिक समय व्यतीत कर दिया है।)

इसलिए अब हमारे पास प्रत्येक खिलाड़ी की रेटिंग के आधार पर प्रत्येक खेल के लिए एक अपेक्षित मूल्य है, और खेल के आधार पर एक परिणाम है।

इस बिंदु पर, अगली चीज जो मैं करूंगा, वह यह होगा कि कम से उच्च तक अंतराल की व्यवस्था करके, और अपेक्षित और वास्तविक परिणामों को पूरा करके इसे रेखांकन से देखें। तो, पहले 5 खेलों के लिए हमारे पास 2 के कुल अंक और 1.5 के अपेक्षित अंक हो सकते हैं। पहले 10 खेलों के लिए, हमारे पास कुल अंक 8 और अपेक्षित अंक 8.8 आदि हो सकते हैं।

इन दो पंक्तियों को संचयी रूप से रेखांकन करके (जैसा कि आप कोलमोगोरोव-स्मिर्नोव परीक्षण के लिए करेंगे) आप देख सकते हैं कि अपेक्षित और वास्तविक संचयी मूल्य एक दूसरे को अच्छी तरह से या बुरी तरह से ट्रैक करते हैं। यह संभावना है कि कोई और अधिक औपचारिक परीक्षण प्रदान कर सकता है।


1

संभवतया परीक्षण के लिए सबसे प्रसिद्ध उदाहरण रेटिंग प्रणाली में अनुमान लगाने की विधि कितनी सटीक थी, शतरंज रेटिंग थी - कागले पर विश्व की बाकी प्रतियोगिता बनाम एलो , कौन सी संरचना निम्नलिखित थी:

8,631 शीर्ष खिलाड़ियों के लिए 65,000 से अधिक हाल के परिणामों के प्रशिक्षण डेटासेट का उपयोग करके प्रतियोगी अपने रेटिंग सिस्टम को प्रशिक्षित करते हैं। प्रतिभागी इसके बाद 7,809 खेलों के परिणाम की भविष्यवाणी करने के लिए अपने तरीके का उपयोग करते हैं।

विजेता एलो ++ था ।

यह आपकी आवश्यकताओं के लिए एक अच्छा परीक्षण योजना है, सैद्धांतिक रूप से, भले ही 18 मैच एक अच्छा परीक्षण आधार नहीं हो। तुम भी विभिन्न एल्गोरिदम के लिए परिणाम के बीच मतभेद की जांच कर सकते (यहाँ एक है तुलना के बीच rankade , हमारे रैंकिंग प्रणाली है, और सबसे सहित जाना जाता एलो , Glicko और Trueskill )।


0

आप परिकल्पना का परीक्षण करना चाहते हैं कि परिणाम की संभावना मिलान पर निर्भर करती है। , तब, यह है कि हर खेल अनिवार्य रूप से एक सिक्का फ्लिप है।H0

इसके लिए एक सरल परीक्षण उस खिलाड़ी के अनुपात की गणना करेगा जो कि पहले से खेले गए अधिक गेम जीतता है, और द्विपद संचयी वितरण फ़ंक्शन की तुलना करता है। यह किसी प्रकार के प्रभाव के अस्तित्व को दर्शाता है।

यदि आप अपने खेल के लिए एलो रेटिंग प्रणाली की गुणवत्ता के बारे में रुचि रखते हैं, तो एक सरल विधि एलो मॉडल के पूर्वानुमानात्मक प्रदर्शन पर 10 गुना क्रॉसवॉलिडेशन को चलाने के लिए होगी (जो वास्तव में यह मानती है कि आयड नहीं हैं, लेकिन मैं ' वह अनदेखा करेंगे) और तुलना करने के लिए एक सिक्का फ्लिप।


अधिक विशिष्ट होना। मेरे पास 8 खिलाड़ी हैं और केवल 18 खेल हैं। इसलिए, बहुत सारे ऐसे खिलाड़ी हैं जो एक-दूसरे के साथ नहीं खेलते थे और बहुत सारे जोड़े ऐसे थे जो केवल एक-दूसरे के साथ खेलते थे। परिणामस्वरूप, मैं खिलाड़ियों की जोड़ी के लिए जीत की संभावना का अनुमान नहीं लगा सकता। मैं यह भी देखता हूं, उदाहरण के लिए कि एक खिलाड़ी है जो 6 खेलों में 6 बार जीता है। लेकिन हो सकता है कि यह महज एक संयोग हो।
रोमन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.