एलो रेटिंग सिस्टम गलत अपडेट नियम का उपयोग क्यों करते हैं?

एलो रेटिंग प्रणाली युग्मित तुलनाओं में एक परिणाम की अपेक्षित और देखी गई संभावना के बीच क्रॉस-एन्ट्रापी लॉस फ़ंक्शन के एक ढाल डिसेंट कम से कम एल्गोरिथम का उपयोग करती है। हम सामान्य हानि कार्यों को लिख सकते हैं

E = - \sum_{n, i} p_{i} L o g (q_{i})

$E=-\sum_{n,i} p_i Log (q_i)$

जहाँ योग सभी परिणामों और सभी विरोधियों पर किया जाता है । घटना और की अपेक्षित आवृत्ति की गई आवृत्ति है। $i$ $n$ $p_i$ $_i$ $q_i$

केवल दो संभावित परिणाम (जीत या ढीले) और एक प्रतिद्वंद्वी के मामले में हमारे पास है

E = - p L o g (q) - (1 - p) L o g (1 - q)

$E=-p Log (q)-(1-p)Log(1-q)$

यदि खिलाड़ी की रैंकिंग है और खिलाड़ी की रैंकिंग है तो हम रूप में अपेक्षित संभाव्यता का निर्माण कर सकते हैं फिर ग्रेडिएंट वंश अद्यतन नियम का उपयोग करें बताओ $\pi_i$ $i$ $\pi_j$ $j$

q_{i} = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}}}

$q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}}$

q_{j} = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}}}

$q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}}$

π_{i}^{'} = π_{i} - η (q_{i} - p_{i})

$\pi_i'=\pi_i-\eta (q_i-p_i)$

π_{j}^{'} = π_{j} - η (q_{j} - p_{j})

$\pi_j'=\pi_j-\eta (q_j-p_j)$

जहां और खिलाड़ी की जीत की उम्मीद और देखे गए संभावना हैं खिलाड़ी के खिलाफ । यह अद्यतन नियम है। $q_i$ $p_i$ $i$ $j$ two outcomes

ड्रॉ की उपस्थिति में हम उपरोक्त मॉडल को सामान्य कर सकते हैं और संभाव्यता के साथ तीसरा परिणाम

q (d) = \frac{ν e^{\frac{π_{i} + π_{j}}{2}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q(d)=\frac{\nu e^{\frac{\pi_i+\pi_j}{2}}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{i} (w) = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_i(w)=\frac{ e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{j} (w) = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_j(w)=\frac{ e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

और हम लॉस फंक्शन का निर्माण कर सकते हैं

E = - p (w) L o g (q (w)) - (1 - p (w) - p (d)) L o g (q (l)) - p (d) L o g (q (d))

$E=-p(w)Log(q(w))-(1-p(w)-p(d))Log(q(l))-p(d)Log(q(d))$

जहां क्रमशः की प्रेक्षित संभावना हैं , और और की उम्मीद की संभावना , और । बाद के मामले में अद्यतन नियम होगा $p(w),p(l),p(d)$ winloosedraw $q(w),q(l),q(d)$ winloosedraw

π_{i}^{'} = π_{i} - η (q_{i} (w) + \frac{q_{i} (d)}{2} - p_{i} (w) - \frac{p_{i} (d)}{2})

$\pi_i'=\pi_i-\eta (q_i(w)+\frac{q_i(d)}{2}-p_i(w)-\frac{p_i(d)}{2})$

π_{j}^{'} = π_{j} - η (q_{j} (w) + \frac{q_{j} (d)}{2} - p_{j} (w) - \frac{p_{j} (d)}{2})

$\pi_j'=\pi_j-\eta (q_j(w)+\frac{q_j(d)}{2}-p_j(w)-\frac{p_j(d)}{2})$

जहाँ और खिलाड़ी के जीतने की संभावना है और खिलाड़ी विरुद्ध ड्रा करते हैं । और जहां और प्लेयर की जीतने की संभावना और खिलाड़ी खिलाफ आकर्षित होने की संभावना है । यह अद्यतन नियम है। $q_j(w)$ $q_j(d)$ $i$ $j$ $p_i(w)$ $p_i(d)$ $i$ $j$ three outcome

सवाल यह है कि एलो रेटिंग प्रणाली two outcomesड्रॉ की उपस्थिति में भी अपडेट नियमों का उपयोग क्यों करती है?

regression optimization rating

— इमानुएल
स्रोत

निर्णायक परिणाम होने के विपरीत ड्राइंग की संभावना, एलो प्रणाली में निर्दिष्ट नहीं है। इसके बजाय एक ड्रॉ माना जाता है - अपेक्षित प्रदर्शन और मैच परिणाम दोनों में - आधा जीत और आधा नुकसान।

विकिपीडिया में एलो पेज से एक उदाहरण : "एक खिलाड़ी का अपेक्षित स्कोर जीतने की संभावना है, साथ ही उसके ड्राइंग की आधी संभावना भी है। इस प्रकार 0.75 का एक अपेक्षित स्कोर 75% जीतने की संभावना, 25% हारने की संभावना, और 0% मौका का प्रतिनिधित्व कर सकता है। ड्राइंग के अन्य चरम पर यह जीतने का 50% मौका, 0% खोने का मौका, और ड्राइंग का 50% मौका का प्रतिनिधित्व कर सकता है। "

ड्राइंग की संभावना, जैसा कि मैंने कहा, निर्दिष्ट नहीं है , और यह एक सरल two outcomeअद्यतन नियम, , जिसमें , इसलिए, एक मैच के बाद, (जीत), या (ड्रा, आधी जीत के रूप में), या (हानि)। $R_A^\prime = R_A + K(S_A - E_A)$ $S_A=1 \cdot (n_w + 0.5 \cdot n_d ) + 0 \cdot (0.5 \cdot n_d + n_l)$ $S_A=1$ $S_A=0.5$ $S_A=0$

एलो की तरह, ग्लिको सिस्टम ड्रा नहीं करता है, लेकिन यह एक जीत के औसत और नुकसान (प्रति खिलाड़ी) के रूप में एक अपडेट करता है। इसके बजाय, ट्रूस्किल रैंकिंग प्रणाली में, "यह मानते हुए तैयार किया जाता है कि किसी विशेष गेम में प्रदर्शन का अंतर छोटा है। इसलिए, केवल ड्राइंग का मौका दो खिलाड़ी के खेलने की ताकत के अंतर पर निर्भर करता है। हालांकि, खेल में अनुभवजन्य निष्कर्ष। शतरंज के प्रदर्शन में शुरुआती खिलाड़ियों की तुलना में पेशेवर खिलाड़ियों के बीच अधिक संभावना है। इसलिए, ड्राइंग का मौका भी कौशल स्तर पर निर्भर करता है। "

इस दृष्टिकोण को हर गेम के लिए अलग-अलग विशिष्ट मॉडलिंग की आवश्यकता होती है (और ट्रूस्किल को कुछ Microsoft Xbox गेम्स पर लागू किया जाता है), इसलिए यह एलो और ग्लिको (केवल शतरंज के लिए डिज़ाइन किया गया) में उपयुक्त है, और यह रेकॉर्ड के लिए नहीं है , हमारी बहुउद्देशीय रैंकिंग प्रणाली।

— टॉमसो नेरी
स्रोत

'एक खिलाड़ी का अपेक्षित स्कोर उसके जीतने की संभावना के साथ-साथ उसकी ड्राइंग की आधी संभावना है।' जैसा कि मैंने ऊपर सूत्र में पाया है। वैसे भी एलो अपडेट फॉर्मूले में ड्रा की संभावना का आधा हिस्सा निर्दिष्ट नहीं किया गया है क्योंकि आप इशारा कर रहे हैं। सवाल यह है कि एलो रैंकिंग प्रणाली में हमें ड्रॉ की परवाह क्यों नहीं है?

— इमानुएल

आप हमेशा अपेक्षित स्कोर को जीतने का मौका और हारने का मौका (और ड्राइंग का शून्य मौका - विकिपीडिया से पहला उदाहरण देखें) के रूप में व्यक्त कर सकते हैं । इस मामले में, 'एक खिलाड़ी का अपेक्षित स्कोर उसकी जीत की संभावना है' (और कुछ भी अधिक, क्योंकि ड्राइंग की आधी संभावना शून्य है)। एक एकल मैच के बाद, परिणाम एक जीत, या एक हार, या आधी जीत है। यहां तक कि अगर आपके पास एक गेम है जिसमें ड्रॉ की अनुमति है, तो आप एलो स्कोर को केवल एक जीत और नुकसान के संयोजन का उपयोग करके अपडेट कर सकते हैं, जैसे कि ड्रॉ का कोई मौका नहीं है।

— टॉमसो नेरी