कंप्यूटर मूल्यांकन: वे कितने भरोसेमंद हैं?


14

फ्रिट्ज़ 12 ने रबका के साथ अपने दोस्त को इस एंडगेम पोजीशन में गोरे होने के लिए +3 का मूल्यांकन दिया ,

सफेद करने के लिए

जो ड्रा हो गया। लेकिन मैंने सुना है कि कंप्यूटर से +3 का मतलब है सही खेल के साथ गारंटीकृत जीत। क्या मैंने सिर्फ गलत सुना? कंप्यूटर मूल्यांकन की सामान्य रूप से व्याख्या कैसे की जानी चाहिए? <.5 के खुलने के क्या फायदे हैं?


4
मैं "गारंटीकृत जीत" टिप्पणी को चुनौती दूंगा। मूल्यांकन संख्या एक हेयोरिस्टिक संकेतक है, मूल रूप से एक "भावना" है जो कंप्यूटर की स्थिति के लिए है। Endgames के "आश्चर्यजनक" परिणाम हो सकते हैं, और जब तक कि कंप्यूटर को सभी संभावित पैटर्न का पता लगाने के लिए प्रोग्राम नहीं किया गया है (या यह सभी तरह से गणना कर सकता है), यह कुछ याद करेगा। इसे दूसरे तरीके से देखने के लिए, अगर +3 की वास्तव में गारंटी थी, तो यह +3 नहीं होगा, यह + अनंत होगा।
डेनियल बी

रिकॉर्ड के लिए, मैंने लिचेस 7-पीस टेबलबेस के साथ यह जाँच की, और यह वास्तव में एक ड्रॉ है।
फिशमास्टर

जवाबों:


8

यहां कुछ चीजें हैं।

सबसे पहले, प्रत्येक प्रोग्राम के पास अपनी स्थिति का मूल्यांकन करने का अपना तरीका है ताकि स्कोर की सीधे तुलना नहीं की जा सके। उदाहरण के लिए, मैं हाल ही में Rybka के खिलाफ StockFish चला रहा था और पाया कि Stockfish का स्कोर Rybka से दोगुना था। मैं इससे हैरान था, लेकिन यह बहुत स्पष्ट है कि 1 का स्कोर हमेशा "1 मोहरा" नहीं होता है। मुझे लगता है कि हमें क्या देखना चाहिए कि स्कोर कैसे बदलता है। एक और जिज्ञासा मैंने कल देखी (संयोग से आपके अन्य प्रश्नों में से एक का उत्तर देते समय) थी कि स्टॉकफिश के मूल्यांकन एल्गोरिदम को विषम संख्याएं बहुत पसंद नहीं हैं। वास्तव में अधिकांश स्कोर .04 के गुणक थे। यह देखते हुए कि मूल्य का परिमाण मनमाना है, मैं किसी निश्चित मूल्य का मतलब "निश्चित जीत" नहीं मानूंगा जब तक कि मशीन यह दावा नहीं कर रही है कि उसे एक दोस्त मिल गया है।

दूसरा, एंड गेम टेबलबेस बनाया गया क्योंकि एंड गेम्स को हल करने के लिए बहुत अधिक खोज गहराई की आवश्यकता होती है। टूर्नामेंट की गति से खेलने वाले कंप्यूटर इसे अच्छे से नहीं करते हैं मैं कुछ दिन पहले एक अलग गेम के माध्यम से काम कर रहा था और इस साइट पर घोषणा की कि एक पक्ष का एक फायदा था। एड ने एक टेबलबेस का उपयोग यह दिखाने के लिए किया कि स्थिति में कोई रहस्य नहीं बचा है - यह सैद्धांतिक रूप से तैयार किया गया था। बेशक, ड्रॉ-परफेक्ट-प्ले और ड्रॉ के बीच बहुत बड़ा अंतर है; खिलाड़ियों को सही चाल का पता लगाना होगा।


आम तौर पर खेल के शुरुआती चरणों में व्हाइट को दिया जाने वाला छोटा मूल्य मूल रूप से सफेद का मतलब अधिक मूल्यवान अचल संपत्ति का दावा कर सकता है। उदाहरण के लिए, चाल 1 पर, व्हाइट ई 4 का दावा कर सकता है और ई 5 और एफ 5 पर हमला कर सकता है। ब्लैक काउंटर कर सकते हैं। लेकिन फिर व्हाइट Nc3 और अटैक / बोलस्टर a4, b5, d5 और e4 खेल सकता है। लेकिन ब्लैक काउंटर कर सकते हैं। तो इसका मतलब बहुत कम है।


अंत में, आपकी विषय पंक्ति में प्रश्न का उत्तर देने के लिए - मूल्यांकन बहुत भरोसेमंद हैं क्योंकि वे कठिन तथ्यों और प्रभावशाली खोज गहराई पर आधारित हैं। बेशक, मशीनें अचूक नहीं हैं। लेकिन हमें बी-खिलाड़ियों को यह याद रखना चाहिए कि स्टॉकफिश (या राइबाका) जीएम हार्डवेयर में मामूली हार्डवेयर पर खेलती है। सर्वश्रेष्ठ सामान्य हार्डवेयर पर, वे FIDE 3200 पर अपनी रेटिंग का अनुमान लगाते हैं। यह इतना अधिक है कि केवल सबसे अच्छे मनुष्यों के पास हारने का एक मामूली मौका है।

विचार करें कि इसका क्या अर्थ है; मैं (USCF 1650-ish) है कोई (, USCF 2050 कहते हैं) एक व्यक्ति के खिलाफ मौका जो कोई एक व्यक्ति के खिलाफ मौका (जैसे कि, USCF 2450) जो एक है कोई एक व्यक्ति के खिलाफ मौका (जैसे कि, USCF 2850), जो एक है टूटकर अलग हो जाना एक शीर्ष उड़ान वाणिज्यिक कार्यक्रम (FIDE 3200) के खिलाफ एक मौका।

इस प्रकार, जब स्टॉकफिश कहते हैं कि एक चाल दूसरे की तुलना में बेहतर है, तो मैं आमतौर पर इसे अंकित मूल्य पर लेता हूं। जब मैं एंडगेम टेबलबकेस को हुक करता हूं तो यह बात मेट-इन -30 की घोषणा करने लगती है।


1
बहुत अच्छी प्रतिक्रिया। मैंने हमेशा सोचा था कि 1 के मूल्यांकन का मतलब 1 मोहरे की सामग्री के लायक है। इसके अलावा, chesstempo का कहना है कि इसकी समस्याओं में सबसे अच्छी चाल है, जो कम से कम 2 प्यादों को सामग्री के रूप में जीतती हैं, इसलिए मैंने एक खेल में मंच की परवाह किए बिना +2 या उससे अधिक के इंजन मूल्यांकन पर विचार किया। हालांकि, मैंने स्टॉकफिश के विश्लेषण को पहले दोषपूर्ण पाया है और देखा है कि यह एंडगेम्स का सही तरीके से आकलन करने में कैसे विफल हो जाता है। उस नोट पर, क्या आप जानते हैं कि मुझे एंडगैम का टेबलबेस कहां मिल सकता है?
चूबिकांटोरसेट

यहां ऑनलाइन 6-मैन टेबलबेस एड पोस्ट किया गया: k4it.de/index.php?topic=egtb&lang=en
टोनी एनिस

+1 के लिए "मैं किसी निश्चित मान का अर्थ" एक निश्चित जीत "नहीं मानूंगा जब तक कि मशीन यह दावा नहीं कर रही है कि उसे एक दोस्त मिल गया है।"
19

14

विभिन्न इंजनों में उनके संख्यात्मक मूल्यांकन के लिए अलग-अलग "तराजू" होते हैं। उदाहरण के लिए, एक सामान्य मिडिलगेम पोजीशन में प्ले के बहुत सारे लेफ्ट के साथ, जब हौदिनी +2.00 या बेहतर कहती है, तो यह बहुत अधिक संभावना है कि व्हाइट को जीतने का फायदा है (हालांकि यहां तक ​​कि मैंने एक कारण के लिए योग्यता शामिल की है)। लेकिन विचार करें: कोई हुडिनी के स्रोत कोड को संशोधित कर सकता है और मूल्यांकन में शामिल सभी संख्याओं के पूर्ण मूल्यों को दोगुना कर सकता है; किसी को समान शक्ति का इंजन मिलता है जो समान खेल का उत्पादन करता है, लेकिन अब +4.00 का अर्थ है कि +2.00 का क्या अर्थ है। यह दिखाता है कि किसी को इंजन में एक समान संख्यात्मक सीमा की उम्मीद नहीं करनी चाहिए जो आम तौर पर एक जीतने वाले लाभ को इंगित करता है।

इससे अधिक, हालांकि, यह समझना महत्वपूर्ण है कि किसी स्थिति का एक संख्यात्मक इंजन मूल्यांकन (अपरिहार्य दोस्त के एकमुश्त घोषणा के विपरीत) कभी भी एक एकल, निश्चित इंजन के लिए "एक जीते हुए खेल" का कड़ाई से अनुवाद नहीं करता है। एक प्रमुख बिंदु यह है कि संख्यात्मक मूल्यांकन का व्यापक शतरंज के संदर्भ में कोई स्पष्ट "कट" अर्थ नहीं है, और यह केवल भावुक विचार का एक विकल्प है जो यांत्रिक रूप से एक इंजन को निर्देशित करने के लिए उपयोग किया जाता है जो आमतौर पर वांछनीय परिणामों को प्रभावित करके प्रभावित करता है जो प्रत्येक बिंदु पर चयन करता है। खेल में; इस प्रकाश में, इंजन के खेलने के लिए आखिरकार जो सबसे महत्वपूर्ण है वह है निरपेक्ष मूल्यों के बारे में कुछ भी करने के बजाय संभावित चालों को सौंपे गए मूल्यांकन में अंतरशामिल किया गया। नंबर इंजन के लिए ही उपयोगी होते हैं, जिसमें किसी चीज को ठोस बनाने की जरूरत होती है, ताकि दूसरे पर एक कदम रखने का निर्णय लिया जा सके, लेकिन हम मनुष्यों को "+ X" जैसे विचारों से जुड़े परिमाण में अधिक अर्थ पढ़ने में जल्दी नहीं करनी चाहिए। एक जीत। "

विशेष रूप से, आगे और आगे हम एक मध्यम गेम के विपरीत एक एंडगेम की ओर बढ़ते हैं, कम हम एक जीत के लिए पर्याप्त होने के बारे में एक निश्चित सीमा के बारे में अंगूठे के नियम का उपयोग कर सकते हैं (जैसे कि बीच के गेम में हौदिनी के लिए +2.00)। इसका एक प्रमुख कारण यह है कि इंजन किलों को पहचान रहे हैं, जहां अतिरिक्त सामग्री की एक बहुतायत अभी भी जीतने के लिए पर्याप्त नहीं है। उदाहरण के लिए, जब मैं स्टॉकफिश को यह पद देता हूं,

एनएन - एनएन

कुछ मिनटों के बाद लगा कि यह लगभग +7.00 का मूल्यांकन दे रहा है, और एक विशिष्ट स्थिति में, जब स्टॉकफिश कहती है कि, आपके हाथों पर जीत निश्चित रूप से है। फिर भी, यह एक मृत ड्रा है, और एक मानव इस तथ्य को आसानी से देख सकता है एक बार यह तथ्य महसूस किया जाता है कि ब्लैक सिर्फ एफ 6 और एच 6 के बीच किश्ती को फेरबदल कर सकता है, और इसलिए (1) एच-प्यादा बेकार है, और (2) सफेद सफेद रानी के हमले में राजा कभी मदद नहीं कर पाएगा। आखिरकार , स्टॉकफिश एक ड्रॉ को भी यहां पहचान लेगी, एक बार यह 50 चालों के खिलाफ चूतड़ मारती है, कहती है, या अंत में कोशिश करने के लिए अलग-अलग चाल से बाहर निकलती है और अंत में एक पुनरावृत्ति से बच नहीं सकती है, लेकिन वे घटनाएं खोज गहराई रेखा से नीचे हैं।

आपके पहले वाले प्रश्न से एंडगेम की स्थिति जो आप से जुड़ी हुई है, इस प्रकार के किले के समान है, जिसमें अतिरिक्त जुड़े हुए पास के पंजे व्हाइट अच्छे और सभी हैं, लेकिन अंततः उस स्थिति में जीतने के लिए पर्याप्त नहीं है। यदि एक इंजन को टेबलबेस में निहित अधिक जानकारी के रूप में देखने के लिए पर्याप्त समय के लिए गणना करना था, तो इसका मूल्यांकन 0 पर आ जाएगा, लेकिन इस बीच, इसके मूल्यांकन एल्गोरिथ्म को इसके लिए ए + देने से बेहतर कुछ नहीं है। अतिरिक्त सामग्री (यह अभी तक पता नहीं है कि व्यर्थ है)।


+1 के लिए "इससे अधिक, हालांकि, यह समझना महत्वपूर्ण है कि किसी स्थिति का संख्यात्मक इंजन मूल्यांकन (जैसा कि अपरिहार्य दोस्त के एकमुश्त घोषणा के विपरीत) कभी भी एक जीते हुए खेल में कड़ाई से अनुवाद नहीं करता है"
18

8

मुझे लगता है कि यह चित्र स्थिति को काफी अच्छी तरह बताता है। यह 400k खेलों से बनाया गया था, और केवल सादे टुकड़ा सामग्री पर विचार करता है।

जीत संभावना / प्यादा लाभ

स्रोत: पॉन एडवांटेज, विन प्रतिशत, और ईएलओ


1
अच्छा योगदान! +1
फेरिट

@ थोमस अहले: ग्राफ दिलचस्प है। लेकिन मूल लेख अब उपलब्ध नहीं है, विकिपीडिया लिंक दुख की बात है। क्या आपको डब्ल्यू = विन प्रोबेबिलिटी का सटीक अर्थ याद है? क्या यह जीत बनाम ड्रॉ की अनदेखी थी? या यह ड्रॉ को ध्यान में रखते हुए "अपेक्षित स्कोर" था?
डिडर्सच

@Diedrsch मैंने लिंक को अपडेट किया है
थॉमस अहले
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.