परिमित-राज्य आंशिक सूचना खेलों की जटिलता


12

केवल आंशिक रूप से कई राज्यों के
साथ एक नियतकालिक आंशिक-सूचना शून्य-शून्य गेम को देखते हुए, जिनके संभावित परिणाम क्रमशः मूल्यों [-1,0, + 1] के साथ [हार, ड्रॉ, जीत] हैं,
ऐसे मूल्य का अनुमान लगाने की जटिलता क्या है एक खेल additively भीतर ?ϵ

विशेष रूप से, मैं ऐसा करने के लिए किसी भी एल्गोरिथ्म में नहीं आ सकता ।
इस पोस्ट का बाकी हिस्सा पूरी तरह से
समस्या का अधिक गहन विवरण देने के लिए समर्पित है, इसलिए यदि आप पहले से ही यह पता लगा सकते हैं कि
इस पोस्ट के शीर्ष पर मौजूद प्रश्न का क्या अर्थ है, तो आपके लिए इस पोस्ट के बाकी हिस्सों को पढ़ने का कोई कारण नहीं है।

राज्यों साथ एक रेफरी मशीन दी गई है , एक निर्दिष्ट प्रारंभिक राज्य , एक राज्य जिसका स्कोर जोड़ी है , एक राज्य जिसकी स्कोर जोड़ी है है , और फार्म के राज्योंs 0 s a [ - 1 , + 1 ] s b [ + 1 , - 1 ]{1,2,3,...,S}s0sa[1,+1]sb[+1,1]

[p1_info, p2_info, num_of_choices, player_to_move, next_state_table] जहां:

  • player_to_move{1,2}
  • next_state_table से एक फ़ंक्शन है।{1,2,3,,num_of_choices}{1,2,3,,एस}
  • p1_info,p2_info,num_of_choices1

जब मशीन उस रूप में होती है:

  • भेजता है Player_1 करने और भेजता है Player_2 को,P2_infop1_infop2_info
  • संकेतित खिलाड़ी को भेजता है , उस खिलाड़ी से इनपुट के रूप में तत्व की प्रतीक्षा करता है , { 1 , 2 , 3 , , num_of_choices }num_of_choices{1,2,3,,num_of_choices}
  • उसके बाद द्वारा इंगित राज्य में जाता हैnext_state_table

जब मशीन अन्य दो राज्यों में से एक में प्रवेश करती है या ,रों रोंरों

  • इसके उत्पादन के रूप में उस राज्य की स्कोर जोड़ी के साथ रुकता है

एक प्राकृतिक दो-खिलाड़ी गेम है: रेफरी मशीन को राज्य में शुरू किया जाता है , खिलाड़ी इनपुट प्रदान करते हैं कि रेफरी मशीन की प्रतीक्षा करता है, यदि रेफरी मशीन रुकती है तो खिलाड़ी 1 मशीन के आउटपुट जोड़ी के पहले मूल्य को स्कोर करता है और प्लेयर 2 मशीन के आउटपुट जोड़े के दूसरे मूल्य को स्कोर करता है, अन्यथा दोनों खिलाड़ी 0 स्कोर करते हैं। रों0=1





निम्नलिखित समस्या की जटिलता क्या है?
ऐसी रेफरी मशीन और एक सकारात्मक पूर्णांक N को देखते हुए,
खिलाड़ी 1 के लिए प्राकृतिक खेल के मूल्य के 1 / N के भीतर एक परिमेय संख्या (योज्य) है।

जैसा कि इस प्रश्न में पहले उल्लेख किया गया है, मैं
ऐसा करने के लिए किसी भी एल्गोरिथ्म के साथ नहीं आ सकता ।


क्या खिलाड़ियों को आंतरिक संरचना का पता है? अतिरिक्त जानकारी होने का क्या फायदा है, यह अधिक संभव चाल देता है?
डोमपोटर

हाँ। यह उन्हें एक बेहतर विचार देता है कि वर्तमान स्थिति क्या है।

क्षमा करें, लेकिन मुझे अभी भी नहीं मिला है। तब वे आंतरिक संरचना को जानते हैं लेकिन वे नहीं जानते कि वे इस समय कहां हैं? कृपया विवरण स्पष्ट करें, मुझे यकीन है कि मैं एकमात्र ऐसा व्यक्ति नहीं हूं जो समस्या को नहीं समझ सकता।
डोमटोटर

3
क्या आपका मॉडल "आंशिक जानकारी के साथ शून्य-शून्य टर्न-आधारित स्टोचस्टिक गेम" के समान है?
क्रिस्टोफर अर्न्सफेल्ट हैनसेन

1
@ क्रिस्तोफर: यह स्पष्ट नहीं है (कम से कम मेरे लिए) कि मेरा मॉडल तर्कहीन संभावनाओं कोडिंग लिए अनुमति देता है, हालांकि मेरा मॉडल अन्यथा उस के बराबर है।

जवाबों:


6

नोट: मेरा कथित एल्गोरिथ्म गलत था; मैंने इसे मिटा दिया।

एक बात का एहसास है कि यह कोई फर्क नहीं पड़ता कि खेल नियतात्मक है या नहीं। यादृच्छिक करने के लिए, रेफरी प्रत्येक खिलाड़ियों से यादृच्छिक संख्या मॉड योगदान करने के लिए कह सकता है , और फिर उन्हें जोड़ सकता है। यह दिखाना आसान है कि यदि खिलाड़ी अपनी इष्टतम रणनीति का उपयोग करते हैं, तो राशि एक यादृच्छिक संख्या मॉड , जिसे रेफरी फिर अपनी रणनीति को यादृच्छिक बनाने के लिए उपयोग कर सकता है। यह खेल में राज्यों की संख्या में बहुत वृद्धि नहीं करता है।पीपीपी

एक जटिलता पर बाध्य निचले हिस्से के लिए, एक के मूल्य का अनुमान करने के सवाल सरल स्टोकेस्टिक खेल है पी में माना जाता नहीं । मैंने ऊपर दिए गए रैंडमाइजेशन ट्रिक का उपयोग करते हुए, बहुपद-आकार के लुकअप टेबल के साथ एक रेफ़रेड गेम के रूप में एक साधारण स्टॉचस्टिक गेम लिखना आसान है।


वह यादृच्छिककरण विचार (कम से कम, जैसा कि आपने इसे वर्णित किया है) केवल तर्कसंगत संभावनाएं दे सकता है। इसके अलावा, आपके द्वारा पहले दो पेपरों में इस्तेमाल की गई परिभाषाओं का यह भी अर्थ है कि उनके खेल में एक परिमित गेम ट्री है, जबकि मुझे केवल एक परिमित राज्य स्थान की आवश्यकता है (जहाँ "राज्य" में खेल का इतिहास शामिल नहीं है)।

आप सही हैं ... मेरे उत्तर का पहला भाग गलत है। मुझे इसे हटाने दें। मुझे पूरा यकीन है कि सरल स्टोकेस्टिक खेलों के मूल्य का अनुमान लगाने पर पी में होने का पता नहीं चलता है, जब सभी सिक्का फ़्लिप संभावना 1/2 है।
पीटर शोर

1


ε0<ε

इनपुट: एक गेम जैसा कि मेरे प्रश्न में वर्णित है,
उसे YES आउटपुट करना होगा यदि: प्लेयर 1 के लिए गेम का मान 1 से अधिक हैε
ε

अवशेष फिर भी जब -हार्ड

player_to_move हमेशा 1 (यानी, केवल 1 खिलाड़ी की जरूरत है) है
और
रों 0 ≠ रों एक और एस एक रेंज (next_state_table) में नहीं है
(यानी, यह सचमुच असंभव खिलाड़ी कम करने के लिए के लिए है)
और
p1_info और p2_info और number_of_choices राज्य से स्वतंत्र हैं
(यानी, खिलाड़ी की केवल प्रतिक्रिया है कि यह जीता गया या नहीं)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.