परिमित-राज्य आंशिक सूचना खेलों की जटिलता

केवल आंशिक रूप से कई राज्यों के
साथ एक नियतकालिक आंशिक-सूचना शून्य-शून्य गेम को देखते हुए, जिनके संभावित परिणाम क्रमशः मूल्यों [-1,0, + 1] के साथ [हार, ड्रॉ, जीत] हैं,
ऐसे मूल्य का अनुमान लगाने की जटिलता क्या है एक खेल additively भीतर ? $\epsilon$

विशेष रूप से, मैं ऐसा करने के लिए किसी भी एल्गोरिथ्म में नहीं आ सकता ।
इस पोस्ट का बाकी हिस्सा पूरी तरह से
समस्या का अधिक गहन विवरण देने के लिए समर्पित है, इसलिए यदि आप पहले से ही यह पता लगा सकते हैं कि
इस पोस्ट के शीर्ष पर मौजूद प्रश्न का क्या अर्थ है, तो आपके लिए इस पोस्ट के बाकी हिस्सों को पढ़ने का कोई कारण नहीं है।

राज्यों साथ एक रेफरी मशीन दी गई है , एक निर्दिष्ट प्रारंभिक राज्य , एक राज्य जिसका स्कोर जोड़ी है , एक राज्य जिसकी स्कोर जोड़ी है है , और फार्म के राज्यों $\{1,2,3,...,S\}$ $s_0$ $s_a$ $[-1,+1]$ $s_b$ $[+1,-1]$

$[\mbox{p1_info,p2_info,num_of_choices,player_to_move,next_state_table}]$ जहां:

$\mbox{player_to_move} \in \{1,2\}$
$\mbox{next_state_table}$ से एक फ़ंक्शन है। $\{1,2,3,...,\mbox{num_of_choices}\} \to \{1,2,3,...,S\}$
$\mbox{p1_info},\mbox{p2_info}, \mbox{num_of_choices} \geq 1$

जब मशीन उस रूप में होती है:

भेजता है Player_1 करने और भेजता है Player_2 को, $\mbox{p1_info}$ $\mbox{p2_info}$
संकेतित खिलाड़ी को भेजता है , उस खिलाड़ी से इनपुट के रूप में तत्व की प्रतीक्षा करता है , $\mbox{num_of_choices}$ $\{1,2,3,...,\mbox{num_of_choices}\}$
उसके बाद द्वारा इंगित राज्य में जाता है $\mbox{next_state_table}$

जब मशीन अन्य दो राज्यों में से एक में प्रवेश करती है या , $s_a$ $s_b$

इसके उत्पादन के रूप में उस राज्य की स्कोर जोड़ी के साथ रुकता है

एक प्राकृतिक दो-खिलाड़ी गेम है: रेफरी मशीन को राज्य में शुरू किया जाता है , खिलाड़ी इनपुट प्रदान करते हैं कि रेफरी मशीन की प्रतीक्षा करता है, यदि रेफरी मशीन रुकती है तो खिलाड़ी 1 मशीन के आउटपुट जोड़ी के पहले मूल्य को स्कोर करता है और प्लेयर 2 मशीन के आउटपुट जोड़े के दूसरे मूल्य को स्कोर करता है, अन्यथा दोनों खिलाड़ी 0 स्कोर करते हैं। $s_0 = 1$

निम्नलिखित समस्या की जटिलता क्या है?
ऐसी रेफरी मशीन और एक सकारात्मक पूर्णांक N को देखते हुए,
खिलाड़ी 1 के लिए प्राकृतिक खेल के मूल्य के 1 / N के भीतर एक परिमेय संख्या (योज्य) है।

जैसा कि इस प्रश्न में पहले उल्लेख किया गया है, मैं
ऐसा करने के लिए किसी भी एल्गोरिथ्म के साथ नहीं आ सकता ।

cc.complexity-theory gt.game-theory

— मारजियो दे बियासी
स्रोत

क्या खिलाड़ियों को आंतरिक संरचना का पता है? अतिरिक्त जानकारी होने का क्या फायदा है, यह अधिक संभव चाल देता है?

— डोमपोटर

हाँ। यह उन्हें एक बेहतर विचार देता है कि वर्तमान स्थिति क्या है।

$\:$

$\;\;\;$

क्षमा करें, लेकिन मुझे अभी भी नहीं मिला है। तब वे आंतरिक संरचना को जानते हैं लेकिन वे नहीं जानते कि वे इस समय कहां हैं? कृपया विवरण स्पष्ट करें, मुझे यकीन है कि मैं एकमात्र ऐसा व्यक्ति नहीं हूं जो समस्या को नहीं समझ सकता।

— डोमटोटर

क्या आपका मॉडल "आंशिक जानकारी के साथ शून्य-शून्य टर्न-आधारित स्टोचस्टिक गेम" के समान है?

— क्रिस्टोफर अर्न्सफेल्ट हैनसेन

@ क्रिस्तोफर: यह स्पष्ट नहीं है (कम से कम मेरे लिए) कि मेरा मॉडल तर्कहीन संभावनाओं कोडिंग लिए अनुमति देता है, हालांकि मेरा मॉडल अन्यथा उस के बराबर है।

$\:$

$\hspace{.8 in}$

$\;\;\;\;$

जवाबों:

नोट: मेरा कथित एल्गोरिथ्म गलत था; मैंने इसे मिटा दिया।

एक बात का एहसास है कि यह कोई फर्क नहीं पड़ता कि खेल नियतात्मक है या नहीं। यादृच्छिक करने के लिए, रेफरी प्रत्येक खिलाड़ियों से यादृच्छिक संख्या मॉड योगदान करने के लिए कह सकता है , और फिर उन्हें जोड़ सकता है। यह दिखाना आसान है कि यदि खिलाड़ी अपनी इष्टतम रणनीति का उपयोग करते हैं, तो राशि एक यादृच्छिक संख्या मॉड , जिसे रेफरी फिर अपनी रणनीति को यादृच्छिक बनाने के लिए उपयोग कर सकता है। यह खेल में राज्यों की संख्या में बहुत वृद्धि नहीं करता है। $p$ $p$

एक जटिलता पर बाध्य निचले हिस्से के लिए, एक के मूल्य का अनुमान करने के सवाल सरल स्टोकेस्टिक खेल है पी में माना जाता नहीं । मैंने ऊपर दिए गए रैंडमाइजेशन ट्रिक का उपयोग करते हुए, बहुपद-आकार के लुकअप टेबल के साथ एक रेफ़रेड गेम के रूप में एक साधारण स्टॉचस्टिक गेम लिखना आसान है।

— पीटर शोर
स्रोत

वह यादृच्छिककरण विचार (कम से कम, जैसा कि आपने इसे वर्णित किया है) केवल तर्कसंगत संभावनाएं दे सकता है।

$\:$ इसके अलावा, आपके द्वारा पहले दो पेपरों में इस्तेमाल की गई परिभाषाओं का यह भी अर्थ है कि उनके खेल में एक परिमित गेम ट्री है, जबकि मुझे केवल एक परिमित राज्य स्थान की आवश्यकता है (जहाँ "राज्य" में खेल का इतिहास शामिल नहीं है)।

आप सही हैं ... मेरे उत्तर का पहला भाग गलत है। मुझे इसे हटाने दें। मुझे पूरा यकीन है कि सरल स्टोकेस्टिक खेलों के मूल्य का अनुमान लगाने पर पी में होने का पता नहीं चलता है, जब सभी सिक्का फ़्लिप संभावना 1/2 है।

— पीटर शोर

$\epsilon$ $0<\epsilon$

इनपुट: एक गेम जैसा कि मेरे प्रश्न में वर्णित है,
उसे YES आउटपुट करना होगा यदि: प्लेयर 1 के लिए गेम का मान 1 से अधिक है $\hspace{.025 in}\epsilon$
$\epsilon$

अवशेष फिर भी जब -हार्ड

player_to_move हमेशा 1 (यानी, केवल 1 खिलाड़ी की जरूरत है) है
और
रों ₀ ≠ रों _एक और एस _एक रेंज (next_state_table) में नहीं है
(यानी, यह सचमुच असंभव खिलाड़ी कम करने के लिए के लिए है)
और
p1_info और p2_info और number_of_choices राज्य से स्वतंत्र हैं
(यानी, खिलाड़ी की केवल प्रतिक्रिया है कि यह जीता गया या नहीं)

।