सिक्का फ़्लिप करना, निर्णय प्रक्रिया और सूचना का मूल्य

निम्नलिखित सेटअप की कल्पना करें: आपके पास 2 सिक्के हैं, सिक्का ए जो उचित होने की गारंटी है, और सिक्का बी जो उचित हो सकता है या नहीं। आपको 100 सिक्के फ़्लिप करने के लिए कहा जाता है, और आपका उद्देश्य सिर की संख्या को अधिकतम करना है ।

सिक्का बी के बारे में आपकी पूर्व सूचना यह है कि यह 3 बार फ़्लिप किया गया था और 1 सिर मिला था। यदि आपका निर्णय नियम केवल 2 सिक्कों के प्रमुखों की अपेक्षित संभावना की तुलना पर आधारित था, तो आप सिक्के को 100 बार फ्लिप करेंगे और इसके साथ किया जाएगा। यह तब भी सच है जब संभावनाओं के उचित बायेसियन अनुमान (पीछे के साधन) का उपयोग करते हुए, क्योंकि आपके पास यह विश्वास करने का कोई कारण नहीं है कि सिक्का बी अधिक सिर देता है।

हालांकि, क्या होगा अगर सिक्का बी वास्तव में सिर के पक्ष में पक्षपाती है? निश्चित रूप से "संभावित प्रमुखों" को आप सिक्का बी को दो बार फ्लिप करके छोड़ देते हैं (और इसलिए इसके सांख्यिकीय गुणों के बारे में जानकारी प्राप्त करना) कुछ अर्थों में मूल्यवान होगा और इसलिए आपके निर्णय में महत्वपूर्ण होगा। इस "सूचना के मूल्य" को गणितीय रूप से कैसे वर्णित किया जा सकता है?

प्रश्न: आप इस परिदृश्य में गणितीय निर्णय कैसे लेते हैं?

bayesian decision-theory

— एम। साइरफ्रे
स्रोत

मैं अपना उत्तर हटा रहा हूं। बहुत से लोग शिकायत कर रहे हैं कि मैंने स्पष्ट रूप से एक प्राथमिकता का उपयोग किया है (जो साहित्य में मानक है)। कैम डेविडसन पिलोन के गलत जवाब का आनंद लें जहां वह एक पूर्व (लेकिन कोई भी वस्तु) नहीं मानता है और इष्टतम विधि के रूप में दावा करता है जो इष्टतम से 1.035 नीचे है।

— डगलस ज़ारे

वाह, यह सब कब हुआ? BTW, मैं डगलस से सहमत होगा कि एक पूर्व का उपयोग करना ठीक है। मैं अपनी इष्टतमता के दावे को वापस लेता हूं, साथ ही साथ।

— Cam.Davidson.Pilon

मैं कैम के समाधान को स्वीकार कर रहा हूं क्योंकि इससे मुझे बहुत मदद मिली। मैं मानता हूं कि यह इष्टतम नहीं है, लेकिन जब तक कोई व्यक्ति एक सामान्य इष्टतम समाधान को इंगित नहीं कर सकता है जिसे आसानी से गणना की जा सकती है, यह सबसे अच्छा शर्त है।

— एम। साइरफ

यह इतना बुरा क्यों था कि मैंने एक प्रश्न का उत्तर देने के लिए एक पूर्व (जिसका मैंने स्पष्ट रूप से इस्तेमाल किया था) "बायेसियन?"

— डगलस ज़ारे

मैंने पूर्व के उपयोग की आलोचना नहीं की। मैंने एक उल्लेख के रूप में उल्लेख किया है कि वर्दी एक (जैसे जेफरी) की तुलना में अधिक उपयुक्त पुजारी हो सकते हैं, लेकिन यह केवल सवाल के लिए थोड़ा प्रासंगिक है। आपका समाधान पूरी तरह से ठीक था, बस मेरे लिए उतना उपयोगी नहीं था क्योंकि यह आसानी से सामान्य नहीं करता है।

— एम। साइरफ

जवाबों:

बहु-सशस्त्र दस्यु

यह एक बहु-सशस्त्र डाकू समस्या का एक विशेष मामला है । मैं एक विशेष मामला कहता हूं क्योंकि आम तौर पर हम प्रमुखों की किसी भी संभावना को नहीं जानते हैं (इस मामले में हम जानते हैं कि सिक्कों में से किसी एक की संभावना 0.5 है)।

आपके द्वारा उठाया गया मुद्दा अन्वेषण बनाम शोषण दुविधा के रूप में जाना जाता है: क्या आप अन्य विकल्पों का पता लगाते हैं, या क्या आपको लगता है कि आपके पास सबसे अच्छा है। एक तात्कालिक इष्टतम समाधान यह मानते हुए कि आप सभी संभावनाओं को जानते थे : बस सिक्के को जीतने की उच्चतम संभावना के साथ चुनें। जैसा कि आपने बताया है, समस्या यह है कि हम इस बारे में अनिश्चित हैं कि सही संभावनाएँ क्या हैं।

इस विषय पर बहुत सारे साहित्य हैं, और कई निर्धारक एल्गोरिदम हैं, लेकिन चूंकि आपने इस बायेसियन को टैग किया है, इसलिए मैं आपको अपने व्यक्तिगत पसंदीदा समाधान के बारे में बताना चाहूंगा: बायेसियन बैंडिट !

बेज़ियन बैंडिट समाधान

इस समस्या के लिए बायेसियन दृष्टिकोण बहुत स्वाभाविक है। हम जवाब देने में रुचि रखते हैं "क्या संभावना है कि सिक्का एक्स दोनों में से बेहतर है?"।

$p_B$

$Beta( 1 + 1, 1 + 2)$

यहाँ छवि विवरण दर्ज करें

लगभग इष्टतम रणनीति खोजना

अब जब हमारे पास डाकटर हैं, तो क्या करना है? हम उत्तर देने में रुचि रखते हैं "बी क्या संभावना सिक्का दो में से बेहतर है" (हमारे बायेसियन दृष्टिकोण से याद रखें, हालांकि एक निश्चित उत्तर है जिसमें से एक बेहतर है, हम केवल संभावनाओं में बात कर सकते हैं):

w_{B} = P (p_{b} > 0.5)

$w_B = P( p_b > 0.5 )$

$w_B$ $1 - w_B$ $w_B$

1. Sample P_B from the posterior of coin B
2. If P_B > 0.5, choose coin B, else choose coin A.

यह योजना भी स्व-अद्यतन है। जब हम सिक्का बी को चुनने के परिणाम का निरीक्षण करते हैं, तो हम इस नई जानकारी के साथ अपने पोस्टीरियर को अपडेट करते हैं, और फिर से चयन करते हैं। इस तरह, अगर सिक्का बी वास्तव में खराब है तो हम इसे कम चुनेंगे, और यह सिक्का बी वास्तव में अच्छा है, हम इसे और अधिक बार चुनेंगे। बेशक, हम Bayesians हैं, इसलिए हम कभी भी निश्चित नहीं हो सकते हैं कि B बेहतर है। इस तरह संभाव्य रूप से चुनना अन्वेषण-शोषण दुविधा का सबसे स्वाभाविक समाधान है।

यह थॉम्पसन नमूनाकरण का एक विशेष उदाहरण है । अधिक जानकारी, और ऑनलाइन विज्ञापन के लिए अच्छे अनुप्रयोग, Google के शोध पत्र और याहू के शोध पत्र में देखे जा सकते हैं । मुझे यह सामान पसंद है!

— Cam.Davidson.Pilon
स्रोत

मुझे नहीं लगता कि रणनीति सही है। मुझे नहीं लगता कि आपको चुनना चाहिए कि क्या आपको ए या बी संभावित रूप से चुनना है।

— डगलस ज़ारे

मुझे नहीं लगता कि वह कागज कहता है जो आप सोचते हैं कि वह करता है। यदि आप असहमत हैं, तो कृपया उस रणनीति के तहत प्राप्त किए जाने वाले अपेक्षित शीर्षों की गणना करें।

— डगलस ज़ारे

मुझे नहीं लगता कि यह इष्टतम के करीब है। यह बताता है कि पहले फ्लिप पर, आपने बी को प्रायिकता 1/2 के साथ चुना था। यह स्पष्ट होना चाहिए कि यदि आप A चुनते हैं तो आपको कोई जानकारी नहीं मिलती है, इसलिए आपको हर समय B चुनना चाहिए। जब आप इसे बनाते हैं तो इस त्रुटि से आपकी राशि लगभग 0.12 हो जाती है, इसलिए पहले चरण में इसकी लागत लगभग 0.06 होती है। जब आप अगले कुछ चरणों में किसी भी जानकारी को इकट्ठा करने का फैसला करने के लिए एक सिक्का फ्लिप करते हैं तो आप एक समान राशि खो देते हैं। एक फ़्लिपिंग का मतलब है कि आपके पास एक फायदा उठाने के लिए कम समय है जो आपको मिल सकता है।

— डगलस ज़ारे

0.5

$0.5$

@DouglasZare यदि आपका एकमात्र माप सिर की अपेक्षित संख्या है, जो हमारे सिक्के को दिया जाता है, तो सबसे अच्छी रणनीति यह है कि सिक्का को हमेशा चुना जाए। लेकिन यह अधूरा है क्योंकि यह विस्फोट पर बहुत अधिक ध्यान केंद्रित करता है , और संभावित साइड पर पर्याप्त नहीं है। अन्वेषण । आपके सुझाव का तार्किक निष्कर्ष यह है, अगर हम प्रयोग को फिर से शुरू करते हैं, तो सिक्के B को एक बार फ्लिप करें: यदि यह पूंछ है, तो हमेशा A चुनें; इसे फिर से फ्लिप करें, अगर यह हेड है हमेशा बी चुनें

— Cam.Davidson.Pilon

यह एक बहु-सशस्त्र दस्यु समस्या का एक साधारण मामला है। जैसा कि आप नोट करते हैं, आप अपने पास मौजूद ज्ञान के शोषण के खिलाफ अल्पावधि में जब आप सोचते हैं कि अज्ञात सिक्का आज़माकर आपके द्वारा एकत्रित की गई जानकारी को संतुलित करना चाहते हैं।

$1/2$

सामान्य तौर पर, मुझे लगता है कि आप एक गतिशील प्रोग्रामिंग समस्या से दूर नहीं हो सकते, हालांकि कुछ विशेष मामले हो सकते हैं जहां इष्टतम रणनीति पाई जा सकती है और अधिक सरलता से जांच की जा सकती है।

एक समान पूर्व के साथ, यहां वह जगह है जहां आपको रुकना चाहिए:

$(0 ~ \text{heads}, 3 ~\text{tails}), (1 ~\text{head}, 5 ~\text{tails}), (2 ~\text{heads}, 6 ~\text{tails}), (3,7), (4,8),...(31,35), (32,35), (33,36), (34,37), ... (41,44), (42,44), ... (46,48), (47,48), (48,49), (49,50)$

$61.3299$

मैंने समीकरणों की गणना करने के लिए निम्नलिखित गणित कोड का उपयोग किया:

Clear[Equity];
Equity[n_, heads_, tails_] := Equity[n, heads, tails] = 
    If[n == 0, heads, 
       Max[1/2 + Equity[n - 1, heads, tails], 
           (heads + 1)/(heads + tails + 2) Equity[n - 1, heads + 1, tails] + 
           (tails + 1)/(heads + tails + 2) Equity[n - 1, heads, tails + 1]
           ]
      ]

तुलना के लिए, थॉम्पसन सैंपलिंग ह्यूरिस्टिक (जो कैम डेविडसन पिलोन ने दावा किया है कि इष्टतम है) 1.03915 से कम 60.2907 सिर का औसत देता है। थॉम्पसन के नमूने में यह समस्या है कि यह कभी-कभी B का नमूना लेता है जब आपके पास यह जानने के लिए पर्याप्त जानकारी होती है कि यह एक अच्छा दांव नहीं है, और यह अक्सर बी को जल्दी नमूना करने के अवसरों को बर्बाद करता है, जब जानकारी सबसे अधिक मूल्य की होती है। इस प्रकार की समस्या में, आप अपने विकल्पों के बीच लगभग उदासीन नहीं रहते हैं, और एक शुद्ध इष्टतम रणनीति है।

tp[heads_, tails_] := tp[heads, tails] = 
    Integrate[x^heads (1 - x)^tails / Beta[heads + 1, tails + 1], {x, 0, 1/2}]


Clear[Thompson];
Thompson[flipsLeft_, heads_, tails_] := Thompson[flipsLeft, heads, tails] = 
    If[flipsLeft == 0, heads, 
       Module[{p = tp[heads, tails]}, 
           p (1/2 + Thompson[flipsLeft-1,heads,tails]) + 
           (1-p)((heads+1)/(heads+tails+2)Thompson[flipsLeft-1,heads+1,tails] + 
           ((tails+1)/(heads+tails+2)) Thompson[flipsLeft-1,heads,tails+1])]]

— डगलस ज़ारे
स्रोत

मैं मानता हूं कि एक इष्टतम समाधान एक अनुमानित से बेहतर होगा। मुझे आश्चर्य है कि अगर एक इष्टतम सामान्य समाधान है जो कई सौ "सिक्कों" के साथ एक गतिशील वातावरण में मिलीसेकंड के भीतर कुशलता से लागू किया जा सकता है। यदि नहीं, तो मुझे लगता है कि थॉम्पसन का नमूना सबसे अच्छा विकल्प है।

— एम। साइरफ

थॉम्पसन का नमूना एक खराब अनुमान है। अगर आप (सबसे खराब द्विघात) सटीक गणना की परेशानी से नहीं गुजरना चाहते हैं, तो आप बेहतर अनुमान लगा सकते हैं, लेकिन फिर भी बड़ी त्रुटियों से बचना चाहते हैं। दरअसल, सटीक गणना रैखिक के करीब हो सकती है।

— डगलस ज़ारे

\underset{B}{Pr} (heads)

$\Pr_B(\text{heads})$

(0, 1)

$(0,1)$

1 / 2

$1/2$

50

$50$

मुझे पता नहीं है कि मैथेमेटिका है इसलिए मैं यह नहीं बता सकता कि आपने अपने अपेक्षित अंकों की गणना कैसे की। उस हिस्से की व्याख्या करने के लिए देखभाल? यदि हम यह मानते हैं कि सिक्का बी का पूर्वाग्रह एक समान वितरण [0,1] पर खींचा गया है, तो मैं यह नहीं देखता कि आप 50/50 को कैसे हरा सकते हैं।

— मरद

डगलस: क्योंकि मैंने आपके उत्तर पर अधिक ध्यान दिया है :-)। कृपया मुझे गलत मत समझो - मुझे यह पसंद है और मुझे यह धागा पसंद है। मैंने यह बताना महत्वपूर्ण समझा कि आपको अपना उत्तर प्राप्त करने के लिए एक धारणा जोड़ना होगा, बस। एक व्यावहारिक मामले के रूप में, कई स्थितियों में - इसमें एक-- कोई पूर्व नहीं है । (मुझे यकीन है कि पहले एक व्यक्तिगत बनाना नहीं होगा और फिर उस पर बड़ा पैसा लगाना होगा!) लेकिन निश्चित रूप से अभी भी एक इष्टतम है, बशर्ते आप एक हानि फ़ंक्शन निर्दिष्ट करें। ( "अधिकतम" एक उम्मीद एक पूर्ण हानि कार्य नहीं है।)

— whuber