1. UNNECESSARY PROBABILITIES।
इस नोट के अगले दो खंड "सिद्धांत का अनुमान लगाते हैं जो बड़ा है" और "दो लिफाफा" समस्याएँ निर्णय सिद्धांत (2) के मानक उपकरण का उपयोग करते हैं। यह दृष्टिकोण, हालांकि सीधा है, नया प्रतीत होता है। विशेष रूप से, यह दो लिफाफे समस्या के लिए निर्णय प्रक्रियाओं के एक सेट की पहचान करता है जो "हमेशा स्विच" या "कभी स्विच नहीं" प्रक्रियाओं से बेहतर प्रदर्शन करते हैं।
धारा 2 में (मानक) शब्दावली, अवधारणाओं और संकेतन का परिचय दिया गया है। यह "अनुमान के लिए सभी संभावित निर्णय प्रक्रियाओं का विश्लेषण करता है जो बड़ी समस्या है।" इस सामग्री से परिचित पाठक इस अनुभाग को छोड़ना पसंद कर सकते हैं। धारा 3 दो लिफाफा समस्या के लिए एक समान विश्लेषण लागू करता है। धारा 4, निष्कर्ष, प्रमुख बिंदुओं को सारांशित करता है।
इन पहेलियों के सभी प्रकाशित विश्लेषण मान लेते हैं कि प्रकृति की संभावित अवस्थाओं को नियंत्रित करने वाला एक संभाव्यता वितरण है। हालांकि, यह धारणा पहेली वक्तव्यों का हिस्सा नहीं है। इन विश्लेषणों का मुख्य विचार यह है कि इस (अनुचित) धारणा को छोड़ने से इन पहेलियों में स्पष्ट विरोधाभासों का सरल समाधान हो सकता है।
2. "लगता है जो बड़ा है" समस्या है।
एक प्रयोगकर्ता को बताया जाता है कि अलग-अलग वास्तविक संख्याएँ और x 2 कागज की दो पर्चियों पर लिखी जाती हैं। वह यादृच्छिक रूप से चुनी गई पर्ची पर संख्या को देखती है। केवल इस एक अवलोकन के आधार पर, उसे यह तय करना होगा कि वह दो संख्याओं में से छोटी है या बड़ी है।x1x2
प्रायिकता के बारे में इस तरह की सरल लेकिन ओपन एंडेड समस्याएं भ्रामक और जवाबी कार्रवाई के लिए कुख्यात हैं। विशेष रूप से, कम से कम तीन अलग-अलग तरीके हैं जिसमें संभावना चित्र में प्रवेश करती है। इसे स्पष्ट करने के लिए, आइए एक औपचारिक प्रयोगात्मक दृष्टिकोण अपनाएँ (2)।
एक हानि फ़ंक्शन निर्दिष्ट करके शुरू करें । हमारा लक्ष्य नीचे दिए गए अर्थों में, इसकी अपेक्षा को कम करना होगा। एक अच्छा विकल्प यह है कि नुकसान को बराबर किया जाए जब प्रयोगकर्ता सही ढंग से अनुमान लगाता है और 0 अन्यथा। इस नुकसान फ़ंक्शन की उम्मीद गलत तरीके से अनुमान लगाने की संभावना है। सामान्य तौर पर, गलत अनुमानों के लिए विभिन्न दंडों को निर्दिष्ट करके, एक हानि फ़ंक्शन सही अनुमान लगाने के उद्देश्य को पकड़ लेता है। यह सुनिश्चित करने के लिए, हानि फ़ंक्शन को अपनाना x 1 और x 2 पर पूर्व संभाव्यता वितरण मानकर मनमाना है 10x1x2, लेकिन यह अधिक प्राकृतिक और मौलिक है। जब हम निर्णय लेने का सामना करते हैं, तो हम स्वाभाविक रूप से सही या गलत होने के परिणामों पर विचार करते हैं। अगर किसी भी तरह से कोई परिणाम नहीं हैं, तो देखभाल क्यों करें? जब भी हम (तर्कसंगत) निर्णय लेते हैं, तब हम संभावित नुकसान के बारे में विचार करते हैं और इसलिए हम नुकसान के स्पष्ट विचार से लाभान्वित होते हैं, जबकि कागज की पर्चियों पर संभावित मूल्यों का वर्णन करने के लिए संभाव्यता का उपयोग अनावश्यक, कृत्रिम, और-जैसा है। हम देखेंगे - उपयोगी समाधान प्राप्त करने से हमें रोक सकते हैं।
निर्णय सिद्धांत मॉडल का अवलोकन करता है और उनका विश्लेषण करता है। यह तीन अतिरिक्त गणितीय वस्तुओं का उपयोग करता है: एक नमूना स्थान, "प्रकृति की स्थिति" और एक निर्णय प्रक्रिया का एक सेट।
नमूना स्थान में सभी संभावित प्रेक्षण होते हैं; यहाँ इसे R (वास्तविक संख्याओं के समुच्चय) से पहचाना जा सकता है । SR
प्रकृति के राज्यों संभव संभावना प्रयोगात्मक परिणाम को नियंत्रित करने वाले वितरण कर रहे हैं। (यह पहली भावना है जिसमें हम किसी घटना की "संभावना" के बारे में बात कर सकते हैं।) "अनुमान" जो बड़ा है "समस्या में, ये अलग-अलग वास्तविक संख्याओं x 1 और x 2 पर समान संभावनाओं वाले मान लेने वाले असतत वितरण हैं। की 1Ωx1x2 प्रत्येक मूल्य पर। Ω द्वारा parameterized जा सकती है{ω=(एक्स1,एक्स2)∈आर×आर| x1>x2}।12Ω{ω=(x1,x2)∈R×R | x1>x2}.
निर्णय अंतरिक्ष द्विआधारी सेट है संभव फैसले के।Δ={smaller,larger}
इन शब्दों में, हानि फ़ंक्शन Δ × Ω पर परिभाषित एक वास्तविक-मूल्यवान फ़ंक्शन हैΩ×Δ । यह हमें बताता है कि वास्तविकता की तुलना में (दूसरा तर्क) एक निर्णय कितना बुरा है (पहला तर्क)।
सबसे सामान्य निर्णय प्रक्रिया प्रयोगकर्ता के लिए उपलब्ध एक है बेतरतीब एक: किसी भी प्रयोगात्मक परिणाम के लिए अपने मूल्य पर एक प्रायिकता वितरण है Δ । है यही कारण है, निर्णय के अवलोकन के परिणाम पर बनाने के लिए एक्स जरूरी निश्चित नहीं है, बल्कि बेतरतीब ढंग से एक वितरण के अनुसार चुना जाना है δ ( एक्स ) । (यह दूसरा तरीका है जिसमें संभावना शामिल हो सकती है।)δΔxδ(x)
जब में केवल दो तत्व होते हैं, तो किसी भी यादृच्छिक प्रक्रिया को उस संभावित निर्णय द्वारा पहचाना जा सकता है, जो किसी निर्धारित निर्णय को सौंपता है, जिसे हम "बड़ा" होने के लिए ठोस मानते हैं। Δ
एक भौतिक स्पिनर लागू इस तरह के एक द्विआधारी यादृच्छिक प्रक्रिया: स्वतंत्र रूप से घूमने सूचक ऊपरी क्षेत्र में बंद करने के लिए, में एक निर्णय करने के लिए इसी आ जाएगा संभावना के साथ, δ संभावना के साथ निचले बाएँ क्षेत्र में बंद हो जाएगा, और नहीं तो 1 - δ ( x ) । स्पिनर पूरी तरह से के मान को निर्दिष्ट करके निर्धारित किया जाता है δ ( एक्स ) ∈ [ 0 , 1 ] ।Δδ1−δ(x)δ(x)∈[0,1]
इस प्रकार एक निर्णय प्रक्रिया को एक कार्य के रूप में सोचा जा सकता है
δ′:S→[0,1],
कहाँ पे
Prδ(x)(larger)=δ′(x) and Prδ(x)(smaller)=1−δ′(x).
इसके विपरीत, ऐसा कोई भी कार्य ′ एक यादृच्छिक निर्णय प्रक्रिया निर्धारित करता है। बेतरतीब निर्णय विशेष मामले में नियतात्मक निर्णय शामिल हैं जहां की सीमा δ ' में निहित है { 0 , 1 }δ′δ′{0,1} ।
हमें का कहना है कि चलो लागत एक निर्णय प्रक्रिया के के लिए एक परिणाम एक्स की उम्मीद नुकसान हुआ है δ ( एक्स ) । उम्मीद संभावना वितरण के संबंध में है δ ( एक्स ) निर्णय अंतरिक्ष पर Δ । प्रकृति के प्रत्येक राज्य ω (जो, याद, नमूना अंतरिक्ष पर एक द्विपद प्रायिकता वितरण है एस ) किसी भी प्रक्रिया की उम्मीद की लागत निर्धारित करता है δ ; यह वह जगह है जोखिम के δ के लिए ω , जोखिम δ ( ω )δxδ(x)δ(x)ΔωSδδωRiskδ(ω)। इधर, उम्मीद प्रकृति के राज्य के संबंध में लिया जाता है ।ω
निर्णय प्रक्रिया की तुलना उनके जोखिम कार्यों के संदर्भ में की जाती है। जब प्रकृति के राज्य को सही मायने में अज्ञात है, और δ दो प्रक्रियाओं हैं, और जोखिम ε ( ω ) ≥ जोखिम δ ( ω ) सभी के लिए ω , तो प्रक्रिया का उपयोग कर में कोई मतलब नहीं है ε , क्योंकि प्रक्रिया δ किसी भी बदतर नहीं है ( और कुछ मामलों में बेहतर हो सकता है)। तरह की एक प्रक्रिया ε है अग्राह्यεδRiskε(ω)≥Riskδ(ω)ωεδε; अन्यथा, यह स्वीकार्य है। अक्सर कई स्वीकार्य प्रक्रियाएं मौजूद हैं। हम उनमें से किसी को भी "अच्छा" मानेंगे, क्योंकि उनमें से कोई भी किसी अन्य प्रक्रिया द्वारा लगातार बाहर किया जा सकता है।
ध्यान दें कि कोई पूर्व वितरण (1) की शब्दावली में Ω (" सी के लिए एक मिश्रित रणनीति") पर पेश नहीं किया गया है । यह तीसरा तरीका है जिसमें संभावना समस्या की स्थापना का हिस्सा हो सकती है। इसका उपयोग वर्तमान विश्लेषण को (1) और उसके संदर्भों की तुलना में अधिक सामान्य बनाता है, जबकि अभी तक सरल है।ΩC
तालिका 1 मूल्यांकन करता है जोखिम जब प्रकृति की सही स्थिति के द्वारा दिया जाता उस x 1 > x 2 को याद करें ।ω=(x1,x2).x1>x2.
तालिका एक।
Decision:Outcomex1x2Probability1/21/2LargerProbabilityδ′(x1)δ′(x2)LargerLoss01SmallerProbability1−δ′(x1)1−δ′(x2)SmallerLoss10Cost1−δ′(x1)1−δ′(x2)
Risk(x1,x2): (1−δ′(x1)+δ′(x2))/2.
इन शब्दों में "अनुमान जो बड़ा है" समस्या बन जाता है
यह देखते हुए कि आप के बारे में कुछ भी नहीं पता और एक्स 2 , सिवाय इसके कि वे अलग हैं, तो आप एक निर्णय प्रक्रिया पा सकते हैं δ जिसके लिए जोखिम [ 1 - δ ' ( अधिकतम ( एक्स 1 , x 2 ) ) + δ ' ( मिनट ( एक्स 1 , x 2 ) ) ] / 2 निश्चित रूप से 1 से कम हैx1x2δ[1–δ′(max(x1,x2))+δ′(min(x1,x2))]/2 ?12
इस बयान की आवश्यकता होती है के बराबर है जब भी एक्स > y । जिस कारण से, यह आवश्यक है और प्रयोगकर्ता के निर्णय प्रक्रिया के लिए पर्याप्त कुछ सख्ती से बढ़ा हुआ कार्य द्वारा निर्दिष्ट किया जा रहा है δ ' : एस → [ 0 , 1 ] । प्रक्रियाओं के इस सेट में शामिल हैं, लेकिन 1 के सभी "मिश्रित रणनीतियों क्यू " से बड़ा है । कर रहे हैं यादृच्छिक निर्णय प्रक्रियाओं है कि किसी भी unrandomized प्रक्रिया की तुलना में बेहतर कर रहे हैं!δ′(x)>δ′(y)x>y.δ′:S→[0,1].Q बहुत सारे
3. "दो विकास" समस्या।
यह उत्साहजनक है कि इस सरल विश्लेषण ने "अनुमान जो बड़ा है" समस्या के समाधान के एक बड़े सेट का खुलासा किया, जिसमें अच्छे लोग भी शामिल हैं जिनकी पहचान पहले नहीं की गई है। आइए देखें कि हमारे सामने अन्य समस्या के बारे में एक ही दृष्टिकोण क्या प्रकट कर सकता है, "दो लिफाफा" समस्या (या "बॉक्स समस्या," जैसा कि इसे कभी-कभी कहा जाता है)। यह एक खेल को दो लिफाफों में से एक का चयन करते हुए बेतरतीब ढंग से खेला जाता है, जिनमें से एक को दूसरे के रूप में दो बार ज्यादा पैसा देने के लिए जाना जाता है। लिफाफा खोलने और राशि अवलोकन करने के बाद x इसमें पैसे का, खिलाड़ी यह तय करता है कि पैसे को बिना बंद लिफाफे ("स्विच") में रखना है या पैसे को खुले लिफाफे में रखना है। कोई सोचता है कि स्विचिंग और स्विचिंग समान रूप से स्वीकार्य रणनीति नहीं होगी, क्योंकि खिलाड़ी भी उतना ही अनिश्चित है जितना लिफाफा में बड़ी राशि होती है। विरोधाभास यह है कि स्विचिंग सबसे अच्छा विकल्प लगता है, क्योंकि यह और x / 2 के भुगतान के बीच "समान रूप से संभावित" विकल्प प्रदान करता है , जिसका अनुमानित मूल्य 5 x / 4 खुले लिफाफे में मूल्य से अधिक है। ध्यान दें कि ये दोनों रणनीतियाँ नियतात्मक और स्थिर हैं।2xx/2,5x/4
इस स्थिति में, हम औपचारिक रूप से लिख सकते हैं
SΩΔ={x∈R | x>0},={Discrete distributions supported on {ω,2ω} | ω>0 and Pr(ω)=12},and={Switch,Do not switch}.
पहले के रूप में, कोई भी निर्णय प्रक्रिया से एक समारोह माना जा सकता है एस के लिए [ 0 , 1 ] , स्विचिंग नहीं है, जो फिर से लिखा जा सकता है की संभावना के साथ संबद्ध द्वारा इस समय δ ' ( x ) । निश्चित रूप से स्विचिंग चाहिए की संभावना पूरक मान हो 1 - δ ' ( x ) ।δS[0,1],δ′(x)1–δ′(x).
तालिका 2 में दिखाया गया नुकसान, खेल के भुगतान का नकारात्मक है। यह प्रकृति की सही स्थिति की एक समारोह है , परिणाम एक्स (जो या तो हो सकता है ω या 2 ω , और निर्णय है, जो परिणाम पर निर्भर करता है)।ωxω2ω
तालिका 2।
Outcome(x)ω2ωLossSwitch−2ω−ωLossDo not switch−ω−2ωCost−ω[2(1−δ′(ω))+δ′(ω)]−ω[1−δ′(2ω)+2δ′(2ω)]
In addition to displaying the loss function, Table 2 also computes the cost of an arbitrary decision procedure δ. Because the game produces the two outcomes with equal probabilities of 12, the risk when ω is the true state of nature is
Riskδ(ω)=−ω[2(1−δ′(ω))+δ′(ω)]/2+−ω[1−δ′(2ω)+2δ′(2ω)]/2=(−ω/2)[3+δ′(2ω)−δ′(ω)].
A constant procedure, which means always switching (δ′(x)=0) or always standing pat (δ′(x)=1), will have risk −3ω/2. Any strictly increasing function, or more generally, any function δ′ with range in [0,1] for which δ′(2x)>δ′(x) for all positive real x, determines a procedure δ having a risk function that is always strictly less than −3ω/2 and thus is superior to either constant procedure, regardless of the true state of nature ω! The constant procedures therefore are inadmissible because there exist procedures with risks that are sometimes lower, and never higher, regardless of the state of nature.
Comparing this to the preceding solution of the “guess which is larger” problem shows the close connection between the two. In both cases, an appropriately chosen randomized procedure is demonstrably superior to the “obvious” constant strategies.
These randomized strategies have some notable properties:
There are no bad situations for the randomized strategies: no matter how the amount of money in the envelope is chosen, in the long run these strategies will be no worse than a constant strategy.
No randomized strategy with limiting values of 0 and 1 dominates any of the others: if the expectation for δ when (ω,2ω) is in the envelopes exceeds the expectation for ε, then there exists some other possible state with (η,2η) in the envelopes and the expectation of ε exceeds that of δ .
The δ strategies include, as special cases, strategies equivalent to many of the Bayesian strategies. Any strategy that says “switch if x is less than some threshold T and stay otherwise” corresponds to δ(x)=1 when x≥T,δ(x)=0 otherwise.
What, then, is the fallacy in the argument that favors always switching? It lies in the implicit assumption that there is any probability distribution at all for the alternatives. Specifically, having observed x in the opened envelope, the intuitive argument for switching is based on the conditional probabilities Prob(Amount in unopened envelope | x was observed), which are probabilities defined on the set of underlying states of nature. But these are not computable from the data. The decision-theoretic framework does not require a probability distribution on Ω in order to solve the problem, nor does the problem specify one.
This result differs from the ones obtained by (1) and its references in a subtle but important way. The other solutions all assume (even though it is irrelevant) there is a prior probability distribution on Ω and then show, essentially, that it must be uniform over S. That, in turn, is impossible. However, the solutions to the two-envelope problem given here do not arise as the best decision procedures for some given prior distribution and thereby are overlooked by such an analysis. In the present treatment, it simply does not matter whether a prior probability distribution can exist or not. We might characterize this as a contrast between being uncertain what the envelopes contain (as described by a prior distribution) and being completely ignorant of their contents (so that no prior distribution is relevant).
4. CONCLUSIONS.
In the “guess which is larger” problem, a good procedure is to decide randomly that the observed value is the larger of the two, with a probability that increases as the observed value increases. There is no single best procedure. In the “two envelope” problem, a good procedure is again to decide randomly that the observed amount of money is worth keeping (that is, that it is the larger of the two), with a probability that increases as the observed value increases. Again there is no single best procedure. In both cases, if many players used such a procedure and independently played games for a given ω, then (regardless of the value of ω) on the whole they would win more than they lose, because their decision procedures favor selecting the larger amounts.
In both problems, making an additional assumption-—a prior distribution on the states of nature—-that is not part of the problem gives rise to an apparent paradox. By focusing on what is specified in each problem, this assumption is altogether avoided (tempting as it may be to make), allowing the paradoxes to disappear and straightforward solutions to emerge.
REFERENCES
(1) D. Samet, I. Samet, and D. Schmeidler, One Observation behind Two-Envelope Puzzles. American Mathematical Monthly 111 (April 2004) 347-351.
(2) J. Kiefer, Introduction to Statistical Inference. Springer-Verlag, New York, 1987.
sum(p(X) * (1/2X*f(X) + 2X(1-f(X)) ) = X
, जहां f (X) पहले लिफाफे के बड़े होने की संभावना है, किसी भी विशेष एक्स को देखते हुए।