संक्षिप्त संस्करण यह है कि बीटा वितरण को संभावनाओं के वितरण का प्रतिनिधित्व करने के रूप में समझा जा सकता है - अर्थात, यह एक संभाव्यता के सभी संभावित मूल्यों का प्रतिनिधित्व करता है, जब हम यह नहीं जानते कि वह संभावना क्या है। यहाँ इस की मेरी पसंदीदा सहज व्याख्या है:
जो कोई भी बेसबॉल का अनुसरण करता है वह बल्लेबाजी औसत से परिचित है - बस एक खिलाड़ी की संख्या जितनी बार बल्ले पर जाती है उतनी बार एक बेस हिट हो जाती है (इसलिए यह सिर्फ एक प्रतिशत के बीच है 0
और 1
)। .266
सामान्य तौर पर औसत बल्लेबाजी औसत .300
माना जाता है , जबकि एक उत्कृष्ट माना जाता है।
कल्पना कीजिए कि हमारे पास एक बेसबॉल खिलाड़ी है, और हम भविष्यवाणी करना चाहते हैं कि उसकी सीज़न-बल्लेबाजी औसत क्या होगी। आप कह सकते हैं कि हम अभी तक उनकी बल्लेबाजी औसत का उपयोग कर सकते हैं- लेकिन सीजन की शुरुआत में यह बहुत ही खराब उपाय होगा! अगर कोई खिलाड़ी एक बार बल्लेबाजी करने के लिए जाता है और उसे सिंगल मिलता है, तो उसकी बल्लेबाजी का औसत संक्षिप्त होता है 1.000
, जबकि अगर वह स्ट्राइक करता है, तो उसका बल्लेबाजी औसत होता है 0.000
। अगर आप पांच या छह बार बल्लेबाजी करने जाते हैं तो यह ज्यादा बेहतर नहीं होता है - आप एक भाग्यशाली लकीर प्राप्त कर सकते हैं और औसत प्राप्त कर सकते हैं 1.000
, या एक अशुभ लकीर प्राप्त कर सकते हैं और औसतन प्राप्त कर सकते हैं 0
, जिनमें से कोई भी एक दूर का अच्छा भविष्यवक्ता नहीं है कि कैसे आप उस सीजन में बल्लेबाजी करेंगे।
पहले कुछ हिट में आपकी बल्लेबाजी का औसत आपके अंतिम बल्लेबाजी औसत का अच्छा भविष्यवक्ता क्यों नहीं है? जब किसी खिलाड़ी की पहली बल्लेबाजी स्ट्राइक होती है, तो कोई भी भविष्यवाणी क्यों नहीं करता है कि वह कभी भी पूरे सीजन में हिट नहीं होगा? क्योंकि हम पूर्व की अपेक्षाओं के साथ जा रहे हैं। हम जानते हैं कि इतिहास में, एक सीज़न में सबसे अधिक बल्लेबाजी औसत कुछ के बीच .215
और .360
कुछ बेहद दुर्लभ अपवादों के बीच मँडराती है । हम जानते हैं कि अगर किसी खिलाड़ी को शुरुआत में एक पंक्ति में कुछ स्ट्राइक मिलती है, तो यह संकेत दे सकता है कि वह औसत से थोड़ा खराब होगा, लेकिन हम जानते हैं कि वह शायद उस सीमा से विचलित नहीं होगा।
हमारी बल्लेबाजी औसत समस्या को देखते हुए, जिसे एक द्विपद वितरण (सफलताओं और असफलताओं की एक श्रृंखला) के साथ दर्शाया जा सकता है , इन पूर्व अपेक्षाओं का प्रतिनिधित्व करने का सबसे अच्छा तरीका (जिसे हम आंकड़ों में सिर्फ एक पूर्व कहते हैं ) बीटा वितरण के साथ है- यह कह रहा है, इससे पहले कि हम खिलाड़ी को अपना पहला स्विंग लेते देखते हैं, हम उसकी बल्लेबाजी औसत की उम्मीद करते हैं। बीटा वितरण का डोमेन (0, 1)
एक संभावना की तरह है, इसलिए हम पहले से ही जानते हैं कि हम सही रास्ते पर हैं- लेकिन इस कार्य के लिए बीटा की उपयुक्तता इससे कहीं अधिक है।
हम उम्मीद करते हैं कि खिलाड़ी की सीज़न लंबे बल्लेबाजी औसत के आसपास सबसे अधिक संभावना होगी .27
, लेकिन यह काफी हद तक हो सकता .21
है .35
। इसे पैरामीटर के साथ बीटा वितरण के साथ दर्शाया जा सकता है और :α=81β=219
curve(dbeta(x, 81, 219))
मैं इन मापदंडों के साथ दो कारणों से आया हूं:
- माध्यαα+β=8181+219=.270
- जैसा कि आप भूखंड में देख सकते हैं, यह वितरण लगभग पूरी तरह से निहित है
(.2, .35)
- एक बल्लेबाजी औसत के लिए उचित सीमा।
आपने पूछा कि बीटा एक्सिस वितरण घनत्व प्लॉट में x अक्ष क्या दर्शाता है- यहाँ यह उसकी बल्लेबाजी औसत का प्रतिनिधित्व करता है। इस प्रकार ध्यान दें कि इस मामले में, न केवल y- अक्ष एक प्रायिकता (या अधिक सटीक रूप से एक प्रायिकता घनत्व) है, बल्कि x- अक्ष भी है (बल्लेबाजी औसत केवल हिट की संभावना है, आखिरकार)! बीटा वितरण संभावनाओं का एक संभावित वितरण का प्रतिनिधित्व कर रहा है ।
लेकिन यहाँ बीटा वितरण इतना उपयुक्त क्यों है। कल्पना कीजिए कि खिलाड़ी को एक हिट मिले। सीजन के लिए उनका रिकॉर्ड अब है 1 hit; 1 at bat
। फिर हमें अपनी संभावनाओं को अपडेट करना होगा- हम अपनी नई जानकारी को प्रतिबिंबित करने के लिए इस पूरे वक्र को थोड़ा सा स्थानांतरित करना चाहते हैं। जबकि यह साबित करने के लिए गणित थोड़ा सा शामिल है ( यह यहाँ दिखाया गया है ), परिणाम बहुत सरल है । नया बीटा वितरण होगा:
Beta(α0+hits,β0+misses)
कहाँ और मानकों हम हूँ- कि, 81 और 219 इस प्रकार है, इस मामले में, शुरू कर दिया हैं , 1 (अपने एक हिट) की वृद्धि हुई है, जबकि बिल्कुल नहीं बढ़ाई है (कोई चूक अभी तक )। इसका अर्थ है कि हमारा नया वितरण , या है:α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
ध्यान दें कि यह मुश्किल से बिल्कुल बदल गया है- परिवर्तन वास्तव में नग्न आंखों के लिए अदृश्य है! (ऐसा इसलिए है क्योंकि एक हिट वास्तव में कुछ भी मतलब नहीं है)।
हालांकि, खिलाड़ी सीजन के दौरान जितना अधिक हिट करेगा, नए सबूतों को समायोजित करने के लिए वक्र उतना ही अधिक स्थानांतरित होगा, और इसके अलावा यह इस तथ्य पर आधारित होगा कि हमारे पास अधिक प्रमाण है। मान लीजिए कि सीजन के आधे समय में वह 300 बार बल्लेबाजी करने के लिए उठे हैं, जिसमें से 100 बार हिट हुए हैं। नया वितरण , या होगा:Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
ध्यान दें कि कर्व अब दोनों पतले हैं और सही (उच्च बल्लेबाजी औसत) में स्थानांतरित हो गए हैं, जैसा कि खिलाड़ी के बल्लेबाजी औसत का एक बेहतर अर्थ है।
इस सूत्र के सबसे दिलचस्प आउटपुट में से एक परिणामी बीटा वितरण का अपेक्षित मूल्य है, जो मूल रूप से आपका नया अनुमान है। याद रखें कि बीटा वितरण का अपेक्षित मूल्य । इस प्रकार, 300 वास्तविक एट-बैट के 100 हिट के बाद, नए बीटा वितरण का अपेक्षित मूल्य - ध्यान दें कि यह भोले अनुमान से कम है। of , लेकिन अनुमान से अधिक आपने सीजन शुरू किया (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270)। आप देख सकते हैं कि यह फॉर्मूला किसी खिलाड़ी के हिट और नॉन-हिट्स में "हेड स्टार्ट" जोड़ने के बराबर है- आप कह रहे हैं "सीजन में उसे 81 हिट्स और 219 नॉन हिट्स उसके रिकॉर्ड के साथ शुरू करें" )।
इस प्रकार, संभावनाओं का एक संभावित वितरण का प्रतिनिधित्व करने के लिए बीटा वितरण सबसे अच्छा है - वह मामला जहां हमें पता नहीं है कि संभाव्यता अग्रिम में क्या है, लेकिन हमारे पास कुछ उचित अनुमान हैं।