बड़े अल्फा और बीटा के साथ बीटा वितरण के लिए मैं (संख्यात्मक रूप से) अनुमानित मूल्य कैसे कर सकता हूं


12

क्या बड़े पूर्णांक अल्फा, बीटा (जैसे अल्फा, बीटा> 1000000) के लिए बीटा वितरण के मूल्यों की गणना करने के लिए संख्यात्मक रूप से स्थिर तरीका है ?

वास्तव में, मुझे केवल मोड के चारों ओर 99% विश्वास अंतराल की आवश्यकता है, अगर वह किसी तरह समस्या को आसान बनाता है।

जोड़ें : मुझे क्षमा करें, मेरा प्रश्न उतना स्पष्ट नहीं था जितना मैंने सोचा था कि यह था। मैं यह करना चाहता हूं: मेरे पास एक मशीन है जो एक कन्वेयर बेल्ट पर उत्पादों का निरीक्षण करती है। इन उत्पादों का कुछ अंश मशीन द्वारा खारिज कर दिया जाता है। अब अगर मशीन ऑपरेटर कुछ निरीक्षण सेटिंग में बदलाव करता है, तो मैं उसे / उसकी अनुमानित अस्वीकृति दर और वर्तमान अनुमान कितना विश्वसनीय है के बारे में कुछ संकेत दिखाना चाहता हूं।

इसलिए मैंने सोचा कि मैं वास्तविक अस्वीकृति दर को एक यादृच्छिक चर X के रूप में मानता हूं, और अस्वीकार किए गए ऑब्जेक्ट N और स्वीकृत वस्तुओं की संख्या के आधार पर उस यादृच्छिक चर के लिए संभाव्यता वितरण की गणना करता हूं। यदि मैं X के लिए एक समान पूर्व वितरण मान लेता हूं, तो यह एक है एन और एम के आधार पर बीटा वितरण मैं या तो सीधे उपयोगकर्ता को यह वितरण प्रदर्शित कर सकता है या एक अंतराल [l, r] पा सकता है ताकि वास्तविक अस्वीकार दर p> = 0.99 (shabbychef की शब्दावली का उपयोग करके) के साथ इस अंतराल में हो और इसे प्रदर्शित करें मध्यान्तर। छोटे एम, एन (यानी पैरामीटर परिवर्तन के तुरंत बाद) के लिए, मैं सीधे वितरण की गणना कर सकता हूं और अंतराल [एल, आर] का अनुमान लगा सकता हूं। लेकिन बड़े एम, एन के लिए, इस भोले दृष्टिकोण को कम करने की त्रुटियों की ओर जाता है, क्योंकि x ^ N * (1-x) ^ M को डबल परिशुद्धता फ्लोट के रूप में दर्शाया जाना है।

मुझे लगता है कि मेरी सबसे अच्छी शर्त यह है कि मैं अपने छोटे-छोटे M, N के लिए भोले-भाले वितरण का उपयोग करूं और M, N जैसे ही थ्रेशोल्ड से अधिक हो, उसी माध्य और विचरण के साथ एक सामान्य वितरण पर स्विच करें। क्या इसका कोई मतलब है?


1
क्या आप गणित जानना चाहते हैं या बस आर या कुछ में एक कोड समाधान है?
जॉन

मुझे इसे C # में लागू करने की आवश्यकता है, इसलिए गणित अच्छा होगा। एक कोड नमूना भी ठीक होगा, अगर यह कुछ बिल्टिन R / Matlab / Mathematica फ़ंक्शन पर भरोसा नहीं करता है जो मैं C # में अनुवाद नहीं कर सकता।
nikie

पीडीएफ, सीडीएफ या उलटा सीडीएफ?
JM

यदि आप बीटा पर जोर नहीं देते हैं, तो आप कुमारस्वामी वितरण का उपयोग कर सकते हैं जो बहुत समान है और इसमें बहुत सरल बीजगणितीय रूप है: en.wikipedia.org/wiki/Kumaraswamy_distribution
टिम

जवाबों:


13

एक सामान्य सन्निकटन बहुत अच्छी तरह से काम करता है, खासकर पूंछों में। इनकी औसत का उपयोग करें और के विचरण । उदाहरण के लिए, इस तरह के रूप में एक कठिन स्थिति (जहां तिरछापन चिंता का विषय हो सकता है) में पूंछ संभावना में पूर्ण रिश्तेदार त्रुटि के आसपास चोटियों और से भी कम है जब आप कर रहे हैं 1 से अधिक एसडी मतलब से। (यह इसलिए नहीं है क्योंकि बीटा इतना बड़ा है: , पूर्ण सापेक्ष त्रुटियां सेα/(α+β)αβ(α+β)2(1+α+β)α=106,β=1080.000260.00006α=β=1060.0000001।) इस प्रकार, यह सन्निकटन अनिवार्य रूप से किसी भी उद्देश्य के लिए उत्कृष्ट है जिसमें 99% अंतराल शामिल है।

इस प्रश्न के संपादन के प्रकाश में, ध्यान दें कि कोई वास्तव में एकीकृत को एकीकृत करके बीटा इंटीग्रल की गणना नहीं करता है: बेशक आप कमज़ोर हो जाएंगे (हालांकि वे वास्तव में कोई फर्क नहीं पड़ता, क्योंकि वे अभिन्न रूप से योगदान नहीं करते हैं) । जॉनसन एंड कोटज़ (सांख्यिकी में वितरण) में प्रलेखित, अभिन्न या अनुमानित गणना करने के कई तरीके हैं। एक ऑनलाइन कैलकुलेटर http://www.danielsoper.com/statcalc/calc37.aspx पर पाया जाता है । आपको वास्तव में इस अभिन्न के विलोम की आवश्यकता है। व्युत्क्रम की गणना करने के कुछ तरीके http://functions.wolfram.com/GammaBetaErf/InverseBetaRegularized/ पर Mathematica साइट पर दर्ज़ किए गए हैं। कोड न्यूमेरिकल रेसिपी (www.nr.com) में दिया गया है। एक बहुत अच्छा ऑनलाइन कैलकुलेटर वुल्फराम अल्फा साइट (www.wolframalpha.com) है: inverse beta regularized (.005, 1000000, 1000001)बाएं समापन बिंदु के inverse beta regularized (.995, 1000000, 1000001)लिए और दाएं समापन बिंदु ( , 99% अंतराल) के लिए दर्ज करें।α=1000000,β=1000001


उत्तम! मेरे पास मेरी डेस्क पर हर समय एनआर बुक थी, लेकिन कभी वहाँ देखने के लिए नहीं सोचा था। बहुत बहुत धन्यवाद।
निकेई

3

एक त्वरित चित्रमय प्रयोग बताता है कि बीटा वितरण सामान्य वितरण की तरह दिखता है जब अल्फा और बीटा दोनों बहुत बड़े होते हैं। "बीटा डिस्ट्रीब्यूशन लिमिट नॉर्मल" को googling करके मैंने http://nrich.maths.org/discus/messages/117730/143065.html?1200700623 पाया , जो एक 'प्रूफ' का काम देता है।

बीटा वितरण के लिए विकिपीडिया पृष्ठ इसका अर्थ, मोड (बड़े अल्फा और बीटा के लिए मतलब के करीब) और विचरण देता है, इसलिए आप एक सन्निकटन प्राप्त करने के लिए समान माध्य और विचरण के साथ एक सामान्य वितरण का उपयोग कर सकते हैं। क्या यह आपके उद्देश्यों के लिए एक अच्छा पर्याप्त सन्निकटन है, इस बात पर निर्भर करता है कि आपके उद्देश्य क्या हैं।


मूर्खतापूर्ण प्रश्न: आपने उस चित्रमय प्रयोग को कैसे किया? मैंने 100 के आसपास अल्फा / बीटा के लिए वितरण की साजिश करने की कोशिश की, लेकिन मैं गलतफहमी के कारण कुछ भी नहीं देख सका।
nikie

आप अभिन्न साजिश नहीं करना चाहते हैं: आप अभिन्न साजिश करना चाहते हैं। हालाँकि, आप कई तरह से इंटीग्रेशन प्राप्त कर सकते हैं। वुल्फराम अल्फा साइट पर "प्लॉट डी (बीटा (एक्स, 1000000, 2000000), एक्स) / बीटा (1, 1000000, 2000000) 0.3325 से 0.334" दर्ज करना है। अभिन्न खुद को "प्लॉट बीटा (x, 1000000, 2000000) / बीटा (1, 1000000, 2000000) के साथ 0.3325 से 0.334" के साथ देखा जाता है।
whuber

मैंने स्टैटा में इंटीग्रैंड यानी बीटा डिस्ट्रीब्यूशन के पीडीएफ को प्लॉट किया - इसमें पीडीएफ़ के लिए बिल्टइन फंक्शन है। बड़े अल्फा और बीटा के लिए आपको प्लॉट की सीमा को सीमित करने की आवश्यकता है, यह देखने के लिए कि यह सामान्य के करीब है। अगर मैं इसे स्वयं प्रोग्रामिंग कर रहा था, तो मैं इसके लघुगणक की गणना करूँगा, फिर अंत में एक्सपेक्टिरिएट करें। कि अंडरफ्लो समस्याओं के साथ मदद करनी चाहिए। हर में बीटा फ़ंक्शन को गामा फ़ंक्शंस के संदर्भ में परिभाषित किया गया है, जो पूर्णांक अल्फा और बीटा के लिए फैक्टरियल के बराबर है, और कई पैकेज / लाइब्रेरी में लैंगमा () या lnfactorial () के बजाय / साथ ही गामा () और फैक्टोरियल () फ़ंक्शन शामिल हैं।
12

2

मैं आपको अनुमान लगाने जा रहा हूं कि आप एक अंतराल ऐसा चाहते हैं कि बीटा आरवी से एक यादृच्छिक ड्रा प्रायिकता 0.99 के साथ अंतराल में है, लिए बोनस अंक और मोड के चारों ओर सममित होने के साथ। तक गॉस 'असमानता या Vysochanskii-Petunin असमानता, आप अंतराल कि अंतराल शामिल निर्माण कर सकते हैं , और काफी सभ्य अनुमानों होगा। पर्याप्त रूप से बड़े , आपके पास अलग-अलग संख्याओं के रूप में और प्रतिनिधित्व करने में संख्यात्मक अंडरफ्लो मुद्दे होंगे , इसलिए यह मार्ग काफी अच्छा हो सकता है।एल आर [ एल , आर ] α , β एल आर[l,r]lr[l,r]α,β lr


जब अल्फा और बीटा बहुत अलग नहीं होते हैं (यानी, अल्फा / बीटा ऊपर और नीचे से बंधे होते हैं), बीटा का एसडी [अल्फा, बीटा] 1 / Sqrt (अल्फा) के समानुपाती होता है। जैसे, अल्फा = बीटा = १० ^ ६ के लिए, SD १ / Sqrt (/) / १००० के बहुत करीब है। मुझे लगता है कि l और r के प्रतिनिधित्व से कोई समस्या नहीं होगी, भले ही आप केवल एक ही सटीक फ्लोट का उपयोग कर रहे हों ।
whuber

जो कहना है कि 'पर्याप्त रूप से बड़ा नहीं है';)106
shabbychef

1
हाँ, यह बीटा एप्लिकेशन के लिए एक पागल संख्या है। BTW, उन असमानताओं को सभी में अच्छे अंतराल का उत्पादन नहीं होगा, क्योंकि वे सभी वितरणों (कुछ बाधाओं को संतोषजनक) पर चरम हैं।
whuber

@ शुभकर्ता: आप सही कह रहे हैं, वे पागल संख्या हैं। मेरे भोले एल्गोरिथ्म के साथ, "समझदार" संख्याएं आसान थीं और अच्छी तरह से काम करती थीं, लेकिन मैं कल्पना नहीं कर सकता था कि "पागल" मापदंडों के लिए इसकी गणना कैसे करें। इसलिए सवाल।
निकेई

2
ठीक है, आप सही कह रहे हैं: एक बार अल्फा + बीटा 10 ^ 30 से अधिक हो जाता है, तो आपको युगल :-) के साथ कठिनाइयाँ होंगी। (लेकिन अगर आप एल और अल्फा / (अल्फा + बीटा) के माध्य से मतभेद के रूप में आर प्रतिनिधित्व करते हैं, आप ठीक जब तक अल्फा या बीटा 10 ^ 303 के बारे में अधिक है हो जाएगा।)
whuber

1

यदि एक बीटा वितरित चर है, तो यह (यानी: का लॉग-ऑड है जो लगभग सामान्य रूप से वितरित किया जाता है। यह तिरछी बीटा वितरणों के साथ-साथ लिए भी सही है।पी एल जी ( पी / ( 1 - पी ) ) हूँ मैं n ( α , β ) > 100pplog(p/(1p))min(α,β)>100

उदाहरण के लिए

f <- function(n, a, b) {
    p <- rbeta(n, a, b)
    lor <- log(p/(1-p))
    ks.test(lor, 'pnorm', mean(lor), sd(lor))$p.value
}
summary(replicate(50, f(10000, 100, 1000000)))

आम तौर पर जैसे एक आउटपुट पैदा करता है

सारांश (प्रतिकृति (50, f (10000, 100, 1000000))) मिन। प्रथम भाव। माध्य मीन ३ कु। मैक्स। 0.01205 0.10870 0.18680 0.24810 0.36170 0.68730

यानी विशिष्ट पी-मान लगभग 0.2 हैं।

तो 10000 नमूनों के साथ भी Kolmogorov-Smirnov परीक्षण में एक अत्यधिक तिरछी बीटा वितरित चर के अंतर ऑडिशन अनुपात को अलग करने की शक्ति का अभाव है, जो साथ वितरित होता है ।α=100,β=100000

हालांकि के वितरण पर एक समान परीक्षण हीp

f2 <- function(n, a, b) {
    p <- rbeta(n, a, b)
    ks.test(p, 'pnorm', mean(p), sd(p))$p.value
}
summary(replicate(50, f2(10000, 100, 1000000)))

जैसा कुछ पैदा करता है

summary(replicate(50, f2(10000, 100, 1000000)))
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
2.462e-05 3.156e-03 7.614e-03 1.780e-02 1.699e-02 2.280e-01 

0.01 के आसपास ठेठ पी-मूल्यों के साथ

आर qqnormफ़ंक्शन भी एक सहायक दृश्य देता है, लॉग-ऑड वितरण के लिए एक बहुत ही सीधे दिखने वाले भूखंड का निर्माण करता है जो अनुमानित सामान्यता का संकेत देता है बीटा डिस्विटर चर का वितरण एक विशिष्ट वक्र का उत्पादन करता है जो गैर सामान्यता का संकेत देता है।

इसलिए जब तक कि दोनों 100 से अधिक न हों तक अत्यधिक तिरछे मानों के लिए लॉग-ऑड स्पेस में एक गाऊसी सन्निकटन का उपयोग करना उचित है ।α,β

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.