बीटा वितरण घनत्व फ़ंक्शन में -1 क्यों है?


18

बीटा वितरण दो पैरामीरीज़ेशन (या यहाँ ) के अंतर्गत आता है

( एक्स ) α x α ( 1x)β

f(x)xα(1x)β(1)

या वह जो अधिक सामान्यतः उपयोग किया जाता है

( एक्स ) α x α - 1 (1x)β1

f(x)xα1(1x)β1(2)

लेकिन वास्तव में दूसरे सूत्र में " " क्यों है ?11

पहले निर्माण सहज लग रहे हैं और सीधे द्विपद बंटन के अनुरूप

जी ( कश्मीर ) α पी कश्मीर ( 1 -p)nk

g(k)pk(1p)nk(3)

लेकिन के नजरिए से "देखा"pp । इस में विशेष रूप से स्पष्ट है बीटा द्विपद मॉडल जहां एक के रूप में समझा जा सकता है पूर्व सफलताओं की संख्या और एक है पहले विफलताओं की संख्या।ααββ

तो वास्तव में दूसरे रूप ने लोकप्रियता क्यों हासिल की और इसके पीछे तर्क क्या है ? या तो पैरामीरिजेशन (उदाहरण के लिए द्विपद वितरण के साथ संबंध के लिए) का उपयोग करने के परिणाम क्या हैं ?

यह बहुत अच्छा होगा यदि कोई व्यक्ति इस तरह की पसंद और इसके लिए प्रारंभिक तर्कों को इंगित कर सकता है, लेकिन यह मेरे लिए आवश्यक नहीं है।


3
एक गहरा कारण में की ओर संकेत किया गया है इस उत्तर : f के बराबर होती है x α ( 1 - एक्स ) βxα(1x)β उपाय के सापेक्ष μ = एक्स / ( ( एक्स ( 1 - x ) )dμ=dx/((x(1x)) । यही कारण है कि अपने प्रश्न "क्यों कि विशेष उपाय करने के लिए कम कर देता है "? मान्यता है कि यह उपाय d μ = d ( लॉग ( x) है1 - x ))
dμ=d(log(x1x))
इन वितरणों को समझने के लिए "सही" तरीका बताता है कि लॉजिस्टिक परिवर्तन लागू करना है: "-11" शब्द तब गायब हो जाएगा।
whuber

1
मुझे लगता है कि ऐसा हुआ वास्तविक कारण ऐतिहासिक है - क्योंकि यह बीटा फ़ंक्शन में उस तरह का प्रतीत होता है जिसके लिए वितरण का नाम दिया गया है। क्यों का सवाल है कि है - 11 सत्ता में, मुझे लगता है कि अंत में कारण whuber उल्लेख से जुड़ा होगा (हालांकि ऐतिहासिक दृष्टि से यह उपाय या यहाँ तक कि संभावना के साथ कोई संबंध नहीं है) की उम्मीद है।
Glen_b -Reinstate Monica

2
@Glen_b यह ऐतिहासिक से अधिक है: गहरा कारण हैं। वे बीटा और गामा कार्यों के बीच अंतरंग संबंध की वजह से कर रहे हैं, क्यों में प्रतिपादक सवाल को कम करने Γ ( रों ) = 0 टी एस - 1- टी डी टीΓ(s)=0ts1etdt है रों - 1s1 और नहीं हैsऐसा इसलिए है क्योंकि ΓΓ गॉस योग है । तुल्य, इसे देखने के लिए "सही" है ΓΓ एक गुणक समरूपता का एक अभिन्न रूप में टी टी रोंtts बार एक additive चरित्रt e - t केtet खिलाफ Haar माप d t / tdt/t पर गुणक समूह R ×R×
whuber

1
@ यह एक अच्छा कारण है कि गामा फ़ंक्शन को इस तरह से चुना जाना चाहिए (और मैंने पहले ही सुझाव दिया था कि इस तरह के कारण का अस्तित्व ऊपर है और मैं तर्क के कुछ रूप को स्वीकार करता हूं - लेकिन आवश्यक रूप से विभिन्न औपचारिकता के साथ - यूलर की पसंद में आया); घनत्व के साथ संगत सम्मोहक कारण होते हैं; लेकिन यह स्थापित नहीं करता है कि यह वास्तव में चुनाव का कारण था (क्यों फॉर्म को उसी रूप में चुना गया था), केवल यह ऐसा करने का एक अच्छा कारण है। गामा फ़ंक्शन का रूप ... ctd
Glen_b -Reinstate Monica

1
ctd ... अकेले आसानी से घनत्व के लिए और दूसरों के लिए सूट का पालन करने के लिए उस रूप को चुनने के लिए पर्याप्त कारण हो सकता है। [अक्सर विकल्प सरल कारणों के लिए बनाए जाते हैं जिन्हें हम बाद में पहचान सकते हैं और फिर कुछ और करने के लिए अक्सर मजबूर करने वाले कारणों को लेते हैं। क्या हम जानते हैं कि इसे शुरू में क्यों चुना गया था?] - आप स्पष्ट रूप से समझाते हैं कि एक कारण है कि हमें उस तरह से घनत्व का चयन करना चाहिए , बजाय इसके कि वह ऐसा क्यों है । इसमें पसंद करने वाले लोगों का एक क्रम शामिल है (इसे इस तरह से उपयोग करने के लिए, और सूट का पालन करने के लिए), और उनके द्वारा चुने गए समय पर उनके कारण।
Glen_b -Reinstate मोनिका

जवाबों:


9

यह स्वतंत्रता और सांख्यिकीय मापदंडों की डिग्री के बारे में एक कहानी है और यह अच्छा है कि दोनों का सीधा सरल संबंध है।

ऐतिहासिक रूप से, " - 1 " शब्द Euler के बीटा फ़ंक्शन के अध्ययन में दिखाई दिए। वह 1763 तक उस पैरामीटर का उपयोग कर रहा था, और इसलिए एड्रियन-मैरी लीजेंड्रे: उनके उपयोग ने बाद के गणितीय सम्मेलन की स्थापना की। यह कार्य सभी ज्ञात सांख्यिकीय अनुप्रयोगों का विरोध करता है।1

आधुनिक गणितीय सिद्धांत विश्लेषण, संख्या सिद्धांत और ज्यामिति में अनुप्रयोगों के धन के माध्यम से पर्याप्त संकेत प्रदान करता है, कि " - 1 " शब्दों का वास्तव में कुछ अर्थ है। मैंने उन कारणों में से कुछ को टिप्पणी के लिए छोड़ दिया है।1

अधिक ब्याज की "सही" सांख्यिकीय पैरामीटराइजेशन क्या होना चाहिए। यह बिल्कुल स्पष्ट नहीं है और यह गणितीय सम्मेलन के समान नहीं है। प्रायिकता वितरण के आमतौर पर उपयोग किए जाने वाले, प्रसिद्ध, अंतर्संबंधित परिवारों का एक बहुत बड़ा जाल है। इस प्रकार, सम्मेलनों को नाम दिया जाता है (अर्थात, मानकीकृत) एक परिवार आमतौर पर संबंधित परिवारों के नाम से संबंधित सम्मेलनों का उपयोग करता है। एक पैरामीटर बदलें और आप उन सभी को बदलना चाहेंगे। इसलिए हम सुराग के लिए इन रिश्तों को देख सकते हैं।

कुछ लोग इस बात से असहमत होंगे कि सबसे महत्वपूर्ण वितरण परिवार सामान्य परिवार से प्राप्त होते हैं। याद एक यादृच्छिक चर कि एक्स होना कहा जाता है "आम तौर पर वितरित" जब ( एक्स - μ ) / σ एक प्रायिकता घनत्व है ( एक्स ) के लिए आनुपातिक विस्तार ( - एक्स 2 / 2 ) । जब σ = 1 और μ = 0 , एक्स एक कहा जाता है कि मानक सामान्य वितरण।X(Xμ)/σf(x)exp(x2/2)σ=1μ=0एक्स

कई डेटासेट x 1 , x 2 , , x n का अध्ययन अपेक्षाकृत सरल आँकड़ों का उपयोग करके किया जाता है जिसमें डेटा और कम शक्तियों (आमतौर पर वर्ग) के तर्कसंगत संयोजन शामिल होते हैं। जब उन डेटा को एक सामान्य वितरण से यादृच्छिक नमूने के रूप में तैयार किया जाता है - ताकि प्रत्येक x i को एक सामान्य चर X i की प्राप्ति के रूप में देखा जाए , सभी X i एक सामान्य वितरण साझा करते हैं, और स्वतंत्र होते हैं - उन आँकड़ों के वितरण उस सामान्य वितरण द्वारा निर्धारित किया जाता है। जो व्यवहार में सबसे अधिक बार उठते हैंएक्स1, एक्स2, ... , एक्सnएक्समैंएक्समैंएक्समैं

  1. टी ν ,स्टूडेंट टी डिस्ट्रीब्यूशनविथ ν = n - "डिग्री ऑफ़ फ्रीडम।" यह आँकड़ा t = distribution X का वितरण हैटीνटीν= एन - 1se ( एक्स ) जहां ˉ एक्स =(एक्स1+एक्स2++एक्सएन)/nमॉडल डेटा के मतलब औरse(एक्स)=(1/

    टी = एक्स¯से( एक्स))
    X¯=(X1+X2++Xn)/nn )( X 2 1 + X 2 2 + + X 2 n ) / ( n - 1 ) - 2 X 2 माध्य की मानक त्रुटि है। N-1द्वारा विभाजन सेपता चलता है किnको2या अधिकहोना चाहिए, जहांνएक पूर्णांक1या अधिक है। सूत्र, हालांकि स्पष्ट रूप से थोड़ा जटिल है, डिग्री दो के डेटा के तर्कसंगत कार्य का वर्गमूल है: यह अपेक्षाकृत सरल है।se(X)=(1/n)(X21+X22++X2n)/(n1)X¯2n1n2ν1
  2. χ 2 ν , χ 2 (ची-वर्ग) वितरणके साथ ν "स्वतंत्रता की डिग्री" (DF)। यह ν स्वतंत्र मानक सामान्य चरके वर्गों के योग का वितरण है। इन चरों के वर्गों का मतलब के वितरण इसलिए एक हो जाएगा χ 2 वितरण द्वारा बढ़ाया 1 / ν : मैं के रूप में एक "सामान्य" इस का उल्लेख होगा χ 2 वितरण।χ2νχ2ννχ21/νχ2

  3. एफ ν 1 , ν 2 , एफ मानकों के साथ अनुपात वितरण ( ν 1 , ν 2 ) दो स्वतंत्र सामान्यीकृत के अनुपात है χ 2 के साथ वितरण ν 1 और ν 2 स्वतंत्रता की डिग्री।Fν1,ν2F(ν1,ν2)χ2ν1ν2

गणितीय गणना से पता चलता है कि इन तीनों वितरणों में घनत्व है। महत्वपूर्ण रूप से, के घनत्व χ 2 ν वितरण गामा (के यूलर अभिन्न परिभाषा integrand के लिए आनुपातिक है Γ ) समारोह। आइए उनकी तुलना करें:χ2νΓ

χ 2 ν ( 2 एक्स ) α एक्स ν / 2 - 1- एक्स ;Γ ( ν ) ( एक्स ) α एक्स ν - 1- एक्स

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

यह दिखाता है कि दो बार χ 2 ν चर पैरामीटर के साथ एक गामा वितरण है ν / 2 । एक-आधा का कारक काफी परेशान करने वाला होता है, लेकिन 1 घटने से रिश्ता बहुत खराब हो जाएगा। यह पहले से ही सवाल का जवाब एक सम्मोहक की आपूर्ति: अगर हम एक के पैरामीटर चाहते χ 2 वितरण वर्ग सामान्य चर है कि यह (का एक पहलू का उत्पादन की संख्या की गणना करने के लिए 1 / 2 ) तो इसकी घनत्व समारोह चाहिए में प्रतिपादक, आधे से कम हो कि गिनती हो। χ2νν/21χ21/2

क्यों की कारक है 1 / 2 का अंतर कम से कम परेशानी 1 ? कारण यह है कि जब हम चीजों को जोड़ते हैं तो कारक लगातार बना रहेगा। यदि एन स्वतंत्र मानक नॉर्मल के वर्गों का योग पैरामीटर एन (कुछ कारक) के साथ एक गामा वितरण के लिए आनुपातिक है , तो एम स्वतंत्र मानक नॉर्मल के वर्गों का योग पैरामीटर मी (एक ही कारक बार) के साथ एक गामा वितरण के लिए आनुपातिक है , जहां सभी n + m चर के वर्गों का योग पैरामीटर m + n (अभी भी एक ही कारक) के साथ एक गामा वितरण के लिए आनुपातिक है । 1/21nnmmn+mm+nतथ्य यह है कि मापदंडों को इतनी बारीकी से जोड़ने से गिनती जोड़ने में बहुत मदद मिलती है।

यदि, हालांकि, हम गणितीय सूत्रों से "पेसिक-लुकिंग" - 1 " को हटा देते हैं, तो ये अच्छे रिश्ते अधिक जटिल हो जाएंगे। उदाहरण के लिए, अगर हम बदल की वास्तविक शक्ति का उल्लेख करने के गामा वितरण के parameterization एक्स सूत्र में, इतना है कि एक χ 2 1 वितरण एक "गामा से संबंधित हो जाएगा ( 0 ) की शक्ति के बाद से" वितरण ( एक्स में अपनी पीडीएफ है 1 - 1 = 0 ), तो तीन की राशि χ 2 1 वितरण एक "गामा कहा जा करने के लिए होगा ( 2 )1xχ21(0)x11=0χ21(2)"वितरण। संक्षेप में, गामा वितरण में स्वतंत्रता की डिग्री और पैरामीटर के बीच घनिष्ठ योगात्मक संबंध - 1 को सूत्र से निकालकर और पैरामीटर में अवशोषित करके खो दिया जाएगा ।1

इसी तरह, एफ अनुपात वितरण की संभाव्यता फ़ंक्शन बीटा वितरण से निकटता से संबंधित है। वास्तव में, जब Y एक है एफ अनुपात वितरण, के वितरण जेड = ν 1 Y / ( ν 1 Y + ν 2 ) एक बीटा है ( ν 1 / 2 , ν 2 / 2 ) वितरण। इसका घनत्व कार्य आनुपातिक हैFYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)

जेड ( जेड ) α z ν 1 / 2 - 1 ( 1 - जेड ) ν 2 / 2 - 1

fZ(z)zν1/21(1z)ν2/21.

इसके अलावा - इन विचारों को पूर्ण रूप से लेते हुए - ν डीएफ के साथ एक छात्र टी वितरण के वर्ग में मापदंडों ( 1 , ν ) के साथ एफ अनुपात वितरण है । एक बार और यह स्पष्ट हो जाता है कि पारंपरिक मापदण्ड रखने से अंतर्निहित गणनाओं के साथ एक स्पष्ट संबंध बना रहता है जो स्वतंत्रता की डिग्री में योगदान देता है।tνF(1,ν)

देखने के एक सांख्यिकीय दृष्टिकोण से, फिर, यह सबसे स्वाभाविक होगा और सरल के पारंपरिक गणितीय parameterizations की भिन्नता का उपयोग करने के Γ और बीटा वितरण: हम एक फोन करने को प्राथमिकता देनी चाहिए Γ ( α ) वितरण एक " Γ ( 2 α ) वितरण" और बीटा ( α , β ) वितरण एक बुलाया जाना चाहिए "बीटा ( 2 α , 2 β ) वितरण।" वास्तव में, हम पहले से ही ऐसा कर चुके हैं: यही कारण है कि हम "ची-स्क्वेर्ड" और " एफ " नामों का उपयोग करना जारी रखते हैंΓΓ(α)Γ(2α)(α,β)(2α,2β)F Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "11" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.


1
Thanks for your answer (I +1d already). I have just a small follow-up question: maybe I'm missing something, but aren't we sacrificing the direct relation with binomial by using the -1 parametrization?
Tim

I'm not sure which "direct relation with binomial" you're referring to, Tim. For instance, when the Beta(a,b)(a,b) distribution is used as a conjugate prior for a Binomial sample, clearly the parameters are exactly the right ones to use: you add aa (not a1a1) to the number of successes and bb (not b1b1) to the number of failures.
whuber

1

The notation is misleading you. There is a "hidden 11" in your formula (1)(1), because in (1)(1), αα and ββ must be bigger than 11 (the second link you provided in your question says this explicitly). The αα's and ββ's in the two formulas are not the same parameters; they have different ranges: in (1)(1), α,β>1α,β>1, and in (2)(2), α,β>0α,β>0. These ranges for αα and ββ are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1)(1) the case α=1α=1 (or less) and β=0β=0, then try to integrate the (kernel of the) density between 00 and 11. Equivalently, try the same in (2)(2) for α=0α=0 (or less) and β=1β=1.


2
The issue of a range of definition for α and β seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of α and β--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber

1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen

2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim

1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber

1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0, if UGamma(α,1) and VGamma(β,1) are independent, then X=U/(U+V) is Beta(α,β), and the density of X is proportional to xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen

0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!. Since it is not possible to compute x! directly if x is not integer, the idea was to find a function for any x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1 and f(x+1)=xf(x). We have Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.


This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.
whuber

The function f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x). This is how it is defined.
aatr

Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber

It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr

Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.