रेडीमैकर के उत्पादों का रैंडम वैरिएबल


9

चलो स्वतंत्र यादृच्छिक मान लेने चर हो या संभावना 0.5 प्रत्येक के साथ। योग पर विचार करें । मैं संभावना को ऊपरी तौर पर बांधना चाहता हूं । मेरे पास अभी जो सर्वश्रेष्ठ बाउंड है, वह जहां c एक सार्वभौमिक स्थिरांक है। यह क्षीण संभावना बाउंडिंग द्वारा हासिल की है (| | x_1 + \ डॉट्स + x_n <\ sqrt {टी}) पीआर और (<\ sqrt {टी} | | y_1 + \ डॉट्स + y_n) पीआर सरल Chernoff सीमा के आवेदन के द्वारा। क्या मैं ऐसा कुछ पाने की उम्मीद कर सकता हूं जो इस बाउंड से बेहतर हो? शुरुआत के लिए मैं कम से कम मिल सकता हैx1xa,y1yb+11S=i,jxi×yjP(|S|>t)2ectmax(a,b)cPr(|x1++xn|<t)Pr(|y1++yn|<t)ectab । अगर मुझे उप-गाऊसी पूंछ मिल सकती है जो शायद सबसे अच्छी होगी, लेकिन क्या हम उम्मीद कर सकते हैं कि (मैं ऐसा नहीं सोचता लेकिन एक तर्क के बारे में सोच नहीं सकता)?


क्या आपने चेरनॉफ़ को सीधे एस पर लागू करने पर विचार किया है S? आप
E[exp(λS]=E[λijXiYj]=E[λ(iXi)(jYj)]
_

T \ gt ab के लिए आपकी बाध्यता में एक स्पष्ट सुधार है t>ab, इसके लिए संभावना शून्य होनी चाहिए। यह मुझे लगता है कि एक "उप-गाऊसी" पूंछ :-) है। यह भी लगता है कि आपकी सीमा गलत है: चर जो लगातार 1 हैं 1इस प्रश्न की शर्तों को पूरा करते हैं। के लिए a=b और t=a21 संभावना है 1 लेकिन अपने बाध्य है asymptotically 2exp(ca)0 के रूप में a बड़ा बढ़ता है।
whuber

सभी चर 1 होने की संभावना तेजी से नीचे जाती है। मुझे नहीं लगता कि मुझे आपकी टिप्पणी समझ में आती है। के लिए और बाध्य मैं कहा गया है काफी तुच्छता से राशि की तुलना में अधिक होने की संभावना के रूप में सच है हैa=bt=a21t212(a1)eln(2)c(a1/a)
user1189053

1
मुझे अपनी गलती का बहुत अफ़सोस है। मुझे लगा कि मैंने एक समान रूप से ऊपर उल्लेख किया है। तो p = 1/2 और हम असमानता के लिए किसी भी स्थिरांक (यदि आवश्यक हो) से बड़ा और धारण कर सकते हैं
user1189053

2
जब तक मेरी आंखें मुझे धोखा नहीं दे रही हैं, आप उत्पादों की राशि पर विचार कर रहे हैं, रकम का उत्पाद नहीं। :-)
कार्डिनल

जवाबों:


7

बीजगणितीय संबंध

S=i,jxiyj=ixijyj

को दो स्वतंत्र रकम के उत्पाद के रूप में प्रदर्शित करता है । क्योंकि और स्वतंत्र बर्नौली चर हैं , एक द्विपद चर है जो दोगुना और स्थानांतरित कर दिया गया है। इसलिए इसका माध्य और इसका विचरण । इसी तरह का मतलब और विचरण । चलो उन्हें परिभाषित करके अभी मानकीकृत करते हैंS(xi+1)/2(yj+1)/2(1/2)X=i=1axi(a,1/2)0aY=j=1byj0b

Xa=1ai=1axi,

जहां से

S=abXaXb=abZab.

सटीकता की उच्च (और मात्रात्मक) डिग्री के लिए, बड़े मानक सामान्य वितरण के रूप बढ़ता है । इसलिए हम दो मानक मानदंडों के उत्पाद के रूप में को बार अनुमानित करते हैं।aXaSab

अगले कदम के लिए नोटिस है कि

Zab=XaXb=12((Xa+Xb2)2(XaXb2)2)=12(U2V2).

स्वतंत्र मानक सामान्य चर और के वर्गों के अंतर का एक गुण है । का वितरण विश्लेषणात्मक रूप से गणना की जा सकती है ( विशेषता फ़ंक्शन को करके ): इसका pdf ऑर्डर शून्य, के Bessel फ़ंक्शन के आनुपातिक है । क्योंकि इस फ़ंक्शन में घातीय पूंछ हैं, हम तुरंत निष्कर्ष निकालते हैं कि बड़े और और फिक्स्ड , प्रश्न में दिए गए से बेहतर कोई अनुमान नहीं है UVZabK0(|z|)/πabtPra,b(S>t)

सुधार के लिए कुछ जगह नहीं बना हुआ है जब एक (कम से कम) की और बड़े या की पूंछ के किसी बिंदु पर नहीं है के करीब । के वितरण की प्रत्यक्ष गणना तुलना में बहुत अधिक , से अधिक बड़े बिंदुओं पर पूंछ की संभावनाओं का एक घुमावदार टेप दिखाती है । की CDF के इन लॉग रेखीय भूखंडों के विभिन्न मूल्यों के लिए (शीर्षक में दिए गए) और (मान जैसे ही मोटे तौर पर लेकर , प्रत्येक साजिश में रंग से प्रतिष्ठित) दिखाने के क्या हो रहा है। संदर्भ के लिए, सीमित करने का ग्राफabS±abSababmax(a,b)SabaK0वितरण काले रंग में दिखाया गया है। (क्योंकि आसपास सममित है , , इसलिए यह नकारात्मक पूंछ को देखने के लिए पर्याप्त है।)S0Pr(S>t)=Pr(S<t)

आंकड़े

जैसे-जैसे बड़ा होता है, सीडीएफ संदर्भ रेखा के करीब बढ़ता है।b

इस वक्रता की विशेषता और परिमाणीकरण करने के लिए द्विपदीय चर के लिए सामान्य सन्निकटन के बारीक विश्लेषण की आवश्यकता होती है।

बेसेल फ़ंक्शन सन्निकटन की गुणवत्ता इन आवर्धित भागों (प्रत्येक प्लॉट के ऊपरी दाएं कोने) में स्पष्ट हो जाती है। हम पहले से ही पूंछ में बहुत दूर हैं। हालांकि लघुगणक ऊर्ध्वाधर पैमाने पर्याप्त मतभेद छिपा कर सकते हैं, स्पष्ट रूप से समय से पर पहुँच गया है सन्निकटन के लिए अच्छा है ।a500|S|<ab

सन्निवेश


के वितरण की गणना करने के लिए आर कोडS

निम्नलिखित को निष्पादित करने में कुछ सेकंड लगेंगे। (यह और 36 संयोजनों के लिए कई मिलियन संभावनाओं की गणना करता है ।) धीमी मशीनों पर, बड़े एक या दो मूल्यों को छोड़ दें और कम प्लॉटिंग की सीमा को बढ़ाकर लगभग ।abab1030010160

s <- function(a, b) {
  # Returns the distribution of S as a vector indexed by its support.
  products <- factor(as.vector(outer(seq(-a, a, by=2), seq(-b, b, by=2))))
  probs <- as.vector(outer(dbinom(0:a, a, 1/2), dbinom(0:b, b, 1/2)))
  tapply(probs, products, sum)
}

par(mfrow=c(2,3))
b.vec <- c(51, 101, 149, 201, 299, 501)
cols <- terrain.colors(length(b.vec)+1)
for (a in c(50, 100, 150, 200, 300, 500)) {
  plot(c(-sqrt(a*max(b.vec)),0), c(10^(-300), 1), type="n", log="y", 
       xlab="S/sqrt(ab)", ylab="CDF", main=paste(a))
  curve(besselK(abs(x), 0)/pi, lwd=2, add=TRUE)
  for (j in 1:length(b.vec)) {
    b <- b.vec[j]
    x <- s(a,b)
    n <- as.numeric(names(x))
    k <- n <= 0
    y <- cumsum(x[k])
    lines(n[k]/sqrt(a*b), y, col=cols[j], lwd=2)
  }
}

1
बहुत अच्छी तरह से किया! नकारात्मक पूंछ के लिए 2 मानक नोर्मल्स .. के उत्पाद की cdf के लिए एक सटीक रूप प्राप्त कर सकते हैं, यह है 1/2 (1 + y BesselK[0,-y] StruveL[-1, y] - y BesselK[1,-y] StruveL[0, y])। यह देखना दिलचस्प होगा कि: (ए) ओपी के बाउंड प्रदर्शन करता है, और (बी) आपका सामान्य सन्निकटन प्रदर्शन करता है, जिस मामले के लिए हम ऊपर देख रहे थे, यानी सटीक 5f असतत समाधान का उपयोग करके व्युत्पन्न । a=5,b=7
वुल्फिस

1
@wolfies हां, मैंने वह अभिव्यक्ति भी प्राप्त की: यह की पूंछ को एकीकृत करता है । चूँकि सटीक वितरण चरम सीमा में इससे दूर चला जाता है, इसलिए यह उस अभिन्न के विश्लेषण को आगे ले जाने लायक नहीं लगता था। तार्किक अगला चरण पूंछों का अधिक समझदार विश्लेषण है, जिसका अर्थ है सामान्य सन्निकटन से परे जाना। K0
whuber

3

टिप्पणी: मैंने इस सवाल में बेहतर विचार करने के प्रयास में शीर्षक को संपादित किया कि किस प्रकार के आरवी को माना जाता है। किसी को भी फिर से संपादित करने के लिए स्वतंत्र महसूस हो रहा है।

प्रेरणा: मुझे लगता है कि अगर हम इसके वितरण को प्राप्त कर सकते हैं, तो ऊपरी सीमा के लिए समझौता करने की कोई आवश्यकता नहीं है|Sab|। ( अद्यतन : हम Whuber की टिप्पणी और जवाब नहीं कर सकते हैं )।

निरूपित Zk=XiYj,k=1,...,ab। यह सत्यापित करना आसान हैZके समान वितरण है Xकी और Y'है। पल उत्पन्न कार्य है

MZ(t)=E[ezt]=12et+12et=cosh(t)

इसके अलावा Zके साथ शुरू करने के लिए, जोड़ी-वार स्वतंत्र हैं: चर W=Z1+Z2 (सूचकांक निश्चित रूप से हो सकते हैं), समर्थन है {2,0,2} इसी संभावनाओं के साथ {1/4,1/2,1/4}। इसका क्षण उत्पन्न करने वाला कार्य है

MW(t)=E[e(z1+z2)t]=14e2t+12+14e2t==14(e2t+1)+14(e2t+1)=142etcosh(t)+142etcosh(t)=cosh(t)cosh(t)=MZ1(t)MZ2(t)

मैं इस बात पर संदेह करने का प्रयास करूंगा कि पूर्ण स्वतंत्रता, इस प्रकार है (क्या यह समझदार लोगों के लिए स्पष्ट है?): इस भाग के लिए, इनकार Zij=XiYj। फिर चेन नियम से

P[Zab,...,Z11]=P[ZabZa,b1,...,Z11]...P[Z13Z12,Z11]P[Z12Z11]P[Z11]

जोड़ी-वार स्वतंत्रता से हमारे पास है P[Z12Z11]=P[Z12]
विचार करें P[Z13,Z12Z11]Z13 तथा Z12 पर स्वतंत्र सशर्त हैं Z11 तो हमारे पास

P[Z13Z12,Z11]=P[Z13Z11]=P[Z13]
जोड़ी-वार स्वतंत्रता द्वारा दूसरी समानता। लेकिन इसका तात्पर्य यही है

P[Z13Z12,Z11]P[Z12Z11]P[Z11]=P[Z13,Z12,Z11]=P[Z13]P[Z12]P[Z11]

आदि (मुझे लगता है)। ( अद्यतन : मैं गलत सोचता हूंस्वतंत्रता शायद किसी भी ट्रिपल के लिए रखती है, लेकिन पूरे गुच्छा के लिए नहीं। इसलिए जो कुछ भी होता है वह सिर्फ एक सरल यादृच्छिक चाल के वितरण की व्युत्पत्ति है, और प्रश्न का सही उत्तर नहीं - 'वुल्फिस देखें'। किसके उत्तर)।

यदि पूर्ण स्वतंत्रता वास्तव में धारण करती है, तो हमारे पास आयद डाइकोटोमस आरवी के योग के वितरण को प्राप्त करने का कार्य है

Sab=k=1abZk

जो एक सरल यादृच्छिक चलना जैसा दिखता है , हालांकि एक अनुक्रम के रूप में उत्तरार्द्ध की स्पष्ट व्याख्या के बिना।

अगर ab=even का समर्थन S में पूर्णांक भी होगा [ab,...,ab] शून्य सहित, जबकि अगर ab=odd का समर्थन S में विषम पूर्णांक होंगे [ab,...,ab], शून्य के बिना।

के मामले को हम मानते हैं ab=odd
निरूपितm की संख्या होना चाहिए Zमान ले रहा है 1. Then the support of S can be written S{ab2m;mZ+{0};mab}. For any given m, we obtain a unique value for S. Moreover, due to symmetric probabilities and independence (or just exchangeability?), all possible joint realizations of the Z-variables {Z1=z1,...,Zab=zab} are equiprobable. So we count and we find that the probability mass function of S is,

P(S=ab2m)=(abm)12ab,0mab

Defining sab2m, and odd number by construction, and the typical element of the support of S, we have

P(S=s)=(ababs2)12ab

Moving to |S|, since if ab=odd, the distribution of S is symmetric around zero without allocating probability mass to zero, and so the distribution of |S| is obtained by "folding" the density graph around the vertical axis, essentially doubling the probabilities for positive values,

P(|S|=|s|)=(ababs2)12ab1

Then the distribution function is

P(|S||s|)=12ab11is,iodd(ababi2)

Therefore, for any real t, 1t<ab, we obtain the required probability

P(|S|>t)=1P(|S|t)=112ab11it,iodd(ababi2)

Note that the indication i=odd guarantees that the sum will run only up to values included in the support of |S| - for example, if we set t=10.5, still i will run up to 9, since it is constrained to be odd, on top of being an integer.


The number of negative values in (X1Y1,X1Y2,X2Y1,X2Y2) must be even. Therefore these four random variables (I presume they are four of your Zs--the notation is unclear) are not independent.
whuber

@whuber Thanks. The problem (my problem, that is), is that I keep getting independence in any specific example I work out. I will work the specific four variables you write.
Alecos Papadopoulos

Yes, it's tricky because distinct Zs are pairwise independent and (I believe) any three distinct Zs are independent, too. (I upvoted your answer because of its creative attack on the problem and I hope I am mistaken in my assessment of the lack of independence!)
whuber

@whuber Thanks again whuber, that's really supportive. I am thinking, what we need in order for the derivation of the distribution of S to be valid, is that all events {k=1abZk} are equiprobable. Is it possible for such a property to hold, while joint independence fails? I mean, joint independence is sufficient for equiprobability to hold, but is it also necessary?
Alecos Papadopoulos

I'm afraid I don't understand your notation, which appears to refer to an intersection of random variables (whatever that might mean).
whuber

3

Not an answer, but a comment on Alecos’s interesting answer that is too long to fit into a comment box.

Let (X1,...,Xa) be independent Rademacher random variables, and let (Y1,...,Yb) be independent Rademacher random variables. Alecos notes that:

Sab=k=1abZkwhereZk=XiYj

"… looks like a simple random walk”. If it were like a simple random walk, then the distribution of S would be symmetric 'bell-shaped unimodal' around 0.

To illustrate that it is not a simple random walk, here is a quick Monte Carlo comparison of:

  • triangle dots: Monte Carlo simulation of the pmf of S given a=5 and b=7
  • round dots: Monte Carlo simulation of a simple random walk with n=35 steps

enter image description here

Clearly, S is not a simple random walk; also note that S is not distributed on all the even (or odd) integers.

Monte Carlo

Here is the code (in Mathematica) used to generate a single iteration of the sum S, given a and b:

 SumAB[a_, b_] :=  Outer[Times, RandomChoice[{-1, 1}, a], RandomChoice[{-1, 1}, b]] 
                         // Flatten // Total 

Then, 500,000 such paths, say when a=5 and b=7, can be generated with:

 data57 = Table[SumAB[5, 7], {500000}];

The domain of support for this combination of a and b is:

{-35, -25, -21, -15, -9, -7, -5, -3, -1, 1, 3, 5, 7, 9, 15, 21, 25, 35}

1
+1 A simulation (or some such concrete example) has long been needed to give us a reference for further analysis. Your simulation can be made much more efficient (about 25 times faster) by noting that S factors as (ixi)(jyj). That immediately explains why no sufficiently large prime values can show up in your triangle chart--and forcibly demonstrates that S cannot have a "random walk" (scaled Binomial) distribution.
whuber

1
Instead of simulating you can quickly obtain the exact answer (for a and b both less than 1000, anyway) as rademacher[a_] := Transpose[{Range[-a, a, 2], Array[Binomial[a, #] &, a + 1, 0] /2^a}]; s[a_, b_] := {#[[1, 1]], Total[#[[;; , 2]]]} & /@ GatherBy[Flatten[Outer[Times, rademacher[a], rademacher[b], 1], 1], First]; ListLogPlot[s[5, 7]] Try it with, say, s[100,211].
whuber

@whuber re first comment - your factorisation is super neat! :) On my Mac, using: ......... WHuberSumAB[a_, b_] := Total[RandomChoice[{-1, 1}, a]] * Total[RandomChoice[{-1, 1}, b]] ... it is twice as fast as the Outer approach. Curious as to what code you are using? [Both approaches can, of course, be made faster using ParallelTable, etc]
wolfies

Try this: sum[n_, a_, b_] := Block[{w, p}, w[x_] := Array[Binomial[x, #] &, x + 1, 0] /2^x; p[x_] := RandomChoice[w[x] -> Range[-x, x, 2], n]; p[a] p[b]]. Then time Tally[sum[500000, 5, 7]]. For R aficianodos, the following does the same thing and takes only 50% longer than Mathematica: s <- function(n, a, b) (2 * rbinom(n, a, 1/2) - a)*(2 * rbinom(n, b, 1/2) - b); system.time(x <- table(s(5*10^5, 5, 7))); plot(log(x), col="#00000020").
whuber

@whuber - re comment2 - exact pmf: so you have S=(iXi)(jYj), where each sum of Rademacher's is a Binomial, and so we have the product of 2 Binomials. Why not write this up as an answer!? - it is pretty, neat, elegant and useful ...
wolfies
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.