बॉल्स और बिन का विश्लेषण शासन में: अंतराल


23

मान लीजिए कि हम गेंदों को डिब्बे में फेंक रहे हैं , जहाँ । चलो बिन में समाप्त गेंदों की संख्या हो , भारी बिन, हो X_ \ मिनट हल्का बिन हो, और एक्स _ {\ mathrm {सेकंड-अधिकतम}} दूसरा सबसे भारी बिन हो। मोटे तौर पर, X_i - X_j \ sim N (0,2m / n) , और इसलिए हम : X_i - X_j | = \ Theta (\ sqrt {m / n}) किसी भी दो तय i, j के लिए । एक संघ बाध्य का उपयोग करते हुए, हम X _ {\ max} - X _ {\ min} = O (\ sqrt {m \ log n / n}) की अपेक्षा करते हैं ; मुमकिन है, हम n / 2 पर विचार करके एक मैचिंग लोअर बाउंड प्राप्त कर सकते हैंmnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2जोड़े के डिब्बे। यह (पूरी तरह औपचारिक नहीं) तर्क हमें यह उम्मीद करने की ओर ले जाता है कि उच्च संभावना के साथ Xmax और Xmin का अंतर Θ(mlogn/n) है।

मुझे Xmax और X _ {\ mathrm {sec-max}} के बीच की खाई में दिलचस्पी है Xsecmax। ऊपर दिए गए तर्क से पता चलता है कि XmaxXsecmax=O(mlogn/n) उच्च संभावना के साथ, लेकिन logn कारक विलक्षण है । क्या X_ \ max - X _ {\ mathrm {sec-max}} के वितरण के बारे में कुछ भी ज्ञात है XmaxXsecmax?

आम तौर पर, मान लीजिए कि प्रत्येक गेंद प्रत्येक बिन के लिए एक गैर-नकारात्मक स्कोर के साथ जुड़ी हुई है , और हम m गेंदों को फेंकने के बाद प्रत्येक बिन के कुल स्कोर में रुचि रखते हैं । सामान्य परिदृश्य फॉर्म के स्कोर (0,,0,1,0,,0) । मान लें कि अंकों के संभाव्यता वितरण डिब्बे के क्रमचय के तहत अपरिवर्तनीय है (सामान्य परिदृश्य में, यह इस तथ्य से मेल खाता है कि सभी डिब्बे परिवर्तनीय हैं)। अंकों के वितरण को देखते हुए, हम X_ {\ max} - X _ {\ min} पर एक अच्छी सीमा प्राप्त करने के लिए पहले पैराग्राफ की विधि का उपयोग कर सकते हैं XmaxXmin। बाउंड में \ sqrt {\ log n} का कारक होगाlognयह एक संघ बंध (सामान्य चर की पूंछ संभावनाओं के माध्यम से) से आता है। यदि हम X _ {\ max} - X _ {\ mathrm {sec-max}} को बाँधने में रुचि रखते हैं तो क्या इस कारक को कम किया जा सकता है XmaxXsecmax?


प्रत्येक अंक [0,1] में है?
नील यंग

यह वास्तव में मायने नहीं रखता है, आप हमेशा इसे स्केल कर सकते हैं ताकि यह । [0,1]
युवल फिल्मस

जवाबों:


21

उत्तर:Θ(mnlogn)

केंद्रीय सीमा प्रमेय के बहुआयामी संस्करण को लागू करते हुए, हम पाते हैं कि वेक्टर में asymptotically multivariate Gaussian वितरण और हम नीचे समझेंगे कि है एक गाऊसी वेक्टर (और न केवल लगभग एक गाऊसी वेक्टर)। आइए हम सभी ( सभी से स्वतंत्र हैं ) के साथ विचरण साथ एक गाऊसी यादृच्छिक चर । यही है, चलो वी एक आर [ एक्स आई ] = एम ( 1)(X1,,Xn)Cov(Xi,Xj)=-m/n2एक्सजेडमीटर/n2एक्समैंजेडएक्समैं( Y 1 Y 2 वाई एन )=( एक्स 1 +जेड एक्स 2 +Z एक्स एन +Z)

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
हमें एक गाऊसी वेक्टर । अब प्रत्येक पास variance : और सभी स्वतंत्र हैं: Y i m / n V a r [ Y i ] = V a r [(Y1,,Yn)Yim/nYiCov(Yi,Yj)=Cov(Xi,Xj)+ C o v ( X i , Z ) + C o v ( एक्स जे , जेड ) =
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

ध्यान दें कि । इस प्रकार हमारी मूल समस्या खोजने की समस्या के बराबर है । सादगी के लिए पहले आइए हम उस मामले का विश्लेषण करें जब सभी में विचरण ।YiYj=XiXjYmaxYsecmaxYi1

संकट। हमें स्वतंत्र गौसियन rv माध्य और विचरण । की अपेक्षा का अनुमान लगाएं ।nγ1,,γnμ1γmaxγsecmax

उत्तर:Θ(1logn)

अनौपचारिक प्रमाण। यहाँ इस समस्या का एक अनौपचारिक समाधान है (इसे औपचारिक बनाना कठिन नहीं है)। चूंकि उत्तर माध्य पर निर्भर नहीं करता है, हम मान लेते हैं कि । Let , जहां । हमारे पास (बड़े पैमाने पर ), μ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

ध्यान दें कि

  • Φ(γi) समान रूप से और स्वतंत्र रूप से पर वितरित किए जाते हैं ,[0,1]

  • Φ(γmax) बीच सबसे छोटा है ,Φ(γi)

  • Φ(γsecmax) बीच दूसरा सबसे छोटा है ।Φ(γi)

इस प्रकार करीब है और करीब है (कोई एकाग्रता नहीं है लेकिन हम डॉन ' स्थिरांक के बारे में ध्यान रखें कि ये अनुमान काफी अच्छे हैं, वास्तव में, वे बहुत अच्छे हैं यदि हम स्थिरांक की परवाह करते हैं - लेकिन इसके लिए औचित्य की आवश्यकता है)। लिए सूत्र का उपयोग करते हुए , हम उस Φ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

इस प्रकार is whp ध्यान दें कि Gamma max_ Gamma । हमारे पास, γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

हम उस

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

जब हमारे पास मनमाना स्कोर होता है तो वही तर्क दिया जाता है। यह दिखाता है कि

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
धन्यवाद! मैं अगली बार बहुभिन्न गॉसियन सन्निकटन की कोशिश करना याद रखूँगा।
युवल फिल्मस

5
यूरी, आप ने लिखा, "हमें एक गाऊसी वेक्टर जोड़ें विचरण के साथ सभी । हम एक गाऊसी वेक्टर मिल । अब प्रत्येक विचरण है और सभी नहीं हैं सहसंबद्ध ... ध्यान दें कि । " क्या आप इस हिस्से का विस्तार कर सकते हैं? है ? यदि के आश्रित हैं, और स्वतंत्र हैं (या समान रूप से समान हैं), तो कैसे स्वतंत्र हो सकता है? (एक साफ-सुथरी चाल की तरह लगता है, लेकिन मुझे समझ में नहीं आता है।) धन्यवाद Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=ZjXiZiYi
नील यंग

1
@NealYoung, हाँ, हम चर अगर नकारात्मक जोड़ो में सहसंबंध के साथ और सभी सहप्रसरण कर रहे हैं बराबर है, तो हम एक जोड़ सकते हैं एक नई यादृच्छिक चर सभी ऐसा है कि रकम स्वतंत्र है। इसके अलावा, यदि चर में सकारात्मक सहसंबंध है और फिर से सभी सहसंयोजक समान हैं, तो हम उन सभी से एक आरवी को घटा सकते हैं ताकि सभी अंतर स्वतंत्र हों; लेकिन अब से स्वतंत्र नहीं है , बल्किX1,,XnCov(Xi,Xj)ZXiCov(Xi,Xj)ZZXiZ=α(X1++Xn)कुछ स्केलिंग पैरामीटर । α
यूरी

1
ओह समझा। कम से कम बीजगणितीय रूप से, यह सभी पर टिकी हुई है जेड और प्रत्येक की जोड़ीदार स्वतंत्रता है । बहुत ही शांत। Xi
सुरेश वेंकट

1
यह दलील अब EC'14 पेपर: dl.acm.org/citation.cfm?id=2602829 : में (अटेंशन के साथ) दिखाई देती है
युवल फिल्मस

13

अपने पहले प्रश्न के लिए, मुझे लगता है कि आपको लगता है कि whp दिखा सकते हैं है ध्यान दें कि यह ।XmaxXsec-max

o(mnlog2lognlogn).
o(m/n)

अपने यादृच्छिक प्रयोग की तुलना निम्न विकल्प से करें: पहले बकेट में से किसी का अधिकतम भार हो । बता दें कि अंतिम बाल्टी में से किसी का अधिकतम भार है ।X1n/2X2n/2

विचार करने पर, पर एक ऊपरी सीमा है । इसके अलावा, संभावना के साथ कम से कम एक आधा; । तो, मोटे तौर पर, बोल रहा है, उसी तरह है।|X1X2|XmaxXsecmax|X1X2|=XmaxXsecmaxXmaxXsecmax|X1X2|

अध्ययन करने के लिए, ध्यान दें कि उच्च प्रायिकता गेंदों को पहले डिब्बे में फेंक दिया जाता है , और इसी तरह अंतिम डिब्बे के लिए। इसलिए और अनिवार्य रूप से अधिकतम भार की तरह वितरित जाते हैं जब गेंदों को डिब्बे में फेंकते हैं ।|X1X2|m/2±O(m)n/2n/2X1X2m=m/2±o(m)n=n/2

यह वितरण अच्छी तरह से अध्ययन किया गया है और, इस तर्क के लिए सौभाग्य से, इसके अर्थ के चारों ओर कसकर केंद्रित है। उदाहरण के लिए, यदि , तो उच्च प्रायिकता के साथ इस उत्तर के शीर्ष पर प्रदर्शित होने वाली अधिकांश मात्रा से इसकी अपेक्षा से अलग है ]। (नोट: यह ऊपरी सीमा है, मुझे लगता है, ढीली है, यूरी का जवाब दिया गया है।) इस प्रकार, उच्च संभावना के साथ और भी इस सबसे भिन्न होते हैं, और इसलिए और इस सबसे बहुत भिन्न होता है।mnlog3nX1X1X2XmaxXmaxsec

इसके विपरीत, (कुछ हद तक कमजोर), यदि किसी भी लिए, निम्न बाध्य है, तो , , तो कम से कम जो (भोले संघ द्वारा बाध्य) कम से कम मुझे लगता है कि यह आपको (उदाहरण के लिए) प्रत्याशा कारक के भीतर की उम्मीद देनी चाहिए ।Pr [ | एक्स 1 - एक्स 2 | टी ] 3 / 4 पीआर [ एक्स अधिकतम - एक्स सेकंड-अधिकतमटी ] पीआरtPr[|X1X2|t]3/4Pr[XmaxXsec-maxt]

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
एक्स अधिकतम - एक्स सेकंड-मैक्स1(1/4)(1/2)=1/4.XmaxXsec-max

Thm को देखते हुए। 1, अपेक्षा से अंतर , और न कि जो उन्होंने लिखा है। यह अभी भी से बहुत बेहतर है । O((m/n)loglogn)O((m/n)logn)
युवल फिल्मस 21

थम्म द्वारा। 1 (इसका तीसरा मामला), किसी भी , प्रायिकता , किसी भी बिन में अधिकतम (n गेंदों में m गेंद) मेरे गणित के द्वारा ( ) का उपयोग करके, शब्द एक योज्य निरपेक्ष अवधि तक फैलता हैमैं क्या गलत कर रहा हूं? 1 - ϵ>01o(1)
mn+2mlognn1(1±ϵ)loglogn2logn.
±εहे1δ=1O(δ)±ϵ
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
नील जवान

आह - मुझे लगता है कि तुम सही हो। मैं वर्गमूल के अंदर घटाया और इसी तरह मुझे अपना आंकड़ा मिला।
युवल फिल्मस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.