कई टकरावों के साथ जन्मदिन की समस्या उल्टा


9

मान लें कि आपके पास एक अज्ञात लंबाई के साथ एक विदेशी वर्ष था। यदि आपके पास उक्त एलियंस का यादृच्छिक नमूना है और उनमें से कुछ जन्मदिन साझा करते हैं, तो क्या आप इस डेटा का उपयोग वर्ष की लंबाई का अनुमान लगाने के लिए कर सकते हैं?

उदाहरण के लिए, 100 के नमूने में, आपके पास दो ट्रिपल (यानी दो जन्मदिन प्रत्येक तीन एलियंस द्वारा साझा किए गए) और पांच जोड़े और अस्सी-चार एकल हो सकते हैं। एन का अनुमान लगाने में, पूर्णतम न्यूनतम 91 है और अधिकतम अनबाउंड है, लेकिन मुझे एक उचित अपेक्षित मूल्य कैसे मिलेगा?

मान्यताओं में "सभी जन्मदिन समान रूप से होने की संभावना" जैसी चीजें शामिल हैं।

यहां पूछे गए एक अन्य प्रश्न के विपरीत, कमरे में ज्ञात टकराव हैं। किसी भी पर्याप्त रूप से लंबे वर्ष में एलियंस के कमरे के लिए कोई टकराव नहीं होने की प्रबल संभावना होगी। लेकिन बहुत लंबे वर्षों में किसी भी टकराव की कम संभावना होगी, और छोटे वर्षों में कुछ टकरावों की कम संभावना होगी, इस प्रकार सबसे अधिक संभावना वाले वर्ष की लंबाई के लिए (सैद्धांतिक) सीमा प्रदान की जाएगी।


3
इस प्रश्न के एक विशेष संस्करण के लिए मेरा उत्तर आसानी से सामान्यीकृत होता है ( बहुराष्ट्रीय वितरण का उपयोग करते हुए): आँकड़े देखें ।stackexchange.com/questions/252813
whuber

@ टेकहेड विभिन्न तरीकों से! उल्लेख करने के लिए पैरामीटर आकलन के लिए स्पष्ट दृष्टिकोण अधिकतम संभावना होगी।
Glen_b -Reinstate मोनिका


1
@ जब मैंने उस प्रश्न और आपकी टिप्पणी को देखा, लेकिन मैंने यह नहीं देखा कि इसे ज्ञात टकरावों के नमूने में कैसे लागू किया जाए। विस्तारित रूप खोजना मुश्किल नहीं है, लेकिन मुझे नहीं पता कि मैं लघुगणक राशि कैसे पाऊंगा।
21

1
मैं सहमत हूं कि आपका संस्करण पर्याप्त रूप से अधिक जटिल है कि इसे डुप्लिकेट के रूप में बंद नहीं किया जाना चाहिए।
whuber

जवाबों:


2

वितरण के प्रत्याशा मूल्य की गणना इस प्रकार की जाती है E(X)=pixi। इस समस्या के लिए, हम के वितरण की गणना करना चाहते हैंN कुछ टकराव मानदंड दिए, या ढूंढे E(N)=n=0pnn कुछ टक्कर मानदंड दिए, जहां pn=P(N=n).

मान लें कि आपके पास ऊपर बताए गए अनुसार कुछ टकराव मानदंड हैं, और जाने दें qn इस बात की संभावना है कि टकराव के मापदंड को पूरा किया जाता है, वर्ष की लंबाई है n. फिर qnबस उन तरीकों की संख्या को विभाजित करके पाया जा सकता है जिनसे टकराव के मापदंड को पूरा किया जा सकता है, जिस तरह से जन्मदिन को सामान्य तरीके से व्यवस्थित किया जा सकता है। एक बारqn प्रत्येक संभव के लिए पाया जाता है n, तब जो एकमात्र टुकड़ा गायब है वह अनुवाद कर रहा है qn सेवा pn.

अगर हम ऐसा मान लें pn के लिए आनुपातिक है qn, फिर pn=αqn. जबसे n=0pn=1, αn=0qn=1 तथा α=1n=0qn. इसलिए, हमें केवल एक सूत्र की आवश्यकता है qn इस समस्या को हल करने के लिए।

आपके उदाहरण के लिए, आइए हम पहले यह पता करें कि टकराव के मापदंड कितने तरीके हो सकते हैं N=n. पहला एलियन सिंगलटन किसी भी दिन उतर सकता है, इसलिए वहाँ हैं nसंभावनाओं। अगले सिंगलटन किसी भी दिन उतर सकता है लेकिन पहले विदेशी का जन्मदिन है, इसलिए वहाँ हैंn1संभावनाओं। पहले 84 एकल गीतों के लिए इसे पूरा करना, हमें मिलता हैn(n1)(n2)...(n83)यह संभव हो सकता है। ध्यान दें कि हमारे पास 5 जोड़े और 2 ट्रिपल हैं, इसलिए प्रत्येक समूह के लिए "पहला" एलियन एकल जोड़े पर भी नहीं उतरना चाहिए। इससे अn(n1)(n2)...(n8452+1) इन एलियन के टकराने के तरीके (बाद में आसान सामान्यीकरण के लिए अनाड़ी वाक्य रचना) नहीं है।

अगला, किसी दिए गए जोड़े या ट्रिपल के लिए दूसरे विदेशी के पास 91 विकल्प हैं, अगले में 90 आदि हैं, कुल तरीकों की संख्या यह हो सकती है कि पहले 91 एलियंस का जन्मदिन हो। 91(911)(912)...(917+1)। ट्रिपल के शेष सदस्यों को जोड़ों के जन्मदिन पर गिरना चाहिए, और ऐसा होने की संभावना है76। हम इन सभी के लिए संभावनाओं को एक साथ गुणा करके टकराव मानदंड के लिए संभावित तरीकों की कुल संख्या प्राप्त कर सकते हैं:

rn=n(n1)...(n8452+1)(84+5+2)(84+5+21)...(84+1)(5+2)(5+1)

इस बिंदु पर पैटर्न स्पष्ट है, अगर हमारे पास है a एकमात्र, b जोड़े, और c ट्रिपल, हम 84 को प्रतिस्थापित करते हैं a, 5 के साथ b, और 2 के साथ cएक सामान्यीकृत सूत्र प्राप्त करने के लिए। मुझे लगता है कि यह भी स्पष्ट है कि जन्मदिन को सामान्य रूप से व्यवस्थित करने के संभावित तरीकों की संख्या हैnm, जहां मी समस्या में एलियन की कुल संख्या है। इसलिए, टक्कर मानदंड को पूरा करने की संभावना एलियंस द्वारा पैदा होने के तरीकों की संख्या से विभाजित टकराव के मानदंडों को पूरा करने के तरीकों की संख्या है, याqn=rnnm

के सूत्र में एक और दिलचस्प बात सामने आई rn। चलोyn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!, और जाने zn का शेष भाग हो rn ताकि rn=ynzn। ध्यान दें किzn n से स्वतंत्र है, इसलिए हम केवल लिख सकते हैं zn=zएक स्थिर के रूप में! जबसेpn=qn/i=0qi, तथा qn=zynnm, हम वास्तव में कारक हो सकते हैं zहर में राशि से बाहर। इस बिंदु पर, यह अंश से अंश को प्राप्त करने के लिए रद्द करता हैpn=ynnm/i=0(yiim)। हम सरल कर सकते हैंyn आगे अगर हम दें s=a+b+c (या यह एलियन के समूह में अद्वितीय जन्मदिन की संख्या के रूप में सोचा जा सकता है), ताकि हम प्राप्त करें:

pn=n!(ns)!nm/i=0(i!(is)!im)

अब हमारे पास (काफी) सरल फार्मूला है pn, और इसलिए एक (काफी) सरल सूत्र E(N), जहां एकमात्र धारणा बनाई गई थी P(N=n) के लिए आनुपातिक है qn (टकराव के मानदंडों को पूरा करने की संभावना जो दी गई है N=n)। मुझे लगता है कि यह एक उचित धारणा है, और मुझसे ज्यादा स्मार्ट कोई व्यक्ति यह साबित करने में भी सक्षम हो सकता है कि यह धारणा जुड़ी हैP(N=n)एक बहुराष्ट्रीय वितरण के बाद। इस बिंदु पर हम गणना कर सकते हैंE(N) संख्यात्मक विधियों का उपयोग करना या कुछ अनुमान लगाना, जैसे pn दृष्टिकोण 0 के रूप में होगा n दृष्टिकोण


ऐसा लगता है कि आप संभावना द्रव्यमान फ़ंक्शन के बजाय संभावना फ़ंक्शन के आधार पर अपेक्षा मूल्य की गणना करने का प्रस्ताव करते हैं। क्या वह जानबूझकर था?
सेक्स्टस एम्पिरिकस

2

कोडी से उत्कृष्ट जवाब के लिए संभावना समारोह को व्यक्त करने का एक अच्छा तरीका प्रदान करता है Nवर्ष में संख्या दिन (या एक फ्लैट पूर्व के आधार पर पीछे वितरण) संभावना से कुछ हिस्सा बाहर फैक्टरिंग से स्वतंत्र है N

इस उत्तर में मैं इसे और अधिक संक्षेप में लिखना चाहूंगा और इस संभावना फ़ंक्शन की अधिकतम गणना करने का एक तरीका भी प्रदान करूंगा (बजाय अपेक्षित मूल्य के जो गणना करना बहुत कठिन है)।


एन के लिए संभावना समारोह

के अनुक्रम को आकर्षित करने के तरीकों की संख्या a+2b+3c के एक सेट से जन्मदिन n जन्मदिन, कि प्रतिबंध के साथ a एकल जन्मदिन की संख्या है, b duplicate birthdays, and c triple birthdays is equal to

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

and only the first term on the righthandside is dependent on n, so by factoring out the other terms we end with a simple expression for a likelihood function

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

where we follow the notation from Cody and use m to denote the number of aliens and s the number of unique birthdays.


Maximum likelihood estimate for N

We can use this likelihood function to derive the maximum likelihood estimate for N.

Note that

L(n)=L(n1)(n1n)mnns

and the maximum will occur just before the n for which

(n1n)mnns=1

or

s=n(1(11/n)m)

which is for large n approximately (using a Laurent series which you can find by substituting x=1/n and write the Taylor series for x in the point x=0)

sk=0l(mk)(n)k+O(n(l+1))

Using only the first order term smm(m1)2n you get:

n1(m2)ms

Using the second order term as well smm(m1)2n+m(m1)(m2)6n2 you get:

n2(m2)+(m2)24(ms)(m3)2(ms)

So in the case of the m=100 aliens among which there are s=91 unique birthdays you get using the approximation n1550 and n2515.1215. When you solve the equation numerically you get n=516.82 which we round-down to n=516 to get the MLE.

comparing approximation with true MLE

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.