एक ही कक्षा में एक ही नाम दिए जाने से पाँच बच्चों की संभावना

बच्चे के नामकरण मंचों पर, भावी माता-पिता हर समय जेनिफर के अपने डर के कुछ संस्करण दोहराते हैं: "मैं नहीं चाहता कि मेरा बच्चा अपने नाम के साथ कक्षा में 5 में से एक हो।" बात यह है कि कोई भी नाम किसी भी तरह की लोकप्रियता के करीब नहीं आता है, और यहां तक कि जेनिफर की दीवानगी की ऊंचाई पर, आप उनमें से पांच को एक कक्षा में नहीं पाते हैं। मैं इन माता-पिता के लिए किसी तरह का जवाब देना चाहूंगा कि नाम पुनरावृत्ति का ऐसा संयोग नहीं होगा।

सामाजिक सुरक्षा प्रशासन के व्यापक शिशु-नाम के डेटा ( https://www.ssa.gov/oact/babynames/limits.html ) का उपयोग करके , क्या कोई मुझे बता सकता है कि अमेरिका में प्राथमिक स्कूल कक्षा पाँच होने की संभावना का पता कैसे लगाया जाए एक ही नाम वाले बच्चे? (सादगी के लिए, "समान नाम" से मेरा मतलब समान वर्तनी से है, और "स्कूल कक्षा" से मेरा मतलब है कि सभी बच्चे एक ही वर्ष में पैदा हुए थे।) मैं एक वर्ग के आकार को निर्दिष्ट नहीं कर रहा हूँ, लेकिन यह निश्चित रूप से 4 से अधिक होना चाहिए। , :-)

probability combinatorics

— JPmiaou
स्रोत

बच्चे के नाम के बारे में पोस्ट एंड्रयू जेलमैन के ब्लॉग पर एक आवर्ती विषय है। उनकी साइट पर मुझे जो भी पद मिले हैं उनमें से कोई भी वह आपके विशिष्ट प्रश्न पर चर्चा नहीं करता है। वह एक "बच्चे का नाम ब्लॉग" से लिंक करता है, जहां आपको उत्तर पाने के लिए अधिक भाग्य हो सकता है। andrewgelman.com/2005/09/07/baby_name_blog

— माइक हंटर

मुझे लगता है कि आप इस तरह की जनगणना के आंकड़ों से निकाले गए पहले शीर्ष बीस नामों जैसे कि कहने की सफलता की संभावनाओं के साथ बहुराष्ट्रीय वितरण का उपयोग करते हुए कुछ स्ट्रिंग कर सकते हैं ।

— एंटोनी पारेलाडा

क्या SSA एक नाम के साथ पैदा होने वाले बच्चों की संख्या के बारे में डेटा प्रदान करता है ? मैं केवल रैंकों के बारे में जानकारी पा रहा हूं जो स्पष्ट रूप से कुछ उपयोगी जानकारी को छोड़ देता है।

— साइकोरैक्स का कहना है कि मोनिका

@AntoniParellada मुझे लगता है कि स्थिति की वास्तविकता और भी अधिक सूक्ष्म है: चूंकि यूएस स्कूल प्रणाली आय और दौड़ से बहुत अलग है, मुझे लगता है कि राष्ट्रीय आंकड़ों में वास्तविक कक्षाओं के लिए एक खराब पत्राचार होगा।

— साइकोरैक्स का कहना है कि मोनिका

जब मैं एक (छोटे) प्राइमरी स्कूल में एक छात्र था, तो हमारे पास बहुत छोटी कक्षा में तीन जॉन्स थे (मुझे लगता है कि संयुक्त लड़कों और लड़कियों के बारे में केवल 14 था)। एक वर्ष हमने एक पूर्ण आकार वर्ग बनाने के लिए वर्ष के साथ जोड़ा ... और एक चौथा जॉन मिला। अब जॉन बहुत आम तो लेकिन सभी नहीं था कि आम। (मूल मुद्दे के संदर्भ में, तीन लगभग पाँच के रूप में कष्टप्रद होगा)। किसी विशेष नाम को कई बार डुप्लिकेट किए जाने की संभावना बहुत कम होगी, लेकिन कुछ नाम के कई बार दिखाई देने की संभावना कहीं अधिक होगी।

— Glen_b -Reinstate मोनिका

जवाबों:

सभी डेटा यहाँ पाया जा सकता है । तालिका में प्रत्येक मान उस संभावना का प्रतिनिधित्व करता है जिसने उस स्थान और जन्म वर्ष से 25-व्यक्ति का नमूना दिया, उनमें से 5 एक नाम साझा करेंगे।

विधि : मैंने प्रत्येक नाम पर द्विपद पीडीएफ का उपयोग इस संभावना को खोजने के लिए किया कि किसी भी 25-व्यक्ति वर्ग में 5 लोग होंगे जिन्होंने एक नाम साझा किया है:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

उदाहरण के लिए, यदि 4,000,000 कुल बच्चे हैं, और 21,393 एमिली की है, तो संभावना है कि 25 छात्रों के साथ किसी भी दिए गए कक्षा में 5 एमिली हैं (बिनोमियल (25, 5, 0.0053) = 0.0000002। सभी नामों पर सारांश देना सटीक उत्तर नहीं देता है, क्योंकि समावेश / बहिष्करण सिद्धांत द्वारा , हमें 5 लोगों के कई समूह होने की संभावना का भी हिसाब रखना चाहिए जो नाम साझा करते हैं। हालाँकि, ये संभावनाएँ लगभग सभी शून्य के लिए व्यावहारिक उद्देश्यों के लिए हैं, मैंने उन्हें नगण्य मान लिया है, और इस तरह । $P(\bigcup A_i) \approx \sum P(A_i)$

अद्यतन: जैसा कि कई लोगों ने बताया, समय के साथ और राज्यों के बीच काफी भिन्नता है। इसलिए मैंने एक ही कार्यक्रम को एक STATE BY STATE आधार पर और समय के साथ चलाया। यहां परिणाम हैं (राष्ट्रव्यापी संभावना लाल है, व्यक्तिगत राज्य काले हैं):

दिलचस्प बात यह है कि वर्मोंट (मेरा गृह राज्य) पिछले कई दशकों से ऐसा करने के लिए लगातार सबसे संभावित स्थानों में से एक रहा है।

— डेविड सी
स्रोत

कोई भी मौका आप बता सकते हैं कि आपको ये नंबर कैसे मिले? आपको इसे अधिक गूंगा करने की आवश्यकता नहीं है - मेरे पास गणित में स्नातक की डिग्री है, और मुझे पता है कि सामान कहाँ देखना है - लेकिन मैं वास्तव में तर्क के प्रकार को जानना चाहूंगा जो वास्तव में संभाव्यता की ओर जाता है (इसके बजाय की आहें भरी)।

— जेपीमियाउ

यह मानता है कि नाम समान संभावनाओं के साथ यादृच्छिक रूप से दिए गए हैं , जो कि बस सच नहीं है । इसके अलावा वास्तविक जीवन के अनुभव से पता चलता है कि बच्चों के साथ बहुत अधिक कक्षाएं समान नाम हैं, फिर 200 में 1!

— टिम

मुझे थोड़ा अलग परिणाम मिलता है, लेकिन वे करीब हैं। हालांकि, यह चर्चा के लायक नहीं है, क्योंकि परिणामों में भौगोलिक और लौकिक भिन्नता बहुत बड़ी है। उत्तर 1910 के बाद से परिमाण के दो आदेशों से बदल गया है और राज्यों के बीच परिमाण के क्रम से भिन्न होता है। चूंकि पूरे अमेरिका से लगभग कोई प्राथमिक विद्यालय वर्ग तैयार नहीं है, इसलिए राष्ट्रीय नामों की सूची से यादृच्छिक चयन का मॉडल अनुचित है।

— whuber

(1) आपके द्वारा डाउनलोड की गई राष्ट्रीय फ़ाइल में अन्य वर्षों को देखें। (२) एक ही साइट पर उपलब्ध राज्य फाइलों को देखें।

— whuber

हां, समय के साथ संभावनाओं का ग्राफ नाटकीय है: 1980 तक इसमें गिरावट शुरू हो गई थी। लेकिन राज्य में बदलाव वास्तव में बहुत बड़ा है, क्योंकि कोई भी उम्मीद करेगा: नाम भौगोलिक रूप से भिन्न होते हैं और वे जातीयता, आय और अन्य जनसांख्यिकीय कारकों द्वारा दृढ़ता से क्लस्टर करते हैं। (+1 राज्य और समय भिन्नता में अपने विस्तारित जांच, BTW के लिए।)

— whuber

कृपया पायथन 2 के लिए निम्नलिखित पायथन-लिपि देखें।

उत्तर डेविड सी के उत्तर से प्रेरित है।

मेरा अंतिम उत्तर होगा, https://www.ssa.gov/oact/babynames/limits.html "नेशनल डेटा" के आंकड़ों के अनुसार जैकब को एक कक्षा में कम से कम पांच जैकब मिलने की संभावना, सबसे संभावित नाम है। “2006 से।

संभावना की गणना एक द्विपद वितरण के अनुसार की जाती है जिसमें जैकब-प्रायिकता सफलता की संभावना है।

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

मैक्स। जेक नाम के लिए 25: 4.7e-07 में से एक ही नाम वाले कम से कम पांच बच्चों के लिए संभावना

मैक्स। 50 में से एक ही नाम वाले कम से कम पांच बच्चों के लिए संभावना: जैक-नाम के लिए 1.6e-05, बिल्कुल।

मैक्स। 100 में से एक ही नाम वाले कम से कम पांच बच्चों के लिए संभावना: नाम के जैकब के लिए 0.00045, बिल्कुल।

डेविड सी के रूप में 10 समान परिणाम के कारक द्वारा। धन्यवाद। (मेरे उत्तर में सभी नामों का योग नहीं है, चर्चा की जानी चाहिए)

— feinmann
स्रोत

यह उत्तर इस अवसर के सवाल को संबोधित करने के लिए प्रकट नहीं होता है कि कुछ नाम कक्षा में पांच या अधिक बार दिखाई देते हैं।

— whuber

@ फैमिनमैन मेरा मानना है कि सभी नामों पर योग लेना उचित है क्योंकि एक वर्ग में एक ही नाम वाले 5 लोगों के दो या अधिक सेट होने की संभावना लगभग शून्य है, और सभी व्यावहारिक उद्देश्यों के लिए नगण्य है। अर्थात्, शामिल किए जाने / बहिष्करण सिद्धांत के अनुसार , यदि हम इस संभावना की अवहेलना करते हैं, तो

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

— डेविड सी

नहीं, आपने इस प्रश्न का उत्तर नहीं दिया है क्योंकि आपने इसे तैयार किया है। मौका है कि कुछ नाम पांच या अधिक बार दिखाई देगा, अधिकतम संभावना से बहुत अधिक है कि एक दिया नाम पांच या अधिक बार दिखाई देगा।

— whuber

जैसा कि @whuber बताते हैं, "5 जैकब" किसी "नाम के 5" की तुलना में एक कमजोर तर्क है, लेकिन यह वैसे भी बच्चे के नाम चर्चा में उपयोगी हो सकता है: "यहां सबसे लोकप्रिय नाम वाले पांच बच्चों की संभावना है। आप नहीं हैं।" सबसे लोकप्रिय नाम का उपयोग करना, इसलिए आपकी संभावना और भी कम है। "

— जेपीमियाओ

यह बिल्कुल नहीं है , क्योंकि संभावनाएं परस्पर अनन्य नहीं हैं: आपके पास एक ही कक्षा में 5 या अधिक Thomases और 5 या अधिक रिचर्ड्स ( और शायद 5 या अधिक हेनरिज़) भी हो सकते हैं। तो यह एक ऊपरी बाध्यता है। @ डेविड ने यहां एक टिप्पणी में तर्क दिया है कि इस तरह की घटनाओं में नगण्य संभावना है।

— Scortchi - को पुनः स्थापित मोनिका