स्क्रैबल में अक्षरों के एक बैग से दिए गए शब्द को खींचने की संभावना


18

मान लीजिए कि आपके पास टाइल के साथ एक बैग था , प्रत्येक उस पर एक पत्र के साथ। अक्षर 'A' के साथ टाइलें हैं , 'B' के साथ , और इसी तरह, और 'वाइल्डकार्ड' टाइलें (हमारे पास n = n_A + n_B + \ ldots + n_Z + n_ * ) हैं। मान लीजिए कि आपके पास शब्दों की सीमित संख्या के साथ एक शब्दकोश है।nnAnBnn=nA+nB++nZ+n

आप प्रतिस्थापन के बिना बैग से k टाइल उठाते हैं ।

आप कैसे परिकलित किया जाएगा (या अनुमान) संभावना है कि आप किसी दिए गए शब्द की लंबाई के फार्म कर सकते हैं l (1 <साथ l = < k ) शब्दकोश दिया से k टाइल चयनित?

स्क्रैबल (टीएम) से परिचित नहीं लोगों के लिए, वाइल्डकार्ड वर्ण का उपयोग किसी भी पत्र से मेल खाने के लिए किया जा सकता है। इस प्रकार 'बीओटी' शब्द 'बी', '*', 'ओ', 'टी' के साथ 'वर्तनी' हो सकता है। जिस क्रम में अक्षर खींचे जाते हैं वह कोई मायने नहीं रखता।

सुझाव: उत्तरों के लेखन को सरल बनाने के लिए, इस प्रश्न का उत्तर देना बेहतर हो सकता है: एक ताजा बैग से 7 अक्षरों को खींचने के बाद आपके संभावित कदमों के बीच 'बीओटी' शब्द होने की संभावना क्या है।

(समस्या का परिचय इसी तरह के प्रश्न से कॉपी किया गया है )


मैं पहले एक सरल मामले से निपटने की सलाह दूंगा, जैसे वाइल्डकार्ड के बिना।
Glen_b -Reinstate मोनिका

@Glen_b मैं सहमत हूँ। जैसा कि मेरा अंतिम उद्देश्य संभावना द्वारा शब्दों को क्रमबद्ध करना है, मुझे लगता है कि वाइल्डकार्ड की अनदेखी एक स्वीकार्य सन्निकटन है। हालाँकि मेरे पास अभी भी इस सरल समस्या को हल करने के लिए फॉर्मूला बनाने का कौशल नहीं है
Sébastien

1
यदि आप अभी तक सरल शुरू करना चाहते हैं, तो 'बी', फिर 'ओ', फिर 'ओ', फिर 'टी' को चुनने की संभावना की गणना करें। उसके बाद, किसी भी क्रम में अक्षरों को चुनने की संभावना की गणना करें। उसके बाद, इस तथ्य में कारक कि आपके पास सात प्रयास हैं। फिर फैक्टर int वह वाइल्डकार्ड।
जेरी शिमर

1
इस समस्या का एक आसान तरीका मोंटे कार्लो सन्निकटन का उपयोग करना होगा। क्या यह पर्याप्त होगा?
रासमस बैसथ

1
क्या आप केवल उन अक्षरों के साथ शब्द बनाने की बात कर रहे हैं जिन्हें आप चुनते हैं, या पहले से चुने गए पत्रों को ध्यान में रखते हैं, और पहले से ही बोर्ड पर रखे गए शब्द हैं?
samthebrand

जवाबों:


12

एक सूत्र का अनुरोध किया है। दुर्भाग्य से, स्थिति इतनी जटिल है कि ऐसा लगता है कि कोई भी सूत्र सभी संभावनाओं को मानने का एक गोल चक्कर होगा। इसके बजाय, यह उत्तर एक एल्गोरिथ्म प्रदान करता है जो द्विपदीय गुणांक के उत्पादों की रकम से युक्त सूत्र के लिए (ए) एक फार्मूला है और (बी) को कई प्लेटफार्मों पर पोर्ट किया जा सकता है।


इस तरह के एक सूत्र प्राप्त करने के लिए पारस्परिक रूप से संबंध तोड़ना समूहों में संभावनाओं को तोड़ने को दो तरह से: कितने पत्र के अनुसार नहीं शब्द में रैक में चयन किया जाता है (इस रहने दो m ) और कितने वाइल्डकार्ड (रिक्त स्थान) का चयन किया जाता के अनुसार ( इस रहने दो w )। देखते हैं जब r=7 रैक में टाइल्स, N उपलब्ध टाइल्स, M शब्द में नहीं पत्र के साथ उपलब्ध टाइल्स, और W=2 उपलब्ध रिक्त स्थान, द्वारा दिए गए संभव विकल्पों की संख्या है(m,w)

(Mm)(Ww)(NMWrmw)

क्योंकि गैर-शब्द अक्षर, ब्लैंक और शब्द अक्षर की पसंद पर स्वतंत्र सशर्त हैं(m,w,r).

यह किसी शब्द को वर्तनी देने के तरीकों की संख्या को खोजने के लिए समस्या को कम करता है जब केवल शब्द के अक्षरों का प्रतिनिधित्व करने वाले टाइल्स से चयन किया जाता है , यह देखते हुए कि उपलब्ध हैं और टाइल्स का चयन किया जाएगा। स्थिति गड़बड़ है और कोई बंद सूत्र उपलब्ध नहीं लगता है। उदाहरण के लिए, ब्लैंक और आउट-ऑफ-शब्द अक्षर खींचे जाते हैं, "b", "o" और "t" टाइल्स से खींचे गए "बूट" को बाक़ी रखने के लिए ठीक चार अक्षर होंगे। । यह देखते हुए कि "बी" के, "ओ" के, औरwrmww=0m=3286स्क्रैबल टाइल सेट में "t" की ड्राइंग (मल्टीसेट्स) "bboo", "bbot", "bbtt", "booo", "boot", "बोतल", "btt", "oooo की सकारात्मक संभावनाएँ हैं। "," ओट "," यूट "," ओट्ट ", और" टीटीटी ", लेकिन इनमें से केवल एक ही" बूट "है। और यह आसान मामला था! उदाहरण के लिए, रैक को दबाने पर "ओ", "बी" और "टी" टाइल्स से यादृच्छिक रूप से चुनी गई पांच टाइलें होती हैं, दोनों कंबलों के साथ, "बूट" वर्तनी के कई और तरीके हैं - और इसे जादू नहीं करना। उदाहरण के लिए, "बूट" को "__boott" और "__bbtt" से लिखा जा सकता है, लेकिन "__ttttt" से नहीं।

इस गिनती - समस्या का दिल - पुनरावर्ती रूप से नियंत्रित किया जा सकता है। मैं एक उदाहरण के साथ इसका वर्णन करूंगा। मान लें कि हम "बी", "ओ", और "टी" टाइल्स के संग्रह से एक रिक्त और चार और टाइलों के साथ "बूट" वर्तनी के तरीकों को गिनना चाहते हैं (शेष दो टाइलें गैर-रिक्त अक्षरों को दिखाती हैं {नहीं "बी", "ओ", "टी"})। पहले अक्षर पर विचार करें, "बी":

  1. उपलब्ध "दो" टाइलों में से "बी" को " तरीके से खींचा जा सकता है। यह दोनों ओक्स और "टी" टाइलों के संग्रह से केवल तीन और टाइलों का उपयोग करके प्रत्यय "यूट" को वर्तनी के तरीकों की संख्या को गिनने की समस्या को कम करता है।(21)

  2. एक रिक्त को "बी" के रूप में नामित किया जा सकता है। यह शेष रिक्त "ओ" और "टी" टाइलों के संग्रह से केवल तीन और टाइलों का उपयोग करके "oot" के तरीकों की संख्या गिनने की समस्या को कम करता है।

सामान्य तौर पर, चरण (1) और (2) - जो कि असम्बद्ध होते हैं और इसलिए संभाव्य गणनाओं के लिए योज्य रूप से योगदान करते हैं - को पहले अक्षर के लिए उपयोग किए जा सकने वाले रिक्त स्थान की संभावित संख्या पर लूप के रूप में लागू किया जा सकता है। कम हुई समस्या को पुनरावर्ती रूप से हल किया जाता है। आधार मामला तब होता है जब एक अक्षर शेष होता है, उस पत्र के साथ निश्चित संख्या में टाइलें उपलब्ध होती हैं, और रैक में कुछ रिक्त स्थान भी हो सकते हैं। हमें केवल यह सुनिश्चित करना होगा कि रैक में रिक्त स्थान की संख्या और उपलब्ध टाइल की संख्या उस पत्र की वांछित मात्रा प्राप्त करने के लिए पर्याप्त होगी।

यहाँ Rपुनरावर्ती चरण के लिए कोड है। rackआम तौर पर बराबर होता है , अक्षरों की गिनती का एक सरणी है (जैसे कि ), एक समान संरचना है जो उन पत्रों के साथ उपलब्ध टाइलों की संख्या दे रही है, और रैक में होने वाले रिक्त स्थान की संख्या है।7wordc(b=1, o=2, t=1)alphabetwild

f <- function(rack, word, alphabet, wild) {
  if (length(word) == 1) {
    return(ifelse(word > rack+wild, 0, choose(alphabet, rack)))
  }
  n <- word[1]
  if (n <= 0) return(0)
  m <- alphabet[1]
  x <- sapply(max(0, n-wild):min(m, rack), 
              function(i) {
                choose(m, i) * f(rack-i, word[-1], alphabet[-1], wild-max(0, n-i))
              })
  return(sum(x))
}

इस फ़ंक्शन के लिए एक इंटरफ़ेस मानक स्क्रैबल टाइल्स को निर्दिष्ट करता है, किसी दिए गए शब्द को अपनी मल्टीसेट डेटा संरचना में परिवर्तित करता है, और और पर डबल योग करता है । यहाँ वह जगह है जहाँ द्विपद गुणांक और की गणना और गुणा की जाती है।mw(Mm)(Ww)

scrabble <- function(sword, n.wild=2, rack=7, 
              alphabet=c(a=9,b=2,c=2,d=4,e=12,f=2,g=3,h=2,i=9,j=1,k=1,l=4,m=2,
                         n=6,o=8,p=2,q=1,r=6,s=4,t=6,u=4,v=2,w=2,x=1,y=2,z=1),
              N=sum(alphabet)+n.wild) {
  word = sort(table(strsplit(sword, NULL))) # Sorting speeds things a little
  a <- sapply(names(word), function(s) alphabet[s])
  names(a) <- names(word)
  x <- sapply(0:n.wild, function(w) {
    sapply(sum(word):rack-w, 
           function(i) {
             f(i, word, a, wild=w) *
               choose(n.wild, w) * choose(N-n.wild-sum(a), rack-w-i)
           })
  })
  return(list(numerator = sum(x), denominator = choose(N, rack),
              value=sum(x) / choose(N, rack)))
}

आइए हम इस समाधान को आजमाएं और इसे समय पर जाएं। निम्न परीक्षण @Rasmus Bååth द्वारा सिमुलेशन में नियोजित समान इनपुट का उपयोग करता है :

system.time(x <- sapply(c("boot", "red", "axe", "zoology"), scrabble))

यह मशीन सेकंड कुल बीता समय की रिपोर्ट करती है : यथोचित त्वरित। परिणाम?0.05

> x
            boot        red         axe         zoology     
numerator   114327888   1249373480  823897928   11840       
denominator 16007560800 16007560800 16007560800 16007560800 
value       0.007142118 0.07804896  0.0514693   7.396505e-07

"बूट" की संभावना मेरे अन्य उत्तर में प्राप्त के मूल्य के बराबर है (जो एक समान विधि का उपयोग करता है लेकिन एक प्रतीकात्मक बीजगणित कंप्यूटिंग प्लेटफॉर्म की आवश्यकता वाले अधिक शक्तिशाली ढांचे में इसे couches करता है)। सभी चार शब्दों के लिए संभावनाएं बथुए के सिमुलेशन के करीब हैं (जो कि 11840/16007560800 की कम संभावना के कारण "जूलॉजी" के लिए एक सटीक मूल्य देने की उम्मीद नहीं की जा सकती है जो एक मिलियन में एक से कम है)।2381831 / 333490850 11840 / 16007560800 ,114327888/160075608002381831/33349085011840/16007560800,


शांत और सुरुचिपूर्ण समाधान! और मेरी तुलना में बहुत तेज ... :)
रासमस बैसथ

1
यह एक महान जवाब है, धन्यवाद। मुझे आपके एल्गोरिथ्म को कोड करने में एक कठिन समय मिला होगा, इसलिए कोड का उपयोग करने के लिए तैयार बहुत स्वागत है। मुझे नहीं पता था Rलेकिन फिर भी एक घंटे से भी कम समय में आपके कार्यों का उपयोग करने में कामयाब रहा, ताकि स्क्रिप्ट 20k शब्दों की डिक्शनरी फ़ाइल से इनपुट ले और एक .csv पर परिणाम लिखें। (इससे मिड-रेंज कोर i5 पर 10 मिनट से भी कम समय लगा)
Sébastien

16

संदर्भित प्रश्न के उत्तर यहां सीधे लागू होते हैं: एक शब्दकोश बनाएं जिसमें केवल लक्ष्य शब्द (और इसके संभावित वाइल्डकार्ड वर्तनी) शामिल हैं, इस मौके की गणना करें कि एक यादृच्छिक रैक लक्ष्य नहीं बना सकता है, और से घटा सकता है । यह गणना तेज है।1

सिमुलेशन (अंत में दिखाए गए) गणना किए गए उत्तरों का समर्थन करते हैं।


विवरण

पिछले उत्तर की तरह, गणितज्ञ का उपयोग गणना करने के लिए किया जाता है।

  1. समस्या निर्दिष्ट करें: शब्द (या शब्द, यदि आपको पसंद है), अक्षर, उनकी गिनती और रैक आकार। क्योंकि शब्द में नहीं सभी पत्र एक ही काम करते हैं, यह बहुत अभिकलन गति उन सब को एक भी प्रतीक से प्रतिस्थापित करने के लिए का प्रतिनिधित्व "कोई पत्र नहीं शब्द में।"χ

    word = {b, o, o, t};
    letters = {b, o, t, \[Chi], \[Psi]};
    tileCounts = {2, 8, 6, 82, 2};
    rack = 7;
  2. इस शब्द (या शब्द) का एक शब्दकोश बनाएं और सभी संभव वाइल्डकार्ड वर्तनी को शामिल करने के लिए इसे बढ़ाएं।

    dict[words_, nWild_Integer] := Module[{wildcard, w},
       wildcard = {xx___, _, yy___} -> {xx, \[Psi], yy};
       w = Nest[Flatten[ReplaceList[#, wildcard] & /@ #, 1] &, words, nWild];
       Union[Times @@@ Join[w, Times @@@ words]]];
    dictionary = dict[{word}, 2]

    {bo2t,bo2ψ,botψ,o2tψ,boψ2,o2ψ2,btψ2,otψ2}

  3. गैर-कीवर्ड की गणना करें:

    alphabet = Plus @@ letters;
    nonwords = Nest[PolynomialMod[# alphabet, dictionary] &, 1, rack]

    b7+7b6o+21b5o2++7χψ6+ψ7

    ( इस मामले में गैर-शब्द हैं।)185

  4. अवसरों की गणना करें। प्रतिस्थापन के साथ नमूने के लिए, बस चर के लिए टाइल मायने रखता है:

    chances = (Transpose[{letters, tileCounts/(Plus @@ tileCounts)}] /. {a_, b_} -> a -> b);
    q = nonwords /. chances;
    1 - q

    20726341339062500000

    यह मान लगभग 0.00756036.

    प्रतिस्थापन के बिना नमूने के लिए, शक्तियों के बजाय भाज्य शक्तियों का उपयोग करें:

    multiplicities = MapThread[Rule, {letters, tileCounts}];
    chance[m_] :=  (ReplaceRepeated[m , Power[xx_, n_] -> FactorialPower[xx, n]] 
                   /. multiplicities);
    histor = chance /@ MonomialList[nonwords];
    q0 = Plus @@ histor  / FactorialPower[Total[tiles], nn];
    1 - q0

    2381831333490850

    यह मान लगभग गणना व्यावहारिक रूप से तात्कालिक थी।0.00714212.


अनुकरण परिणाम

प्रतिस्थापन के साथ पुनरावृत्तियों के परिणाम :106

simulation = RandomChoice[tiles -> letters, {10^6, 7}];
u = Tally[Times @@@ simulation];
(p = Total[Cases[Join[{PolynomialMod[u[[All, 1]], dictionary]}\[Transpose], 
       u, 2], {0, _, a_} :> a]] / Length[simulation] ) // N

0.007438

इसकी मानक त्रुटि के सापेक्ष गणना मूल्य से तुलना करें:

(p - (1 - q)) / Sqrt[q (1 - q) / Length[simulation]] // N

1.41259

समझौता ठीक है, गणना परिणाम का दृढ़ता से समर्थन करता है।

प्रतिस्थापन के बिना पुनरावृत्तियों के परिणाम :106

tilesAll = Flatten[MapThread[ConstantArray[#1, #2] &, {letters, tiles}] ]
    (p - (1 - q)) / Sqrt[q (1 - q) / Length[simulation]] // N;
simulation = Table[RandomSample[tilesAll, 7], {i, 1, 10^6}];
u = Tally[Times @@@ simulation];
(p0 = Total[Cases[Join[{PolynomialMod[u[[All, 1]], dictionary]}\[Transpose], 
       u, 2], {0, _, a_} :> a]] / Length[simulation] ) // N

0.00717

तुलना करें:

(p0 - (1 - q0)) / Sqrt[q0 (1 - q0) / Length[simulation]] // N

0.331106

इस अनुकरण में समझौता उत्कृष्ट था।

सिमुलेशन के लिए कुल समय सेकंड था ।12


13

तो यह एक मोंटे कार्लो समाधान है, अर्थात् , हम टाइलों को एक बार के अरबों को आकर्षित करने के लिए अनुकरण करने जा रहे हैं और फिर हम गणना करने जा रहे हैं कि इनमें से कितने सिम्युलेटेड ड्रॉ के परिणामस्वरूप हमें दिए गए शब्द बनाने में सक्षम हैं। मैंने इसका समाधान आर में लिखा है, लेकिन आप किसी अन्य प्रोग्रामिंग भाषा का उपयोग कर सकते हैं, जिसे पायथन या रूबी कहते हैं।

मैं पहली बार वर्णन करने जा रहा हूं कि एक ड्रॉ का अनुकरण कैसे करें। पहले टाइल के आवृत्तियों को परिभाषित करते हैं।

# The tile frequency used in English Scrabble, using "_" for blank.
tile_freq <- c(2, 9 ,2 ,2 ,4 ,12,2 ,3 ,2 ,9 ,1 ,1 ,4 ,2 ,6 ,8 ,2 ,1 ,6 ,4 ,6 ,4 ,2 ,2 ,1 ,2 ,1)
tile_names <- as.factor(c("_", letters))
tiles <- rep(tile_names, tile_freq)
## [1] _ _ a a a a a a a a a b b c c d d d d e e e e e e
## [26] e e e e e e f f g g g h h i i i i i i i i i j k l
## [51] l l l m m n n n n n n o o o o o o o o p p q r r r
## [76] r r r s s s s t t t t t t u u u u v v w w x y y z
## 27 Levels: _ a b c d e f g h i j k l m n o p q r ... z

फिर शब्द को अक्षर गिन के वेक्टर के रूप में एनकोड करें।

word <- "boot"
# A vector of the counts of the letters in the word
word_vector <- table( factor(strsplit(word, "")[[1]], levels=tile_names))
## _ a b c d e f g h i j k l m n o p q r s t u v w x y z 
## 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 0 0 0 

अब सात टाइलों का एक नमूना बनाएं और उन्हें उसी तरह से एनकोड करें जैसे शब्द।

tile_sample <- table(sample(tiles, size=7))
## _ a b c d e f g h i j k l m n o p q r s t u v w x y z 
## 1 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 1 0 1 0 0 0 

अंत में, गणना करें कि कौन से अक्षर गायब हैं ...

missing <- word_vector - tile_sample
missing <- ifelse(missing < 0, 0, missing)
## _ a b c d e f g h i j k l m n o p q r s t u v w x y z 
## 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 

... और लापता अक्षरों की संख्या और उपलब्ध रिक्त स्थान की संख्या घटाएं। यदि परिणाम शून्य या उससे कम है तो हम शब्द की वर्तनी में सफल हुए।

sum(missing) - tile_sample["blank"] <= 0
## FALSE

इस विशेष मामले में हालांकि हम नहीं थे ... अब हमें बस इसे कई बार दोहराने और सफल ड्रॉ के प्रतिशत की गणना करने की आवश्यकता है। यह सब निम्नलिखित आर फ़ंक्शन द्वारा किया जाता है:

word_prob <- function(word, reps = 50000) {
  tile_freq <- c(2, 9 ,2 ,2 ,4 ,12,2 ,3 ,2 ,9 ,1 ,1 ,4 ,2 ,6 ,8 ,2 ,1 ,6 ,4 ,6 ,4 ,2 ,2 ,1 ,2 ,1)
  tile_names <- as.factor(c("_", letters))
  tiles <- rep(tile_names, tile_freq)
  word_vector <- table( factor(strsplit(word, "")[[1]], levels=tile_names))
  successful_draws <- replicate(reps, {
    tile_sample <- table(sample(tiles, size=7))
    missing <- word_vector - tile_sample
    missing <- ifelse(missing < 0, 0, missing)
    sum(missing) - tile_sample["_"] <= 0
  })
  mean(successful_draws)
}

यहाँ repsसिम्युलेटेड ड्रॉ की संख्या है। अब हम इसे कई अलग-अलग शब्दों में आज़मा सकते हैं।

> word_prob("boot")
[1] 0.0072
> word_prob("red")
[1] 0.07716
> word_prob("axe")
[1] 0.05088
> word_prob("zoology")
[1] 2e-05

मुझे अलग-अलग उत्तर मिले। यह बताना मुश्किल है कि वे आपके अनुकरण कोड की जटिलता को देखते हुए असहमत क्यों हैं, लेकिन मैं वाइल्डकार्ड के हमारे संचालन के कारण की खोज करना शुरू करूंगा।
whuber

2
मेरा मानना ​​है कि sampleअपेक्षा के अनुरूप कार्य नहीं करता है। उदाहरण के लिए, यदि आपके गेम को 28 टाइल्स के रैक की अनुमति देने के लिए संशोधित किया गया है तो आपके कोड का क्या होगा? बदले size=7के लिए size=28पता लगाने के लिए।
whuber

2
@ जब आप सही हों, इशारा करने के लिए धन्यवाद! अब यह काम कर रहा है और आपके कोड के समान उत्तर में परिणाम है!
रासमस बैथ

इस अच्छे काम के लिए धन्यवाद। वास्तव में एक मोंटे कार्लो दृष्टिकोण पूरी तरह से उपयुक्त है। हालांकि, मुख्य रूप से प्रदर्शन कारणों के लिए, मैंने व्हीलर द्वारा प्रदान की गई सटीक गणना एल्गोरिदम का उपयोग करने के लिए चुना है।
सेबेस्टियन

7

p0=(nb1)(no2)(nt1)(n43)(n7)
pkk
p0=(nb1)(no2)(nt1)(n43)(n7)p1=p0+(n1)(no2)(nt1)(n43)(n7)+(nb1)(no1)(n1)(nt1)(n43)(n7)+(nb1)(no2)(n1)(n43)(n7)=p0+(n1)(n43)(n7)((no2)(nt1)+(nb1)(no1)(nt1)+(nb1)(no2))p2=p1+(n2)(n43)(n7)((nb1)(no1)+(nb1)(nt1)+(no2)+(no1)(nt1))p3=p2+(n3)(n43)(n7)((nb1)+(no1)+(nt1))p4=p3+(n4)(n43)(n7)pi=p4,i4

The idea is correct (although it would help to explain why and to explain the notation, especially concerning exactly what "n" means: whether it counts all other letters or all other letters and the wildcards), but the treatment of wildcards is incomplete. Without any explanation and without any worked examples, it is difficult to determine whether your formulas are correct so we must consider them unreliable. Generally, it is possible to write down a formula for the probability in terms of sums of products of binomial coefficients.
whuber

1
There are mistakes in the calculation of p0: it assumes exactly 1 "b", 2 "o"s, and 1 "t" will be chosen; and then it assumes the choice of the other three letters will be independent of those choices, which it is not. Assuming n=100 is the total number of tiles, the resulting value is larger than it should be (it equals 8/25850.0031). The same mistake is propagated into the calculations of the wildcard probabilities.
whuber

-1

Meh.

γc=b0xcln(x)r=0(c+y1)(c+α)r(c+β)r(c+1)r(c+γ)rxr+

+b0xcr=0(c+γ1)(c+α)r(c+β)r(c+1)r(c+γ)r(1c+γ1+

+k=0r1(1c+α+κ+1c+β+κ+1c+1+κ1c+γ+κ))xr

=b0xcr=0(c+γ1)(c+α)r(c+β)r(c+1)r(c+γ)r(ln x+1c+γ1+

+k=0r1(1c+α+κ+1c+β+κ1c+1+κ1c+γ+κ))xr
.

It's been a while since I looked at how I built my project. And my math may be entirely incorrect below, or correct. I may have it backwards. Honestly, I forget. BUT! Using only binomial combination, without taking into account blank tiles which throws the entire thing out of whack. The simple combination solution without wild.

I asked these questions myself, and built my own scrabble words probability dictionary because of it. You don't need a dictionary of possible words pulled out, only the math behind it and available letters based on letters in tile bag. The array of English rules is below. I spent weeks developing the math just to answer this question for all English words that can be used in a game, including words that can not be used in a game. It may all be incorrect.

The probability of drawing a given word from a bag of letters in Scrabble, requires how many letters are available in the bag, for each letter ( A-Z ) and, whether we're using the wild card as an addition to the math. The blank tiles are included in this math - assuming 100 tiles, 2 of which are blank. Also, how many tiles are available differs based on language of the game, and game rules from around the world. English scrabble differs from Arabic scrabble, obviously. Just alter the available letters, and the math should do the work.

If anyone finds errors, I will be sure to update and resolve them.

Boot: The probability of Boot in a game of scrabble is 0.000386% which is a chance of 67 out of 173,758 hands as shown on the word page for boot.

English Tiles

all is the array of letters in the bag. count is the array of available tiles for that letter, and point is the point value of the letter.

// All arranged by letter, number of letters in scrabble game, and point for the letter.
$all = array("a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z");
    $count = array("9", "2", "2", "4", "12", "2", "3", "2", "9", "1", "1", "4", "2", "6", "8", "2", "1", "6", "4", "6", "4", "2", "2", "1", "2", "1");
$point = array("1", "3", "3", "2", "1", "4", "2", "4", "1", "8", "5", "1", "3", "1", "1", "3", "10", "1", "1", "1", "1", "4", "4", "8", "4", "10");

There are 100 tiles in an English scrabble game (i.e., the sum of $count). It does not matter how the tiles are pulled, so it's not a permutation.

The Math I Used Determine how many letters are in the word and what letters are in the word, how many of those letters are available in the tile bag ( count for each letter, unique and allchars ). Binomial coefficient of each, divided by binomial coefficient of length word.

Determine the binomial combinations available

let C(n,r) be binomial coefficient: n!/[n!(n-r)!], or 0 if r > n

Foreach letter, what is the binomial coefficient.

There is 1 "B". There are 2 available, a 2% chance of pulling the b.
There is 2 "O". There are 8 available, a 8% chance of pulling the o.
There is 1 "T". There are 6 available, a 6% chance of pulling the t.
BOOT is a 4 letter word, being taken from a 100 tile set with blanks, 98 without.

n = 98. The number of tiles without blank in the English set

B=(21)=2!2!(21)!
O=(82)=8!8!(82)!
T=(61)=6!6!(61)!

B×O×T divided by the binomial coefficient of tilecount 98!98!(98length)!


It's hard to evaluate your solution without knowing what n and r refer to in the final formula. How do you handle the effect of the blank tiles? That's what makes this a difficult problem. Regardless, it would be interesting to see a demonstration that the value of 38248840160075608000.00239 is incorrect: this was obtained using the R solution I posted. Try this one-second R simulation: let <- c(rep("b", 2), rep("o", 8), rep("t", 6), rep("_", 84)); boot <- function(x) sum(x=="b")>=1 && sum(x=="o")>=2 && sum(x=="t")>=1; mean(replicate(1e5, boot(sample(let, 7))))
whuber

Re the edit: one obvious error is that your calculation does not account for the number of blanks at all. As far as I can tell from your formulas, if that number were to change (from 2 to 50, say) then your answer would not change. That's obviously wrong. Another problem you face is to explain how your answer can conflict with three other answers already posted, which use three completely different techniques yet agree with one another (and disagree with yours).
whuber

If combinations - the math is binomial coefficients. So, let x be the count of blank tiles. The only math that changes, is n! - is there blanks used, or not. If so, add the count of blank to n! since blank allows 2 more options of every letter possible (n+x)! - if not, leave n! as is. Yes? No? If blanks are not used depending on language rule set in this case English, n! = 98 or 100 with. Each letter without blank is C(n,r), else with blank C((n+x),r). In the array, blank is there - but I forgot to put blank in the math. So just change n to work with blanks. Yes?
James Cordeiro

No, your reasoning is invalid. I invite you to try out your formulas with smaller numbers so you can see where they go wrong.
whuber

What do you mean by smaller numbers - whuber? Give me an example. Are you saying pulling boot from a set of 10 letters instead, 1 b, 2 o, 1 t's with a 1 blank in the set and 5 other letters. Or something completely different. I'm no math major, but it seems we've become poker players. We're now calculating poker odds with scrabble tiles that don't have suits.
James Cordeiro
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.