K बर्नौली परीक्षणों में सफल रहा, या जॉर्ज लुकास फिल्म प्रयोग


23

मैं अब "द ड्रंकर्ड वॉक" पढ़ रहा हूं और इससे एक कहानी नहीं समझ सकता।

ये रहा:

कल्पना कीजिए कि जॉर्ज लुकास एक नई स्टार वार्स फिल्म बनाता है और एक परीक्षण बाजार में एक पागल प्रयोग करने का फैसला करता है। वह एक ही फिल्म को दो शीर्षकों के तहत रिलीज करता है: "स्टार वार्स: एपिसोड ए" और "स्टार वार्स: एपिसोड बी"। प्रत्येक फिल्म का अपना मार्केटिंग अभियान और वितरण शेड्यूल होता है, जिसमें समान विवरण समान होते हैं सिवाय इसके कि ट्रेलर और विज्ञापन एक फिल्म के लिए "एपिसोड ए" और दूसरे के लिए "एपिसोड बी" कहते हैं।

अब हम इसके लिए एक प्रतियोगिता बनाते हैं। कौन सी फिल्म ज्यादा लोकप्रिय होगी? कहते हैं कि हम पहले 20,000 फिल्म निर्माताओं को देखते हैं और जिस फिल्म को चुनते हैं उसे रिकॉर्ड करते हैं (उन डाई-हार्ड प्रशंसकों को अनदेखा करते हैं, जो दोनों में जाएंगे और फिर दोनों के बीच सूक्ष्म लेकिन सार्थक अंतर पर जोर देते हैं)। चूंकि फिल्में और उनके विपणन अभियान समान हैं, इसलिए हम गणितीय रूप से खेल को इस तरह से मॉडल कर सकते हैं: कल्पना करें कि सभी दर्शकों को एक पंक्ति में रखा जाए और प्रत्येक दर्शक के लिए एक सिक्का पलट दिया जाए। यदि सिक्का ऊपर जाता है, तो वह एपिसोड ए देखता है; यदि सिक्का ज़मीन पर गिरता है, तो यह एपिसोड बी है। क्योंकि सिक्के के दोनों तरफ आने का एक समान मौका है, आप सोच सकते हैं कि इस प्रायोगिक बॉक्स ऑफ़िस युद्ध में प्रत्येक फिल्म लगभग आधे समय की लीड में होनी चाहिए।

लेकिन यादृच्छिकता का गणित अन्यथा कहता है: लीड में परिवर्तन की सबसे संभावित संख्या 0 है, और यह 88 गुना अधिक संभावित है कि दो फिल्मों में से एक सभी 20,000 ग्राहकों से आगे निकलेगी, यह कहना है कि लीड लगातार देखती है "

मैं, शायद गलत तरीके से, यह एक सादे बर्नौली परीक्षण समस्या के लिए विशेषता है, और यह कहना चाहिए कि मैं यह देखने में विफल रहा कि नेता औसत रूप से क्यों नहीं देखता! क्या कोई समझा सकता है?

जवाबों:


22

जॉर्ज लुकास प्रयोग का अनुकरण करने के लिए यहां कुछ आर कोड है:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

इसे चलाने से हमें इस तरह की तस्वीरें मिलती हैं:

यहाँ छवि विवरण दर्ज करें

जहां A और B के बीच बेचे गए टिकटों का अंतर y- अक्ष पर है।

अगला, हम ऐसे नकली जॉर्ज लुकास प्रयोगों को चलाते हैं । प्रत्येक प्रयोग के लिए, हम समय के अनुपात में खर्च की गणना , यानी लाइन-अप दर्शकों जिसके लिए एक को बेच दिया टिकट की संख्या अधिक है या, आप 'बी Intuitively को बेचा टिकट की संख्या के बराबर के अनुपात में d का कहना है कि यह अनुपात लगभग होना चाहिए । यहाँ परिणामों का एक हिस्टोग्राम है:0 1 / 210,00001/2

यहाँ छवि विवरण दर्ज करें

अनुपात औसतन है इस अर्थ में कि अपेक्षित मान , लेकिन या करीब के मूल्यों की तुलना में एक असंभावित मूल्य है । अधिकांश प्रयोगों के लिए, मतभेद ज्यादातर सकारात्मक या नकारात्मक होते हैं!1 / 2 1 / 2 0 11/21/21/201

लाल वक्र आर्क्सिन वितरण का घनत्व कार्य है, जिसे वितरण के रूप में भी जाना जाता है । उपरोक्त चित्र में जो दर्शाया गया है वह यादृच्छिक वाकों के लिए पहले आर्सेन कानून के रूप में जाना जाने वाला एक प्रमेय है , जो कहता है कि सरल सममित रैंडम वॉक के चरणों की संख्या अनंत तक पहुंचती है, ऊपर खर्च किए गए समय के अनुपात का वितरण । आर्सेनिन वितरण। इस परिणाम के लिए एक मानक संदर्भ विलियम फेलर द्वारा खंड 1, प्रायिकता सिद्धांत और इसके अनुप्रयोगों, परिचय 1 की धारा III.4 है ।बीटा(1/2,1/2) 00


सिमुलेशन अध्ययन के लिए आर कोड है

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

धन्यवाद! मैंने आर स्थापित किया और आपके सभी चरणों को दोहराना चाहूंगा - मैं 10,000 सिमुलेशन कैसे चला सकता हूं और खर्च किए गए समय के अनुपात की गणना कर सकता हूं?
andreister

@andreister: मैंने अपने जवाब को संपादित किया, अंत में सिमुलेशन के लिए कोड जोड़ दिया। मुझे उम्मीद है कि आप इसे उपयोगी पाएँ!
9

धन्यवाद, यह बहुत उपयोगी है! यह सुनिश्चित करने के लिए कि मुझे सामान समझ में आया है, मैंने pastebin.com/mtRdsPkP को आपके कोड के आधार पर बनाया है - क्या आप हालांकि फ़्लिक कर सकते हैं?
andreister

cumsumsumcumsumमैंमैं

(contd।) यह वह जानकारी है जिसमें हम रुचि रखते हैं, क्योंकि हम यह देखना चाहते हैं कि क्या नेता देखता है। sumबस सभी 1 और -1 का योग होगा, जो आपको सभी 20,000 दर्शकों (यानी cumsumवेक्टर के अंतिम तत्व ) के लिए जिम्मेदार होने के बाद अंतिम परिणाम देगा ।
13

11

1/2टीटी=13/4टी=3टी

11

20,000

यदि आप कुछ संभावनाओं की गणना करना चाहते हैं, तो आपको जाली से चलने के लिए कुछ ऐसी चीजों को गिनना होगा जो विकर्ण को पार नहीं करते हैं। एक महान संयोजन विधि है जो यादृच्छिक चलता है (और ब्राउनियन गति पर) जो ऐसी रेखा को पार नहीं करता है, जिसे प्रतिबिंब सिद्धांत या प्रतिबिंब विधि कहा जाता है । यह कैटलन संख्या निर्धारित करने की एक विधि है । यहाँ दो अन्य अनुप्रयोग हैं:

10,200-9,800(20,0009,800)(10,200,9,800)बीबीबी(9,799,10,201)(10,200,9,800)बी(20,0009,800)-(20,00010,201)=(20,0009,800)-(20,0009,799)=(20,0009,800)40110,201बी(10,200,9,800),96%

(20,00010,000)220,000/10,000π1100π150π1/89।56


धन्यवाद! हालांकि मुझे आपका जवाब समझने से पहले मुझे नोटेशन समझने की ज़रूरत है! इसका क्या मतलब है "10,200 it9,800 से आगे समाप्त" आदि, आपको नंबर कहां से मिलते हैं? आप कैसे देखते हैं 20K मोड है?
andreister

10,200-9,8001 1,000-9,00010,001-9,999।20,00000पी000

0

"यह 88 गुना अधिक संभावित है कि दो में से एक फिल्म सभी 20,000 ग्राहकों से आगे बढ़ेगी, यह कहना है कि, लीड लगातार देखती है"

सादे अंग्रेजी में: फिल्मों में से एक को शुरुआती बढ़त मिलती है। इसका मतलब यह है कि पहले ग्राहक को ए या बी में जाना पड़ता है। वह फिल्म तब खो जाने की संभावना है।

88 गुना अधिक संभावना लगती है, ठीक है, संभावना नहीं है, जब तक आपको याद न हो कि सही सीसॉविंग बहुत ही असंभव है। मैन्सटी के उत्तर में चार्ट , यह रेखांकन दिखाते हुए, आकर्षक है यह नहीं है।

ASIDE: व्यक्तिगत रूप से, मुझे लगता है कि यह 88 से अधिक बार होगा - <buzzword-alert>वायरल मार्केटिंग के कारण </buzzword-alert>। प्रत्येक व्यक्ति अन्य लोगों से पूछेगा कि उन्होंने क्या देखा, और एक ही फिल्म की यात्रा करने की अधिक संभावना है। वे इसे अवचेतन रूप से भी करेंगे: लोग किसी चीज़ को देखने के लिए लंबी कतार में शामिल होने की अधिक संभावना रखते हैं। यानी जैसे ही पहले कुछ ग्राहकों के बीच यादृच्छिकता ने एक नेता बनाया है, मानव मनोविज्ञान इसे एक नेता के रूप में रखेगा :-)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.