संपादित करें: त्रासदी! मेरी शुरुआती धारणाएँ गलत थीं! (या संदेह में, कम से कम - क्या आपको भरोसा है कि विक्रेता आपको क्या बता रहा है? फिर भी, मोर्टन को टोपी टिप, साथ ही।) जो मुझे लगता है कि आंकड़ों का एक और अच्छा परिचय है, लेकिन आंशिक शीट दृष्टिकोण अब नीचे जोड़ा गया है ( चूँकि लोग पूरी चादर को पसंद करने लगे थे, और शायद कोई अब भी इसे उपयोगी समझेगा)।
सबसे पहले, महान समस्या। लेकिन मैं इसे थोड़ा और जटिल बनाना चाहूंगा।
उसके कारण, इससे पहले कि मैं इसे थोड़ा सरल बना दूं, और कहूं - अभी आप जिस विधि का उपयोग कर रहे हैं वह पूरी तरह से उचित है । यह सस्ता है यह आसान है यह समझ में आता है। इसलिए अगर आपको इसके साथ रहना है, तो आपको बुरा नहीं लगना चाहिए। बस सुनिश्चित करें कि आप अपने बंडलों को यादृच्छिक रूप से चुनते हैं। और, यदि आप बस मज़बूती से सब कुछ तौलना कर सकते हैं (हैट टिप टू व्हिबर और यूज़र 7), तो आपको ऐसा करना चाहिए।
कारण मैं इसे थोड़ा और अधिक जटिल बनाना चाहता हूं, हालांकि यह है कि आपके पास पहले से ही है - आपने अभी हमें पूरी जटिलता के बारे में नहीं बताया है, जो है - गिनती में समय लगता है, और समय भी पैसा है । लेकिन कितना ? शायद यह वास्तव में सब कुछ गिनने के लिए सस्ता है!
तो आप वास्तव में जो कर रहे हैं वह आपके द्वारा सेव किए जा रहे धन की मात्रा को गिनने में लगने वाले समय को संतुलित करता है। (यदि, ज़ाहिर है, आप केवल एक बार इस गेम को खेलते हैं। अगली बार जब आपके पास विक्रेता के साथ ऐसा होता है, तो उन्होंने पकड़ा हो सकता है, और एक नई चाल की कोशिश की। गेम थ्योरी में, यह सिंगल शॉट गेम्स के बीच अंतर है, और Iterated है। खेल। लेकिन अभी के लिए, चलो दिखावा करते हैं विक्रेता हमेशा एक ही काम करेगा।)
हालांकि इससे पहले कि मैं अनुमान लगाता हूं एक और बात। (और, इतना लिखने के लिए खेद है और अभी भी जवाब नहीं मिला है, लेकिन फिर, यह एक बहुत अच्छा जवाब है कि एक सांख्यिकीविद क्या करेंगे? वे समय की एक बड़ी राशि खर्च करेंगे सुनिश्चित करें कि वे समस्या के हर छोटे हिस्से को समझ गए हैं इससे पहले कि वे इसके बारे में कुछ भी कहने में सहज थे।) और यह बात निम्नलिखित के आधार पर एक अंतर्दृष्टि है:
(संपादित करें: यदि वे सही तरीके से काम कर रहे हैं ...) आपका विक्रेता लेबल हटाकर पैसे नहीं बचाता है - वे चादरें नहीं छापकर पैसे बचाते हैं। वे आपके लेबल किसी और को नहीं बेच सकते (मुझे लगता है)। और शायद, मुझे नहीं पता और मुझे नहीं पता कि अगर आप करते हैं, तो वे आपके सामान की आधी शीट और किसी और की आधी शीट नहीं छाप सकते। दूसरे शब्दों में, इससे पहले कि आप गिनना शुरू कर दें, आप मान सकते हैं कि कुल लेबल की संख्या या तो है 9000, 9100, ... 9900, or 10,000
। मैं इसे अभी के लिए कैसे संपर्क करूँगा।
संपूर्ण शीट विधि
जब एक समस्या इस तरह से थोड़ी मुश्किल होती है (असतत, और बाध्य), तो बहुत सारे सांख्यिकीविद् अनुकरण करेंगे कि क्या हो सकता है। यहाँ मैंने जो अनुकरण किया है:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
यह आपको देता है, यह मानते हुए कि वे पूरी शीट का उपयोग कर रहे हैं, और आपकी धारणाएं सही हैं, आपके लेबल का एक संभावित वितरण (प्रोग्रामिंग भाषा में आर)।
फिर मैंने यह किया:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
यह एक "बूटस्ट्रैप" विधि का उपयोग करके पाता है, 4, 5, ... 20 नमूनों का उपयोग करके आत्मविश्वास अंतराल। दूसरे शब्दों में, यदि आप N नमूने का उपयोग करते हैं, तो औसतन, आपका आत्मविश्वास अंतराल कितना बड़ा होगा? मैं इसका उपयोग एक अंतराल खोजने के लिए करता हूं जो कि चादरों की संख्या पर निर्णय लेने के लिए काफी छोटा है, और यह मेरा जवाब है।
"छोटे से पर्याप्त," मेरा मतलब है कि मेरे 95% आत्मविश्वास अंतराल में केवल एक ही पूरी संख्या है - जैसे कि अगर मेरा आत्मविश्वास अंतराल [93.1, 94.7] से था, तो मैं 94 को सही संख्या में चादरों में से चुनूंगा, क्योंकि हम जानते हैं यह पूरी संख्या है।
हालांकि कठिनाई - आपका आत्मविश्वास सच्चाई पर निर्भर करता है । यदि आपके पास 90 शीट हैं, और हर ढेर में 90 लेबल हैं, तो आप वास्तव में तेजी से जुटते हैं। 100 शीट के साथ भी। इसलिए मैंने 95 चादरों को देखा, जहां सबसे बड़ी अनिश्चितता है, और पाया कि 95% निश्चितता के लिए, आपको औसतन लगभग 15 नमूने चाहिए। तो आइए समग्र रूप से कहें, आप 15 नमूने लेना चाहते हैं, क्योंकि आप कभी नहीं जानते कि वास्तव में क्या है।
आपको पता है कि आपको कितने नमूनों की आवश्यकता है, आप जानते हैं कि आपकी अपेक्षित बचत हैं:
100Nmissing−15c
c500−15∗
लेकिन आपको यह सब काम करने के लिए लड़के को भी चार्ज करना चाहिए!
(संपादित करें: जोड़ा गया!) आंशिक शीट दृष्टिकोण
ठीक है, तो चलो मान लेते हैं कि निर्माता क्या कह रहा है यह सच है, और यह जानबूझकर नहीं है - कुछ लेबल हर शीट में बस खो जाते हैं। आप अभी भी जानना चाहते हैं, कुल मिलाकर कितने लेबल हैं?
यह समस्या अलग है क्योंकि अब आपके पास एक अच्छा स्वच्छ निर्णय नहीं है जो आप कर सकते हैं - जो कि होल शीट धारणा का एक फायदा था। इससे पहले, केवल 11 संभावित उत्तर थे - अब, 1100 हैं, और वास्तव में कितने लेबल हैं, इस पर 95% विश्वास अंतराल प्राप्त करना संभवत: आप चाहते हैं कि बहुत अधिक नमूने लेने जा रहे हैं। तो, आइए देखें कि क्या हम इस बारे में अलग तरह से सोच सकते हैं।
क्योंकि यह वास्तव में आप एक निर्णय लेने के बारे में है, हम अभी भी कुछ मापदंडों को याद कर रहे हैं - एक सौदे में आप कितने पैसे खोने के लिए तैयार हैं, और एक स्टैक को गिनने में कितना पैसा खर्च होता है। लेकिन मुझे निर्धारित करना है कि आप उन नंबरों के साथ क्या कर सकते हैं।
फिर से अनुकरण करना (हालांकि उपयोगकर्ता777 के लिए यदि आप इसके बिना कर सकते हैं!), तो विभिन्न नंबरों के नमूनों का उपयोग करते समय अंतराल के आकार को देखना जानकारीपूर्ण है। इस तरह किया जा सकता है:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
कौन सा मानता है (इस बार) कि प्रत्येक स्टैक में 90 और 100 के बीच समान रूप से लेबल की संख्या है, और आपको देता है:
बेशक, अगर चीजें वास्तव में ऐसी थीं जैसे कि वे सिम्युलेटेड हो गए हैं, तो वास्तविक मतलब प्रति स्टैक लगभग 95 नमूने होंगे, जो सच्चाई से कम प्रतीत होता है - बायेसियन दृष्टिकोण के लिए यह वास्तव में एक तर्क है। लेकिन, यह आपको एक उपयोगी अर्थ देता है कि आप अपने उत्तर के बारे में कितना अधिक निश्चित हो रहे हैं, जैसा कि आप नमूना देना जारी रखते हैं - और अब आप मूल्य निर्धारण के बारे में जो भी सौदा कर सकते हैं उसके साथ नमूने की लागत का स्पष्ट रूप से व्यापार कर सकते हैं।
जो मुझे अब तक पता है, हम सब के बारे में सुनने के लिए उत्सुक हैं।