कितना भुगतान करना है? एक व्यावहारिक समस्या


66

यह एक होम वर्क का सवाल नहीं है, बल्कि हमारी कंपनी के सामने आने वाली वास्तविक समस्या है।

बहुत हाल ही में (2 दिन पहले) हमने एक डीलर को 10000 उत्पाद लेबल के निर्माण का आदेश दिया। डीलर स्वतंत्र व्यक्ति है। उसे बाहर से निर्मित लेबल मिलते हैं और कंपनी डीलर को भुगतान करती है। प्रत्येक लेबल की लागत कंपनी के लिए $ 1 है।

कल, डीलर लेबल के साथ आए लेकिन प्रत्येक 100 लेबल के पैकेट में लेबल बंडल थे। इस तरह कुल 100 पैकेट थे और प्रत्येक पैकेट में 100 लेबल थे, इसलिए कुल 10000 लेबल थे। 10000 डॉलर के डीलर को भुगतान करने से पहले, हमने यह सुनिश्चित करने के लिए कुछ पैकेट गिनने का फैसला किया कि प्रत्येक पैकेट में ठीक 100 लेबल हों। जब हमने उन लेबलों की गिनती की तो हमें 100 लेबल के पैकेट कम मिले (हमें 97 लेबल मिले)। यह सुनिश्चित करने के लिए कि यह संयोग से नहीं है, लेकिन जानबूझकर हमने 5 और पैकेटों की गिनती की है और प्रत्येक पैकेट में निम्नलिखित लेबल की संख्या पाई गई है (पहले पैकेट सहित):

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97  

प्रत्येक पैकेट को गिनना संभव नहीं था, इसलिए हमने औसत आधार पर भुगतान करने का फैसला किया। इसलिए, छह पैकेट में लेबल की औसत संख्या 97.166 है, इसलिए कुल भुगतान $ 9716 था।

मैं सिर्फ यह जानना चाहता हूं कि इस प्रकार की समस्या से निपटने के लिए सांख्यिकीविद् को कैसा होना चाहिए
इसके अलावा मैं यह जानना चाहता हूं कि 95% आश्वासन पाने के लिए हमें कितना भुगतान करना चाहिए जो हमने पूरे लेबल की वास्तविक संख्या से अधिक का भुगतान नहीं किया है।

अतिरिक्त जानकारी:

P (किसी भी पैकेट में 100 से अधिक लेबल होते हैं) = 0
P (किसी भी पैकेट में 90 से कम लेबल होता है) = 0 {90 से कम लेबल पैकेट की गिनती करते समय आसानी से पता चल जाएगा क्योंकि पैकेट कम वजन का होगा}


EDIT: डीलर ने केवल इस तरह के कदाचार से इनकार किया। हमने पाया कि ये डीलर एक विशिष्ट कमीशन पर काम करते हैं, जो उन्हें निर्माता से मिलता है, जो कंपनी द्वारा भुगतान किया जा रहा है। जब हमने निर्माता से सीधे संपर्क किया, तो हमने पाया कि यह न तो निर्माता है और न ही डीलर की गलती है। निर्माता ने कहा, "लेबल छोटा हो जाता है क्योंकि शीट आकार में मानकीकृत नहीं होती हैं , और जो भी संख्या एकल शीट से कट जाती है, उन्हें एक पैकेट में एक साथ बंडल मिलता है"।

इसके अलावा, हम अतिरिक्त जानकारी में दिए गए हमारे पहले दावे को मान्य करते हैं, क्योंकि निर्माता ने स्वीकार किया कि शीट के आकार में मामूली वृद्धि से, अतिरिक्त लेबल में कटौती करना संभव नहीं है, साथ ही, शीट के आकार में मामूली कमी से इसे काटना संभव नहीं है। ठीक उसी आकार के 100 लेबल।


7
+1 (1) आप "अतिरिक्त जानकारी" अनुभाग में पहले दावे को कैसे सही ठहरा सकते हैं? (२) पैकेटों का वजन कितना सही है?
whuber

15
इंग्लैंड और आइजैक न्यूटन ने 300 साल पहले इसी समस्या का सामना किया था। (दांव, कुछ हद तक अधिक से अधिक थे क्योंकि "लेबल" सवाल में सिक्के ढाला गया था।) इसलिए में सिक्कों के नमूने रखने का बक्स का परीक्षण के स्टीफन Stigler का खाता पढ़ने का आनंद लें कर सकते हैं stat.wisc.edu/sites/default/files/TR442_0.pdf
whuber

7
@ नीरज यदि सभी वस्तुओं का वजन एक जैसा है, तो पूरी डिलीवरी का वजन क्यों नहीं?
साइकोरैक्स

9
$ 9000 का भुगतान करने की पेशकश करें और उन्हें कहने के लिए प्रतीक्षा करें "लेकिन हमने केवल आपको 600 नहीं 1000 कम दिए"
डीन मैकग्रेगर

5
महान सांख्यिकी प्रश्न के अलावा, +1, मैं मुद्रण व्यवसाय में वर्षों से सलाह का एक और सीधा हिस्सा साझा करना चाहता था: सभी उचित, पेशेवर प्रिंटर की इस तरह से ओवररन / अंडररून नीति है क्योंकि अधिकांश प्रिंटर सटीक गणना की पेशकश नहीं करते हैं कुछ भी जो "नंबरिंग" (व्यक्तिगत सीरियल नंबर) का उपयोग नहीं करता है। लेकिन उनके पास इस बात की एक उत्कृष्ट गणना होनी चाहिए कि उन्होंने आपको क्या दिया है, और यदि मामूली से अधिक छूट दी गई है (5%, कहते हैं)। ज्ञात अंडररून के लिए पूरी कीमत चार्ज करना मानक नीति नहीं है।
ब्रायन एचएच

जवाबों:


20

मुझे "ऑन रिफ्लेक्शन ..." की शुरुआत के पैराग्राफ पर प्रतिक्रिया में दिलचस्पी होगी, क्योंकि मॉडल का विशेष हिस्सा मुझे रात में बनाए रखता है।

बायेसियन मॉडल

संशोधित प्रश्न मुझे लगता है कि हम सिमुलेशन का उपयोग किए बिना, मॉडल को स्पष्ट रूप से विकसित कर सकते हैं। सिमुलेशन ने नमूने की अंतर्निहित यादृच्छिकता के कारण अतिरिक्त परिवर्तनशीलता पेश की। सोफोलॉजिस्ट का जवाब बहुत अच्छा है, हालांकि।

धारणाएँ : प्रति लिफ़ाफ़े की सबसे छोटी संख्या 90 है, और सबसे बड़ी 100 है।

इसलिए, लेबल की सबसे छोटी संभव संख्या 9000 + 7 + 8 + 6 + 10 + 5 + 7 + 9043 (ओपी के डेटा द्वारा दी गई है), 9000 हमारी निम्न सीमा के कारण है, और अतिरिक्त लेबल देखे गए डेटा से आते हैं।

YiiXiX=Y90X{0,1,2,...,10}npX0,1,2,3,...,n.n=10XpXiBinomial(10,p).

(प्रतिबिंब पर, स्वतंत्रता धारणा / द्विपद मॉडल संभवतः बनाने के लिए एक अजीब धारणा है, क्योंकि यह प्रिंटर के शीट्स की संरचना को प्रभावी ढंग से अनिमॉडल करने के लिए ठीक करता है, और डेटा केवल मोड का स्थान बदल सकता है, लेकिन मॉडल कभी स्वीकार नहीं करेगा एक मल्टीमॉडल वितरण। उदाहरण के लिए, एक वैकल्पिक मॉडल के तहत, यह संभव है कि प्रिंटर केवलआकार 97, 98, 96, 100 और 95 की शीट हैं: यह सभी बताई गई बाधाओं को संतुष्ट करता है और डेटा इस संभावना को बाहर नहीं करता है। प्रत्येक शीट आकार को अपनी श्रेणी के रूप में मानना ​​अधिक उपयुक्त हो सकता है और फिर डेटा के लिए एक डिरिचलेट-बहु-मॉडल मॉडल फिट किया जा सकता है। मैं यहां ऐसा नहीं करता क्योंकि डेटा इतना दुर्लभ है, इसलिए 11 श्रेणियों में से प्रत्येक पर पूर्ववर्ती संभावनाएं पहले से बहुत दृढ़ता से प्रभावित होंगी। दूसरी ओर, सरल मॉडल को फिट करके हम उसी प्रकार के निष्कर्षों को सीमित कर रहे हैं जो हम बना सकते हैं।)

iXpiXiBinomial(60,p).

pppBeta(1,1).यदि आपको नहीं लगता कि यह बीटा पहले से उचित है, तो पहले से वर्दी को दूसरे बीटा से बदल दिया जा सकता है, और गणित में कठिनाई भी नहीं बढ़ेगी!

ppBeta(1+43,1+17)p940ZZBB(44,18,940).

यहाँ छवि विवरण दर्ज करें

ZDD=9043+ZZD

मूल्य निर्धारण पर बहुत विचार करने का उपयुक्त तरीका क्या है?

[9596,9812]D

आर में बीटा द्विपद वितरण के लिए एक मात्रात्मक फ़ंक्शन के बारे में मुझे जानकारी नहीं है, इसलिए मैंने आर की जड़-खोज का उपयोग करके अपना स्वयं का लिखा।

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

DE(D)=E(9043+Z)=E(Z)+9043.E(Z)=nαα+β=667.0968E(D)=9710.097,

D

(बेशक, यह तथ्य कि विक्रेता ने इस सौदे को स्वीकार कर लिया है, हमें बताता है कि उसे गैर- वास्तविक नुकसान हुआ है ... मुझे इस बात का उपयोग करने का कोई तरीका नहीं सूझा है कि हमें नोट को छोड़कर, और अधिक सटीक रूप से निर्धारित करने में आपकी सहायता करें कि आप कितना धोखा खा गए। क्योंकि उसने प्रस्ताव स्वीकार कर लिया था, इसलिए आप सबसे बेहतर तोड़ रहे थे ।)

बूटस्ट्रैप से तुलना करें

हमारे पास काम करने के लिए केवल 6 अवलोकन हैं। बूटस्ट्रैप का औचित्य स्पर्शोन्मुख है, तो आइए विचार करें कि हमारे छोटे नमूने पर परिणाम क्या दिखते हैं। यह प्लॉट बूस्टर सिमुलेशन के घनत्व को दर्शाता है। यहाँ छवि विवरण दर्ज करें

"बम्पी" पैटर्न छोटे नमूने के आकार की एक कलाकृति है। किसी भी एक बिंदु को शामिल करने या बाहर करने का मतलब पर एक नाटकीय प्रभाव पड़ेगा, जिससे यह "गुच्छेदार" रूप बन जाएगा। बायेसियन दृष्टिकोण इन क्लंप को बाहर निकालता है और मेरी राय में, जो चल रहा है उसका अधिक विश्वसनीय चित्र है। ऊर्ध्वाधर रेखाएं 5% मात्रात्मक हैं।


यह एक महान जवाब है। आपने जोखिम के लिए दंड देकर नई अंतर्दृष्टि प्रदान की। धन्यवाद
नीरज

1
मुझे यह जानकर खुशी हुई कि आपका अपेक्षित नुकसान केवल $ 6 था। :-) एक महान सवाल के लिए फिर से धन्यवाद।
सिसोरैक्स

1
np0,1,2,3,....,n.n=10Xp

1
0,1,2,3,...101,102,103,...,1061060X10


20

संपादित करें: त्रासदी! मेरी शुरुआती धारणाएँ गलत थीं! (या संदेह में, कम से कम - क्या आपको भरोसा है कि विक्रेता आपको क्या बता रहा है? फिर भी, मोर्टन को टोपी टिप, साथ ही।) जो मुझे लगता है कि आंकड़ों का एक और अच्छा परिचय है, लेकिन आंशिक शीट दृष्टिकोण अब नीचे जोड़ा गया है ( चूँकि लोग पूरी चादर को पसंद करने लगे थे, और शायद कोई अब भी इसे उपयोगी समझेगा)।

सबसे पहले, महान समस्या। लेकिन मैं इसे थोड़ा और जटिल बनाना चाहूंगा।

उसके कारण, इससे पहले कि मैं इसे थोड़ा सरल बना दूं, और कहूं - अभी आप जिस विधि का उपयोग कर रहे हैं वह पूरी तरह से उचित है । यह सस्ता है यह आसान है यह समझ में आता है। इसलिए अगर आपको इसके साथ रहना है, तो आपको बुरा नहीं लगना चाहिए। बस सुनिश्चित करें कि आप अपने बंडलों को यादृच्छिक रूप से चुनते हैं। और, यदि आप बस मज़बूती से सब कुछ तौलना कर सकते हैं (हैट टिप टू व्हिबर और यूज़र 7), तो आपको ऐसा करना चाहिए।

कारण मैं इसे थोड़ा और अधिक जटिल बनाना चाहता हूं, हालांकि यह है कि आपके पास पहले से ही है - आपने अभी हमें पूरी जटिलता के बारे में नहीं बताया है, जो है - गिनती में समय लगता है, और समय भी पैसा है । लेकिन कितना ? शायद यह वास्तव में सब कुछ गिनने के लिए सस्ता है!

तो आप वास्तव में जो कर रहे हैं वह आपके द्वारा सेव किए जा रहे धन की मात्रा को गिनने में लगने वाले समय को संतुलित करता है। (यदि, ज़ाहिर है, आप केवल एक बार इस गेम को खेलते हैं। अगली बार जब आपके पास विक्रेता के साथ ऐसा होता है, तो उन्होंने पकड़ा हो सकता है, और एक नई चाल की कोशिश की। गेम थ्योरी में, यह सिंगल शॉट गेम्स के बीच अंतर है, और Iterated है। खेल। लेकिन अभी के लिए, चलो दिखावा करते हैं विक्रेता हमेशा एक ही काम करेगा।)

हालांकि इससे पहले कि मैं अनुमान लगाता हूं एक और बात। (और, इतना लिखने के लिए खेद है और अभी भी जवाब नहीं मिला है, लेकिन फिर, यह एक बहुत अच्छा जवाब है कि एक सांख्यिकीविद क्या करेंगे? वे समय की एक बड़ी राशि खर्च करेंगे सुनिश्चित करें कि वे समस्या के हर छोटे हिस्से को समझ गए हैं इससे पहले कि वे इसके बारे में कुछ भी कहने में सहज थे।) और यह बात निम्नलिखित के आधार पर एक अंतर्दृष्टि है:

(संपादित करें: यदि वे सही तरीके से काम कर रहे हैं ...) आपका विक्रेता लेबल हटाकर पैसे नहीं बचाता है - वे चादरें नहीं छापकर पैसे बचाते हैं। वे आपके लेबल किसी और को नहीं बेच सकते (मुझे लगता है)। और शायद, मुझे नहीं पता और मुझे नहीं पता कि अगर आप करते हैं, तो वे आपके सामान की आधी शीट और किसी और की आधी शीट नहीं छाप सकते। दूसरे शब्दों में, इससे पहले कि आप गिनना शुरू कर दें, आप मान सकते हैं कि कुल लेबल की संख्या या तो है 9000, 9100, ... 9900, or 10,000। मैं इसे अभी के लिए कैसे संपर्क करूँगा।

संपूर्ण शीट विधि

जब एक समस्या इस तरह से थोड़ी मुश्किल होती है (असतत, और बाध्य), तो बहुत सारे सांख्यिकीविद् अनुकरण करेंगे कि क्या हो सकता है। यहाँ मैंने जो अनुकरण किया है:

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

यह आपको देता है, यह मानते हुए कि वे पूरी शीट का उपयोग कर रहे हैं, और आपकी धारणाएं सही हैं, आपके लेबल का एक संभावित वितरण (प्रोग्रामिंग भाषा में आर)।

फिर मैंने यह किया:

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

यह एक "बूटस्ट्रैप" विधि का उपयोग करके पाता है, 4, 5, ... 20 नमूनों का उपयोग करके आत्मविश्वास अंतराल। दूसरे शब्दों में, यदि आप N नमूने का उपयोग करते हैं, तो औसतन, आपका आत्मविश्वास अंतराल कितना बड़ा होगा? मैं इसका उपयोग एक अंतराल खोजने के लिए करता हूं जो कि चादरों की संख्या पर निर्णय लेने के लिए काफी छोटा है, और यह मेरा जवाब है।

"छोटे से पर्याप्त," मेरा मतलब है कि मेरे 95% आत्मविश्वास अंतराल में केवल एक ही पूरी संख्या है - जैसे कि अगर मेरा आत्मविश्वास अंतराल [93.1, 94.7] से था, तो मैं 94 को सही संख्या में चादरों में से चुनूंगा, क्योंकि हम जानते हैं यह पूरी संख्या है।

हालांकि कठिनाई - आपका आत्मविश्वास सच्चाई पर निर्भर करता है । यदि आपके पास 90 शीट हैं, और हर ढेर में 90 लेबल हैं, तो आप वास्तव में तेजी से जुटते हैं। 100 शीट के साथ भी। इसलिए मैंने 95 चादरों को देखा, जहां सबसे बड़ी अनिश्चितता है, और पाया कि 95% निश्चितता के लिए, आपको औसतन लगभग 15 नमूने चाहिए। तो आइए समग्र रूप से कहें, आप 15 नमूने लेना चाहते हैं, क्योंकि आप कभी नहीं जानते कि वास्तव में क्या है।

आपको पता है कि आपको कितने नमूनों की आवश्यकता है, आप जानते हैं कि आपकी अपेक्षित बचत हैं:

100Nmissing15c

c50015

लेकिन आपको यह सब काम करने के लिए लड़के को भी चार्ज करना चाहिए!

(संपादित करें: जोड़ा गया!) आंशिक शीट दृष्टिकोण

ठीक है, तो चलो मान लेते हैं कि निर्माता क्या कह रहा है यह सच है, और यह जानबूझकर नहीं है - कुछ लेबल हर शीट में बस खो जाते हैं। आप अभी भी जानना चाहते हैं, कुल मिलाकर कितने लेबल हैं?

यह समस्या अलग है क्योंकि अब आपके पास एक अच्छा स्वच्छ निर्णय नहीं है जो आप कर सकते हैं - जो कि होल शीट धारणा का एक फायदा था। इससे पहले, केवल 11 संभावित उत्तर थे - अब, 1100 हैं, और वास्तव में कितने लेबल हैं, इस पर 95% विश्वास अंतराल प्राप्त करना संभवत: आप चाहते हैं कि बहुत अधिक नमूने लेने जा रहे हैं। तो, आइए देखें कि क्या हम इस बारे में अलग तरह से सोच सकते हैं।

क्योंकि यह वास्तव में आप एक निर्णय लेने के बारे में है, हम अभी भी कुछ मापदंडों को याद कर रहे हैं - एक सौदे में आप कितने पैसे खोने के लिए तैयार हैं, और एक स्टैक को गिनने में कितना पैसा खर्च होता है। लेकिन मुझे निर्धारित करना है कि आप उन नंबरों के साथ क्या कर सकते हैं।

फिर से अनुकरण करना (हालांकि उपयोगकर्ता777 के लिए यदि आप इसके बिना कर सकते हैं!), तो विभिन्न नंबरों के नमूनों का उपयोग करते समय अंतराल के आकार को देखना जानकारीपूर्ण है। इस तरह किया जा सकता है:

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

कौन सा मानता है (इस बार) कि प्रत्येक स्टैक में 90 और 100 के बीच समान रूप से लेबल की संख्या है, और आपको देता है:

नमूनों की संख्या से विश्वास अंतराल पर सीमाएं

बेशक, अगर चीजें वास्तव में ऐसी थीं जैसे कि वे सिम्युलेटेड हो गए हैं, तो वास्तविक मतलब प्रति स्टैक लगभग 95 नमूने होंगे, जो सच्चाई से कम प्रतीत होता है - बायेसियन दृष्टिकोण के लिए यह वास्तव में एक तर्क है। लेकिन, यह आपको एक उपयोगी अर्थ देता है कि आप अपने उत्तर के बारे में कितना अधिक निश्चित हो रहे हैं, जैसा कि आप नमूना देना जारी रखते हैं - और अब आप मूल्य निर्धारण के बारे में जो भी सौदा कर सकते हैं उसके साथ नमूने की लागत का स्पष्ट रूप से व्यापार कर सकते हैं।

जो मुझे अब तक पता है, हम सब के बारे में सुनने के लिए उत्सुक हैं।


6
+1 यह विश्लेषण सीधे और रचनात्मक रूप से प्रश्न को संबोधित करता है: एक (अच्छा) सांख्यिकीविद् समस्या के बारे में कैसे सोचेगा? शीट काउंट पर ध्यान केंद्रित करना एक मूल्यवान अंतर्दृष्टि है।
whuber

1
लागत-लाभ का दृष्टिकोण एक महान विचार है। पहले से ही मैं कहूँगा कि सामूहिक व्यक्ति * इस समस्या के लिए समर्पित दिमागी क्षमता के घंटे $ n = 6 नमूना नीरज से $ 284 बचत से अधिक है। :)
राबर्टएफ

1
अच्छा जवाब। जैसा कि आप वर्तमान में इसे कोडित करते हैं, जब प्रिंटर एक पूर्ण स्टैक उठाता है तो वह अतिरिक्त लेबल को जमीन पर गिरा देता है, जो शायद उचित है। लेकिन यदि आप 9000,9100...10000अंत में कुल लेबल रखना चाहते हैं तो आप अपने तर्क को बदल सकते हैं bucket <- sample(which(stacks!=100),1)और फिर हमेशा स्टैक को बढ़ा सकते हैं।
एडम सी

1
आह, बस खुद पर ध्यान दिया! पकड़ने के लिए धन्यवाद। निश्चित रूप से एक गलती।
अप्रैल को one_obs रिजर्वेशन

1
आप विश्वास अंतराल की गणना कैसे कर रहे हैं? बूटस्ट्रैप का उपयोग?
राबर्ट एफ

3

यह काफी सीमित नमूना है। (कोड स्निपेट R में हैं)

> sample <- c(97,98,96,100,95,97)

कुल जनसंख्या में अपेक्षित संख्या पर प्रारंभिक अनुमान और मूल्य के लिए 95% विश्वास मूल्य के साथ हम माध्य और 5% मात्रा के साथ शुरू कर सकते हैं

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525 

आगे जाने के लिए, हमें एक सैद्धांतिक मॉडल बनाना होगा और अतिरिक्त धारणाएं बनानी होंगी। प्ले पर अनिश्चितता के कई स्रोत हैं - (1) पैकेट भरने के मॉडल के कार्यात्मक रूप के लिए अनिश्चितता, (2) मॉडल के लिए मापदंडों का आकलन करने में अनिश्चितता, और (3) नमूनाकरण त्रुटि।

pn=100p

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

n100np10

> (lambda <- n*p)
[1] 2.833333

λ=lambda

> var(sample)
[1] 2.966667

λr=100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

ppαβαβα=1β=0

α=1+583β=0+17

αβαβ

अब, प्रत्येक पैकेट को स्वतंत्र रूप से भरा हुआ माना जाता है, हम पैकेटों के पूरे बॉक्स को 100 अलग-अलग घटनाओं के बजाय 100 स्वतंत्र घटनाओं के रूप में देख सकते हैं। माध्य इसलिए मानक विचलन 69.57153 के साथ 9717.138 है। वितरण फ़ंक्शन का उपयोग करके, आप 95% विश्वास संख्या की गणना लगभग 9593 कर सकते हैं। मैंने ऐसा करने में VGAMअपने *betabinom.abकार्यों के लिए आर पैकेज का उपयोग किया है।

इसलिए, अनुमानित पैरामीटर में अनिश्चितता 95% विश्वास की कीमत को लगभग 100 से कम कर देती है, और हम अपने प्रारंभिक सरल सन्निकटन के काफी करीब पहुंच जाते हैं।

जो भी दृष्टिकोण या मॉडल है, मॉडल को मान्य करने के लिए अतिरिक्त डेटा का उपयोग किया जा सकता है, यह देखने के लिए कि सैद्धांतिक मॉडल के तहत अतिरिक्त डेटा उचित हैं या क्या समायोजन या एक नया मॉडल वारंटेड है। मॉडलिंग की प्रक्रिया वैज्ञानिक विधि के समान है।


2

एक चुटकी में, मेरा पहला झुकाव 90 और 100 लेबल के निचले और ऊपरी सीमा के बीच गिरने वाले एक सामान्य वितरण पर अपने नमूना मतलब के लिए 95% विश्वास अंतराल की गणना करना होगा ।

आर पैकेज truncnormआपको एक निर्दिष्ट नमूना माध्य, नमूना मानक विचलन, कम बाउंड और ऊपरी बाउंड दिए गए एक काटे गए सामान्य वितरण के लिए आत्मविश्वास अंतराल खोजने की अनुमति देता है।

चूंकि आप अपेक्षाकृत छोटी आबादी (N = 100) से n = 5 का नमूना ले रहे हैं, आप अपने नमूना मानक विचलन को एक परिमित जनसंख्या कारक = [(Nn) / (N-1)] से गुणा करना चाह सकते हैं। 5 = 0.98।


5
मुझे आश्चर्य है कि क्या एक काटे गए सामान्य को संभालने की अतिरिक्त जटिलताएं सार्थक हैं - या यहां तक ​​कि मान्य - यह देखते हुए कि गिनती असतत है और संभव मूल्यों की एक छोटी संख्या को ही ले सकती है।
whuber

@ वाउचर - सच है, लेकिन नमूना माध्य के वितरण पर विश्वास अंतराल है, जो एक निरंतर मात्रा है। 95% विश्वास अंतराल का उपयोग करने के बजाय, शायद बेहतर विकल्प असतत मात्रा के बीच वितरण के तहत क्षेत्र को खोजने के लिए होगा, 93 और 99 का कहना है।
रॉबर्टएफ

आप नमूना मतलब के साथ काम करने के लिए एक छोटा सामान्य की जरूरत नहीं है, यद्यपि। यह एक अनावश्यक जटिलता की तरह दिखता है।
whuber

1
सीएलटी यह दावा नहीं करता है कि कुछ भी सामान्य रूप से काटे गए वितरण का अनुसरण करेगा। बूटस्ट्रैपिंग समस्याग्रस्त होने की संभावना है क्योंकि यह इसकी वैधता के लिए असममित परिणामों पर निर्भर करता है।
whuber

1
क्योंकि माध्य का मानक विचलन तेजी से सीमा से बहुत छोटा हो जाता है, ट्रंकेशन व्यावहारिक रूप से अप्रासंगिक है। हम एक व्यावहारिक समाधान के बारे में बात कर रहे हैं जो अनावश्यक और संभवतः विचलित करने वाले विवरणों से अधिक नहीं है।
whuber

2

एक त्वरित और सरल दृष्टिकोण आकार के सभी संभव अवशेषों पर विचार करना है 6. केवल 15,625 क्रमपरिवर्तन हैं। इन्हें देखते हुए और प्रत्येक मामले के लिए औसत लेते हैं, और फिर औसत को छांटते हैं और 5% मात्रा निकालते हैं, हमें 96 का मान मिलता है।

तो अनुमानित राशि जिसे आप भुगतान करने के लिए तैयार होना चाहिए, वह लगभग 9600 है। यह अधिक परिष्कृत दृष्टिकोणों के एक जोड़े के साथ अच्छा समझौता है।

यहां सुधार 6 आकार के नमूनों की एक बड़ी संख्या का अनुकरण करने के लिए होगा और नमूना साधनों के 5 वें प्रतिशत को खोजने के लिए उसी प्रक्रिया का उपयोग करेगा। एक लाख से अधिक resamples का उपयोग करते हुए, मुझे 5 वीं प्रतिशतता 96.1667 मिली, इसलिए निकटतम डॉलर में भुगतान 9617 डॉलर होगा, जो कि 9677 के 9615 के परिणाम से केवल 2 डॉलर का अंतर है।


1
क्या आप बता सकते हैं कि यह उपयुक्त उत्तर क्यों है कि कितना भुगतान किया जाना चाहिए? उदाहरण के लिए, नमूने के माध्यम का उपयोग क्यों नहीं किया जाता है?
व्हीबर

यदि आप भुगतान करना चाहते हैं, तो आप नमूने का उपयोग करेंगे, जो आपके द्वारा कितने लेबल के साथ गठबंधन किया गया है। लेकिन प्रश्नकर्ता ने 95% आश्वासन के लिए कहा कि वह इससे अधिक लेबल के लिए भुगतान नहीं करता है। तो हमें आकार 6 के नमूनों के लिए नमूना माध्य के वितरण का विचार मिलता है और 5 वें प्रतिशत का उपयोग करते हैं।
भिगोएँ

1
उस स्पष्टीकरण को अपने उत्तर में शामिल करना अच्छा होगा। आप यह समझाने पर भी विचार कर सकते हैं कि आपको क्यों लगता है कि यह पुनरुत्पादन प्रक्रिया वास्तव में एक मान्य या विश्वसनीय विश्वास सीमा का उत्पादन करती है। यद्यपि यह कई बड़े डेटासेट्स के साथ ऐसा कर सकता है, लेकिन किसी को यह विचार करना चाहिए कि क्या यह उसी तरह से इस्तेमाल किया जा सकता है जैसे छोटे डेटासेट के साथ।
व्हिबर

0

ऐसा लगता है कि आपने पहले ही निष्कर्ष निकाल लिया है कि त्रुटि जानबूझकर की गई थी, लेकिन एक सांख्यिकीविद ऐसे निष्कर्ष पर नहीं जाएगा (भले ही सबूत इस बात का समर्थन करते हों)।

कोई इसे एक परिकल्पना परीक्षण के रूप में स्थापित कर सकता है:

H0: डीलर ईमानदार है लेकिन काफी मैला है

H1: डीलर धोखेबाज है, और कमी जानबूझकर है।

लेट्स एच 0 मान लेते हैं, फिर प्रत्येक विचलन मतलब = 0 के साथ एक यादृच्छिक घटना है और सकारात्मक या नकारात्मक होने की समान संभावना है। चलो आगे मानते हैं कि विचलन सामान्य रूप से वितरित किए जाते हैं। 6 डेटा बिंदुओं में विचलन के आधार पर सामान्य वितरण के लिए मानक विचलन sd = 1.722 है

यदि सांख्यिकीविद् ने अपने सिद्धांत को अच्छी तरह से याद नहीं किया, लेकिन आर पास में था (एक संभावना नहीं परिदृश्य) तो वह / वह कोई सकारात्मक विचलन प्राप्त करने की संभावना की जांच करने के लिए निम्नलिखित कोड लिख सकता था (एच 100 के अधिक पैकेज नहीं) यदि एच 0 यू। सच।

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

सिमुलेशन का परिणाम है:

The probability the H0 is correct is: 5.3471 %

डीलर के ईमानदार होने की संभावना केवल 5.35% है, और इसलिए यह काफी संभावना है कि आप धोखाधड़ी का शिकार हुए हैं।

चूंकि आप कहते हैं कि यह एक होमवर्क सवाल नहीं है, बल्कि आपकी कंपनी के लिए एक वास्तविक स्थिति है, तो यह सही अनुमानित संख्या लेबल की गणना में एक अभ्यास होना बंद कर देता है, लेकिन इसके बजाय यह एक बेईमान आपूर्तिकर्ता को संभालने के लिए मुश्किल मामला है।

आप यहाँ से क्या करते हैं, वास्तव में अकेले आँकड़ों द्वारा उत्तर नहीं दिया जा सकता है। यह बहुत ही आपके लीवर और डीलर के साथ संबंधों पर निर्भर करता है।

शुभकामनाएँ !

मोर्टन बुन्स गुस्तावसेन


1
17/61.72/60.7017/6/0.704.01000.00003

विफलता हमेशा एक विकल्प है, इसलिए मैंने गलती की होगी ... मेरी गणना हालांकि आर कोड में आपूर्ति की गई है, इसलिए मुझे आश्चर्य करने का कोई कारण नहीं होना चाहिए कि मुझे अपना परिणाम कैसे मिला। हां मेरे मामले में H0 परिकल्पना यह है कि डीलर ईमानदार है, और फिर विचलन 100 पर एक मतलब के साथ यादृच्छिक उतार-चढ़ाव होगा। मेरी गणना में Stdev सिर्फ श्रृंखला की Stdev है (-3, -2, -4) 0, -5, -3) जो प्रत्येक पैकेज में 100 से विचलन है।
मोर्टन ट्यून्स गुस्तावेन

मैं वास्तव में सिर्फ इस सामान्य विचलन का उपयोग करता हूं, और 6 नमूने खींचता हूं, और जांचता हूं कि उनमें से कोई भी 0. से बड़ा नहीं है। मैं सिमुलेशन 1000,000 बार चलाता हूं, और मानता हूं कि कितनी बार मैं अशुभ हूं ऊपर से कोई नमूना नहीं मिला। 0. मामलों का 5.35% निकला। इस कोण को चुनने का कारण यह था कि यह प्रश्न स्पष्ट रूप से कहा गया था कि यह वास्तविक स्थिति है (अर्थात एक शैक्षणिक अभ्यास नहीं), और यह कि वह यह जानना चाहेगा कि इस मामले में एक सांख्यिकीविद् क्या करेगा।
मोर्टन ट्यून्स गुस्तावेन

3
प्रश्न में यह भी कहा गया है कि एक पैकेट में 100 से अधिक लेबल गिनने का कोई मौका नहीं था। भले ही, आपने जो किया है वह संख्याओं का एक व्यापक अनुकरण है जो डेटा की तरह दिखता है - लेकिन क्या, अगर कुछ भी, तो यह सवाल के साथ करना है ("हमें कितना भुगतान करना चाहिए") अस्पष्ट है।
whuber

-2

कैसे एक बहुराष्ट्रीय मॉडल की तरह कुछ के बारे में।

प्रत्येक परिणाम की संभावना 1/6, 1/6, .... (6 टिप्पणियों के आधार पर) और इसलिए E (x) = 97.16 और Var (x) = योग (95 ^ 2 * 1/6 +) के रूप में अनुमानित है। ...) - E (x) ^ 2 = 2.47 इसलिए 95% CI होगा [94, 100]


3
यह बिल्कुल भी बहुराष्ट्रीय नहीं प्रतीत होता है: आपका CI विचरण के लिए अचूक सूत्र का उपयोग करके एक सामान्य-सिद्धांत अंतराल प्रतीत होता है। इसके अलावा, इस सवाल का जवाब कैसे देना है कि कितना भुगतान करना है?
whuber

बहुसांस्कृतिक परिणाम पर लागू होता है, अर्थात 95, 96, 97 ... 100 और हां CI सामान्य-सिद्धांत है क्योंकि xe (x) / sd ~ N. कितना भुगतान करना है, यह अपेक्षा के अनुरूप होगा, इसलिए यह 97.16 है * 100
ज़िंग

4
क्या आपने देखा कि आप बहुराष्ट्रीय धारणा का उपयोग नहीं करते हैं? आपका सीआई बहुत छोटा है, जैसा कि 1908 में WS Gosset ने देखा था। लेकिन यदि आप केवल नमूने के माध्यम से अपनी अनुशंसा को आधार बनाने जा रहे हैं, तो CI की गणना क्यों करें?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.