मैं किसी एक जनसंख्या से यादृच्छिक सदस्य की तुलना में "बेहतर" होने की यादृच्छिक सदस्य की संभावना का अनुमान कैसे लगा सकता हूं?


15

मान लीजिए कि मेरे पास दो अलग-अलग आबादी से नमूने हैं। यदि मैं मापता हूं कि प्रत्येक सदस्य को एक कार्य करने में कितना समय लगता है, तो मैं आसानी से प्रत्येक जनसंख्या के माध्य और विचरण का अनुमान लगा सकता हूं।

यदि मैं अब प्रत्येक व्यक्ति से एक व्यक्ति के साथ एक यादृच्छिक जोड़ी की परिकल्पना करता हूं, तो क्या मैं इस संभावना का अनुमान लगा सकता हूं कि पहला दूसरे की तुलना में तेज है?

मेरे मन में एक ठोस उदाहरण है: माप मेरे लिए ए से बी तक साइकिल के लिए समय है और आबादी विभिन्न मार्गों का प्रतिनिधित्व करती है जिन्हें मैं ले सकता था; मैं यह पता लगाने की कोशिश कर रहा हूं कि संभावना क्या है कि मेरे अगले चक्र के लिए ए पिकिंग रूट बी को चुनने की तुलना में तेज हो जाएगा। जब मैं वास्तव में साइकिल चलाता हूं, तो मुझे अपने नमूना सेट के लिए एक और डेटा बिंदु मिला है :)।

मुझे पता है कि यह इस तरह से काम करने की कोशिश करने का एक बहुत ही सरल तरीका है, न कि कम से कम क्योंकि किसी भी दिन हवा मेरे समय को किसी भी चीज़ से प्रभावित करने की अधिक संभावना है, इसलिए कृपया मुझे बताएं कि अगर आपको लगता है कि मैं पूछ रहा हूं गलत सवाल ...


यह सरल द्विपद परीक्षण के माध्यम से किया जा सकता है और @ माकारो का एक अच्छा जवाब है। हालांकि, एक मुद्दा खुद नमूनों के साथ है: क्या कोई ऐसा तरीका है जो रूट ए या रूट बी लेने के आपके निर्णय को प्रभावित कर सकता है? विशेष रूप से, क्या आप मार्ग ए लेना पसंद करते हैं जब सड़कें सूख जाती हैं, हवा आपकी पीठ पर है, और रात के खाने की प्रतीक्षा कर रही है? :) बस किसी भी चीज़ से सावधान रहें जो किसी भी सेट में आउटलेयर को प्रभावित कर सकती है या जो किसी तरह से नमूनों को पूर्वाग्रहित कर सकती है। उदाहरण के लिए, अपनी नमूना योजना को समय से पहले स्थापित करने का प्रयास करें, किसी भी आवश्यकता के लिए अलग-अलग (जैसे सुरक्षा) पर विचार करने के साथ।
इटरेटर

एक अन्य विचार: मान लीजिए कि आपके पास बहुत समान साधनों के साथ दो मार्ग हैं और न ही संभावना के संदर्भ में दूसरे पर हावी है कि यह तेज होगा। जैसे एक हमेशा 10 या 20 मिनट का होता है, जबकि दूसरा हमेशा 15 मिनट का होता है। अधिक अनिश्चितता (जैसे मानक विचलन) को दंडित करना, या किसी ऐसे पक्ष के लिए बेहतर हो सकता है जो समय की कुछ सीमा से कम लेने की अधिक संभावना है। जैसा कि आपका प्रश्न ठीक है; मैं केवल भविष्य के शोधन का सुझाव दे रहा हूं।
०५:३१

सांख्यिकीय प्रश्न ठीक है, लेकिन यदि आप इस संभावना पर काम करना चाहते हैं कि कौन सा मार्ग तेज़ है, तो मुझे मार्गों की लंबाई मापने का सुझाव देना चाहिए। यदि इलाका पहाड़ी नहीं है तो छोटा रास्ता हमेशा तेज रहेगा।
mpiktas

यदि हवा एक महत्वपूर्ण कारक है, और यदि हवा की गति दो मार्गों से संबंधित है, तो ऐसा लगेगा कि किसी व्यक्ति को प्रश्न का सही उत्तर देने के लिए ए और बी के बीच निर्भरता के बारे में जानकारी की आवश्यकता होगी। आपको उसके लिए द्विभाजित डेटा की आवश्यकता होगी, और एक ही समय में दो रास्तों की सवारी करना कठिन है। आप डेटा एकत्र करने में मदद करने के लिए किसी और को सूचीबद्ध कर सकते हैं, लेकिन फिर सवारों के बीच परिवर्तनशीलता को ध्यान में रखना होगा। मामले में ए और बी स्वतंत्र हैं, नीचे दिए गए उत्तर महान हैं।

एक और तरीका रखो: अगर मैं यह तय करने की कोशिश कर रहा हूं कि कौन सा रास्ता लेना है, किसी को सुरंग के माध्यम से, किसी को खेत के माध्यम से, और पागलों की तरह हवा बहने पर, मैं बहुत अच्छी तरह से मैदान का चयन कर सकता हूं, भले ही यह औसत रूप से खराब हो।

जवाबों:


12

समाधान

दो साधन हो और μ y और उनके मानक विचलन हो σ एक्स और σ y , क्रमशः। दो सवारी (के बीच समय में अंतर वाई - एक्स ) इसलिए मतलब है μ y - μ एक्स और मानक विचलन μxμyσxσyYXμyμx । मानकीकृत अंतर ("z स्कोर") हैσx2+σy2

z=μyμxσx2+σy2.

जब तक आपकी सवारी के समय में अजीब वितरण न हो, तब तक मौका है कि की सवारी की तुलना में Y की सवारी X अधिक सामान्य संचयी वितरण है, Φ , z पर मूल्यांकन किया गया ।YXΦz

गणना

आप इस संभावना को अपनी एक सवारी पर काम कर सकते हैं क्योंकि आपके पास पहले से ही आदि का अनुमान है :-)। इस प्रयोजन के लिए यह आसान के कुछ महत्वपूर्ण मूल्यों को याद रखने की है Φ : Φ ( 0 ) = .5 = 1 / 2 , Φ ( - 1 ) 0.16 1 / 6 , Φ ( - 2 ) 0.022 1 / 40 , और Φ ( - 3 ) 0.0013μxΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 । (सन्निकटन खराब हो सकता है z | 2 से बहुत बड़ा है, लेकिन Φ ( - 3 ) को जाननेसे प्रक्षेप के साथ मदद मिलती है।) Φ ( z ) = 1 - Φ ( - z ) के साथ संयोजन मेंऔर प्रक्षेप की एक बिट। जल्दी से एक महत्वपूर्ण आंकड़े की संभावना का अनुमान लगा सकते हैं, जो समस्या की प्रकृति और डेटा को देखते हुए सटीक से अधिक है।Φ(3)0.00131/750|z|2Φ(3)Φ(z)=1Φ(z)

उदाहरण

मान लीजिए कि रूट को 6 मिनट के मानक विचलन के साथ 30 मिनट लगते हैं और मार्ग Y को 8 मिनट के मानक विचलन के साथ 36 मिनट लगते हैं। पर्याप्त डेटा स्थितियों की एक विस्तृत श्रृंखला को कवर करने के साथ, आपके डेटा का हिस्टोग्राम अंततः इनको अनुमानित कर सकता है:XY

दो हिस्टोग्राम

(ये गामा (२५, ३०/२५) और गामा (२०, ३६/२०) चर के लिए प्रायिकता घनत्व के कार्य हैं। गौर करें कि वे निश्चित रूप से दाईं ओर तिरछे हैं, क्योंकि कोई सवारी के समय की उम्मीद करेगा।

फिर

μx=30,μy=36,σx=6,σy=8.

जहां से

z=363062+82=0.6.

हमारे पास है

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

इसलिए हम अनुमान लगाते हैं कि उत्तर 0.5 और 0.84: 0.5 + 0.6 * (0.84 - 0.5) = लगभग 0.70 के बीच 0.6 है। (सामान्य वितरण के लिए सही लेकिन अत्यधिक सटीक मान 0.73 है।)

लगभग 70% संभावना है कि मार्ग मार्ग X की तुलना में अधिक समय लेगा । इस गणना को अपने सिर में करने से आपका मन अगली पहाड़ी से हट जाएगा। :-)YX

(दिखाए गए हिस्टोग्राम के लिए सही संभावना 72% है, भले ही नॉर्मल न हो: यह ट्रिप टाइम में अंतर के लिए नॉर्मल अंदाजे की गुंजाइश और उपयोगिता को दिखाता है।)


यदि आपके पास प्रत्येक वितरण से आईआईडी की प्राप्ति है, तो का आकलन करने के लिए एक मोंटे कार्लो पुन: नमूना दृष्टिकोण (मेरे उत्तर) के बजाय सामान्य सन्निकटन का उपयोग करने का क्या फायदा है ? P(X>Y)
मैक्रो

@ मैक्रो: यदि डेटा को ब्याज की क्यू के लिए सारांश आँकड़ों तक कम किया जा सकता है, तो कोई भी डेटा को कम कर सकता है ... बस एक विचार।
०२:२५

क्षमा करें, मेरा मस्तिष्क गर्मी से तप रहा था और मैं स्पष्ट उत्तर देने से चूक गया। आप अलग-अलग सवालों के जवाब दे रहे हैं। आपके द्वारा दिए गए बूटस्ट्रैप विधि ने अनुमान लगाया है , जबकि @whuber माध्य समय में अंतर पर विचार कर रहा है, जो समान नहीं है। ऐसे मामले का निर्माण करना बहुत कठिन नहीं है जहाँ विकल्प Y 60% समय के विकल्प X से छोटा हो , लेकिन Y का मतलब X के लिए माध्य से अधिक है । P(X>Y)YXYX
इटरेटर

FWIW: @whuber विभिन्न मानक विचलन वाले दो नमूनों के बीच के अंतर के लिए छात्र के टी-टेस्ट का वर्णन कर रहा है।
इटरेटर

1
धन्यवाद, @whuber, यह उस सवाल का जवाब है जिसे मैं पूछने की कोशिश कर रहा हूं :)।
एंड्रयू आइलेट

6

मेरा सहज दृष्टिकोण सबसे सांख्यिकीय रूप से परिष्कृत नहीं हो सकता है, लेकिन आपको यह अधिक मजेदार लग सकता है :)

मुझे ग्राफ पेपर की एक सभ्य आकार की शीट मिलेगी, और कॉलम को समय ब्लॉकों में विभाजित करना होगा। आपकी सवारी कितनी लंबी है, इसके आधार पर - क्या हम 5 मिनट या एक घंटे के औसत समय के बारे में बात कर रहे हैं - आप विभिन्न आकार के ब्लॉक का उपयोग कर सकते हैं। मान लें कि प्रत्येक स्तंभ दो मिनट का एक ब्लॉक है। मार्ग ए के लिए एक रंग चुनें और मार्ग बी के लिए एक अलग रंग, और प्रत्येक सवारी के बाद, उपयुक्त कॉलम में एक डॉट बनाएं। यदि उस रंग का एक बिंदु पहले से ही है, तो एक पंक्ति ऊपर ले जाएं। दूसरे शब्दों में, यह पूर्ण संख्या में हिस्टोग्राम होगा।

फिर, आप प्रत्येक सवारी के साथ एक मजेदार हिस्टोग्राम का निर्माण करेंगे, और नेत्रहीन दोनों मार्गों के बीच अंतर देख सकते हैं।

बाइक कम्यूटर (क्वांटिफिकेशन के माध्यम से सत्यापित नहीं) के रूप में मेरे स्वयं के अनुभव के आधार पर मेरी भावना यह है कि समय को सामान्य रूप से वितरित नहीं किया जाएगा - उनके पास एक सकारात्मक तिरछा, या दूसरे शब्दों में ऊपरी-अंत समय की लंबी पूंछ होगी। मेरा विशिष्ट समय मेरे सबसे कम समय के मुकाबले ज्यादा लंबा नहीं है, लेकिन हर अब और फिर मैं सभी लाल बत्तियों को हिट करने के लिए लगता हूं, और एक उच्चतर ऊपरी छोर है। आपका अनुभव अलग हो सकता है। इसलिए मुझे लगता है कि हिस्टोग्राम दृष्टिकोण बेहतर हो सकता है, इसलिए आप स्वयं वितरण का आकार देख सकते हैं।

पुनश्च: मैं इस मंच में टिप्पणी करने के लिए पर्याप्त प्रतिनिधि नहीं है, लेकिन मुझे व्हिबर का जवाब पसंद है! वह एक नमूना विश्लेषण के साथ बहुत प्रभावी ढंग से तिरछापन के बारे में मेरी चिंता को संबोधित करता है। और मुझे आपके दिमाग को अगली पहाड़ी से दूर रखने के लिए गणना करने का विचार पसंद है :)


1
रचनात्मकता के लिए +1। दरअसल, आपका विचार व्यावहारिक उपयोगिता की ओर अग्रसर है। बाइकिंग ट्रैकिंग साइटों में से किसी एक का उपयोग करना काफी अधिक दिलचस्प होगा (मैं अब जो भूल जाता हूं, लेकिन यदि आप जानते हैं तो खंड खंडों को ट्रैक करने के लिए जोड़ें)। यदि ओपी को सीवी या स्टैकओवरफ़्लो में खंड समय की साजिश रचने के बारे में एक प्रश्न के साथ वापस आना था और इसके साथ एक घनत्व जुड़ा हुआ था, तो यह एक शानदार सांख्यिकीय अभ्यास होगा - जीआईएस, सांख्यिकीय दृश्य और घनत्व कार्य, ओह माय! :)
Iterator

1
मैंने बाइकिंग सेगमेंट को ट्रैक करने के लिए अपने फोन पर Google MyTracks का उपयोग किया है। मुझे लगता है कि फोन इस पर बहुत अच्छा नहीं है क्योंकि यह एक डिवाइस पर पावर-चूसना हो जाता है जो इसके लिए अनुकूलित नहीं है। गार्मिन (और अन्य) मार्गों पर बिताए गए समय को ट्रैक करने के लिए जीपीएस उपकरणों को विशेष रूप से लक्षित करते हैं और ऑनलाइन इंटरफ़ेस में स्वच्छ चार्ट प्रदान करते हैं। मैं स्वयं एक समर्पित GPS उपकरण का उपयोग नहीं करता, लेकिन मेरे कुछ मित्र फेसबुक पर मार्ग साझा करने के लिए उनका उपयोग करते हैं।
जोनाथन

1
यहाँ एक उदाहरण है कि गार्मिन डिवाइस क्या उत्पादन करता है। चार्ट के साथ समस्या यह है कि वे पहले से ही भारी पूर्व-संसाधित, चौरसाई आदि कर रहे हैं। उदाहरण के लिए, डेटा को R से आयात करने का कोई सुविधाजनक तरीका नहीं है। लेकिन समर्पित डिवाइस के रूप में यह अपना काम शानदार ढंग से करता है, मैं इसके बिना चलने या बाइक चलाने की कल्पना नहीं कर सकता।
mpiktas

+1 ध्यान दें कि बहुत अधिक तिरछा लाल बत्तियाँ मारने से नहीं आता है (जब तक कि वे समय पर न हो): सामूहिक रूप से, वे आमतौर पर केवल समय वितरण के लिए कुछ गाऊसी शोर जोड़ते हैं। (इसके विचरण की गणना एक और मानसिक व्यायाम है जिसे आप अगली पहाड़ी पर कर सकते हैं।) व्यवहार में तिरछा गैर-गाऊसी भिन्नता से आता है कुछ महत्वपूर्ण कारक जो पूरी सवारी को नियंत्रित करते हैं: मौसम, आप कैसा महसूस कर रहे हैं, जिसके साथ आप ' फिर से सवारी, और कभी कभी दुर्घटना / चक्कर / ट्रैफिक जाम आदि
whuber

अब जब मैं इसके बारे में कुछ और सोचता हूं, तो एक और बहुत महत्वपूर्ण कारक दिन का समय है। ट्रैफिक लाइट चरम ट्रैफिक समय पर बहुत अलग तरीके से काम करती है - उच्च-यातायात सड़क के लिए लंबे समय तक साग। ऑफ-पीक समय में, उच्च-ट्रैफ़िक सड़क के लिए हरे रंग में डिफ़ॉल्ट रूप से प्रकाश जल्दी से साइकिल चला जाता है, लेकिन जब मैं क्रॉसिंग बटन दबाता हूं या सेंसर को सक्रिय करता है तो जल्दी से बदल जाता है।
जोनाथन

5

XYx,yx>yP(Xi>Yj)i,जे

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)

यह एक अच्छा जवाब है, लेकिन आप को निकाल कर इसे सरल सकता है forपाश: जाने x1 = sample(X, 10000, replace = TRUE)और y1 = sample(Y, 10000, replace = TRUE)और उसके बाद की गणना mean(x1 > y1)के साथ mean(x1 == y1)- # गुणा के मूल्यों के बराबर हैं की भावना लाने के लिए।
Iterator

धन्यवाद। मुझे पता था कि लूप अनावश्यक था, लेकिन मैं चाहता था कि तर्क अंतर्निहित दृष्टिकोण बहुतायत से स्पष्ट हो। आपका कोड निश्चित रूप से समान परिणाम देगा।
मैक्रो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.