केवल संबंधित योग से बैग में फल का अनुमानित द्रव्यमान?


9

मेरे विश्वविद्यालय के एक प्रशिक्षक ने इस तरह का प्रश्न किया (कक्षा समाप्त होने के बाद से होमवर्क के लिए नहीं और मैं इसमें नहीं था)। मैं यह पता नहीं लगा सकता कि यह कैसे संपर्क करे।

प्रश्न में 2 बैग हैं जिनमें से प्रत्येक में विभिन्न प्रकार के फलों का वर्गीकरण होता है:

पहले बैग में निम्नलिखित बेतरतीब ढंग से चयनित फल होते हैं:

+ ------------- + -------- + --------- +
| व्यास सेमी | मास जी | साडी गली? |
+ ------------- + -------- + --------- +
| 17.28 | 139.08 | 0 |
| 6.57 | 91.48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6.99 | 123.43 | 0 |
| 6.63 | 104.93 | 1 |
| 6.75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83.29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117.72 | 0 |
| 7.19 | 128.63 | 0 |
+ ------------- + -------- + --------- +

दूसरे बैग में पहले बैग के समान बेतरतीब ढंग से चयनित फल होते हैं। उनके व्यास का योग 64.2 सेमी और 4 सड़ा हुआ है।

दूसरे बैग के द्रव्यमान के लिए एक अनुमान दें।

मैं देख सकता हूं कि सामान्य रूप से वितरित व्यास और द्रव्यमान के साथ दो अलग-अलग प्रकार के फल दिखाई देते हैं लेकिन मैं आगे बढ़ने के तरीके पर खो गया हूं।


6
दिलचस्प सवाल - लेकिन अजीब डेटा: विशिष्ट गुरुत्वाकर्षण 0.78 से 0.05 तक होता है। शायद किसी ने असली फल के लिए स्टायरोफोम की सजावट को गलत समझा? :-)
whuber

सवाल यह नहीं कहता है कि फल किस चीज से बना था। मुझे लगता है कि आप यह मान सकते हैं कि वास्तविक बैग खुद भी भारहीन हैं। मैं समस्या को कैसे हल करूं?
रुतिलुस्क

3
मेरी टिप्पणी का जोर यह था कि जब इतनी कम मात्रा में गन्दे डेटा का विश्लेषण किया जाता है, तो हम ज्ञान पर भरोसा करते हैं कि डेटा का क्या अर्थ है। चूंकि ये संख्या स्पष्ट रूप से किसी भी प्रकार के "फल" का वर्णन नहीं करती है, इसलिए हम ऐसे डोमेन ज्ञान के लिए अपील नहीं कर सकते हैं। (उदाहरण के लिए, हमारे पास ऐसा कोई आधार नहीं है कि मान लें कि इन आंकड़ों का कोई भी हिस्सा "सामान्य रूप से वितरित किया जाना चाहिए") जो उचित उत्तरों को विकसित करने के लिए कठिन या असंभव बनाता है और विवाद का कारण बन सकता है, क्योंकि यह उन तरीकों को सीमित करता है जिनमें किसी भी दृष्टिकोण के प्रदर्शन का आकलन किया जा सकता है।
whuber

लेकिन स्टायरोफोम फल सड़ नहीं सकता। शायद फल लम्बी धुरी के साथ "व्यास" मापा जाता है। कम से कम दो प्रकार के फल लगते हैं: इसलिए, एक के करीब विशिष्ट गुरुत्वाकर्षण को मानते हुए, छोटा एक नींबू के आकार और आकार के बारे में होगा; लगभग आधा फुट लंबा और 2 इंच के नीचे बड़ा। इस विचार के साथ कठिनाई यह है कि छोटी धुरी को "व्यास" के रूप में वर्णित करना अधिक स्वाभाविक लगता है।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


1

आइए डेटा को प्लॉट करके शुरू करें और उस पर एक नज़र डालें। यह बहुत सीमित मात्रा में डेटा है, इसलिए यह कुछ मान्यताओं के साथ कुछ हद तक तदर्थ होने जा रहा है ।

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

तो यह डेटा है, लाल डॉट्स सड़े हुए फलों का प्रतिनिधित्व करते हैं:

फल दिए गए

आप यह मानने में सही हैं कि दो प्रकार के फल लगते हैं। मेरे द्वारा की जाने वाली धारणाएँ निम्नलिखित हैं:

  • व्यास फलों को दो समूहों में विभाजित करता है
  • 10 से अधिक व्यास वाले फल एक समूह में होते हैं, दूसरे छोटे समूह में।
  • बड़े फल समूह में केवल एक सड़ा हुआ फल होता है। मान लेते हैं कि यदि कोई फल बड़े समूह में है, तो सड़े हुए होने से वजन प्रभावित नहीं होता है। यह आवश्यक है, क्योंकि हमारे पास उस समूह में केवल एक डेटा बिंदु है।
  • यदि फल एक छोटा फल है, तो सड़ा हुआ होने से द्रव्यमान प्रभावित होता है।
  • मान लेते हैं कि चर डायम और द्रव्यमान आम तौर पर वितरित किए जाते हैं।

क्योंकि यह दिया जाता है कि व्यास का योग 64.2 सेमी है, तो यह सबसे अधिक संभावना है कि दो फल बड़े हैं और चार छोटे हैं। अब वजन के लिए 3 मामले हैं। 2, 3 या 4 छोटे फल सड़े हुए हैं, (सड़ा हुआ एक बड़ा फल धारणा से द्रव्यमान को प्रभावित नहीं करता है )। तो अब आप इन मूल्यों की गणना करके अपने द्रव्यमान पर सीमा प्राप्त कर सकते हैं।

हम अनुभव कर सकते हैं कि छोटे फलों के सड़ने की संभावना के बारे में अनुमान लगाया जा सकता है। हम सड़े हुए फलों की संख्या के आधार पर, द्रव्यमान के हमारे अनुमानों के वजन की संभावनाओं का उपयोग करते हैं:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

हमें 691.5183 जी का अंतिम अनुमान देते हुए । मुझे लगता है कि आपको किसी निष्कर्ष पर पहुंचने के लिए मेरे द्वारा की गई अधिकांश धारणाएं बनानी होंगी, लेकिन मुझे लगता है कि हो सकता है कि यह संभव हो। इसके अलावा मैं सड़े हुए छोटे फलों की संख्या की संभावना पाने के लिए अनुभवजन्य रूप से नमूना लेता हूं, जो कि सिर्फ आलस्य है और इसे "विश्लेषणात्मक" किया जा सकता है।


आपके सहयोग के लिए धन्यवाद। यह मुझे लगता है कि आपके द्वारा "मान्यताओं" को कहने वाले अधिकांश दावे आपके खोजपूर्ण विश्लेषण के आधार पर वास्तव में निष्कर्ष हैं । यह विश्लेषण करना मूल्यवान होगा कि आपके परिणाम उन निष्कर्षों की सटीकता पर कैसे निर्भर करते हैं। भले ही, यह स्पष्ट है कि इस तरह के छोटे डेटासेट संभवतः सात महत्वपूर्ण आंकड़ों के साथ परिणाम का समर्थन नहीं कर सकते हैं! यह अपनी संभावित त्रुटि के कुछ आकलन की आपूर्ति करने के लिए विशेष रूप से उपयोगी होगा। यह अपेक्षाकृत बड़ा होगा, जिसे जानना महत्वपूर्ण होगा।
whuber

@ टिप्पणी के लिए धन्यवाद, मैं बाद में शाम को भिन्नता का अनुमान लगाने के लिए कुछ और जोड़ सकता हूं। अंतिम गणना के लिए मेरे द्वारा उपयोग किए जाने वाले तीन समूहों के द्रव्यमान के लिए त्रुटि अनुमान प्राप्त करना और उसके आधार पर पूर्वानुमान अंतराल की गणना करना सबसे सरल काम होगा। लेकिन मैं देख रहा हूं कि ओपी एक साल से निष्क्रिय है, इसलिए मुझे उम्मीद नहीं है कि यह जवाब स्वीकार किया जाएगा। मुझे अभी भी लगता है कि यह उदाहरण एक अच्छी "खिलौना" समस्या है, यह देखने के लिए कि आप इतने कम डेटा के साथ कैसे प्राप्त कर सकते हैं।
गुम्मो

मैं यह सुझाव देने की कोशिश कर रहा हूं कि आपको वास्तव में आपके उत्तर द्वारा सुझाई गई जानकारी से बहुत कम जानकारी मिलती है, क्योंकि यह कई डेटा-व्युत्पन्न निष्कर्षों पर निर्भर करता है जो स्वयं अत्यधिक अनिश्चित हैं।
whuber

@whuber हां जो पूरी तरह से सही है। लेकिन सभी मान्यताओं / निष्कर्ष द्वारा प्रचारित त्रुटि का अनुमान लगाने की कोशिश करना बहुत सरल नहीं है। मैं इस तथ्य से भी बहुत प्रभावित था कि दूसरे बैग में फलों के व्यास का योग 64.2 सेमी है और ओपी का उल्लेख है कि फलों के दो समूह हो सकते हैं।
ग्यूमो

1
@ मैं इसके बारे में सोचूंगा और इसे चुनौती के रूप में लूंगा। मैं बाद में इस प्रश्न पर फिर से विचार करूँगा!
गोमो

0

मैं निम्नलिखित दृष्टिकोण का प्रस्ताव करूंगा:

  1. सभी 4-ट्यूपल्स उत्पन्न करें जो 4 सड़े हुए पर शर्तों को पूरा करते हैं। वे ।(64)(72)
  2. केवल उत्पन्न टुपल्स से चयन करें जो व्यास पर स्थिति को संतुष्ट करते हैं।
  3. चयनित ट्यूपल्स (सामान्य अंकगणितीय औसत) के औसत वजन की गणना करें।

यह सब एक साधारण स्क्रिप्ट द्वारा प्रबंधनीय है।


5
यह दृष्टिकोण क्यों काम करना चाहिए? यह किन धारणाओं को बनाता है? क्या आपने यह देखने की कोशिश की है कि क्या यह एक जवाब भी दे सकता है?
whuber

0

कई दृष्टिकोणों में शामिल हैं, सरलतम से जटिल तक,

  1. 6 (मतलब द्रव्यमान)
  2. 6 (औसत आयतन) (मतलब घनत्व)
  3. 4 (मतलब सड़ा हुआ द्रव्यमान) + 2 (मतलब गैर सड़ा हुआ द्रव्यमान)
  4. 4 (मतलब सड़ा हुआ आयतन) + 2 (मतलब सड़ा हुआ आयतन)) (मतलब घनत्व)
  5. 4 (सड़ा हुआ आयतन) (मतलब सड़ा हुआ घनत्व) + 2 (गैर सड़ा हुआ आयतन) (मतलब सड़ा हुआ घनत्व)

। । ।

दहनशील विधियाँ

दृष्टिकोण की गणना सरलता के क्रम में की जाती है, न कि किसी दृष्टिकोण के बेहतर होने, या किसी भी अच्छे होने के क्रम में। उपयोग करने के लिए किस दृष्टिकोण का चयन इस बात पर निर्भर करता है कि जनसंख्या की कौन-कौन सी विशेषताएँ ज्ञात या मान्य हैं। उदाहरण के लिए, यदि स्टोर की आबादी में फलों के द्रव्यमान आम तौर पर वितरित किए जाते हैं और व्यास और सड़ांध की स्थिति से स्वतंत्र होते हैं, तो कोई भी अधिक फायदे के उपयोग के बिना किसी भी फायदे (या कई चर के नमूने की त्रुटि के नुकसान) के बिना पहले, सबसे सरल दृष्टिकोण का उपयोग कर सकता है। । यदि स्वतंत्र रूप से पहचाने जाने वाले यादृच्छिक चर वितरित नहीं किए जाते हैं, तो आबादी के बारे में ज्ञात या ग्रहण की गई जानकारी के आधार पर अधिक जटिल विकल्प बेहतर हो सकता है।


3
इनमें से कोई भी अच्छा क्यों हैं? वे क्या धारणाएँ बनाते हैं? कोई एक का चयन कैसे करेगा? (वे कुछ अर्थों में अच्छाई आरोही के क्रम में भी कर रहे हैं?)
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.