आर में चौकड़ी ढूँढना


33

आर सीखने के दौरान मैं एक पाठ्यपुस्तक के माध्यम से काम कर रहा हूं और मैं निम्नलिखित उदाहरण पर एक ठोकर में चला गया हूं:

यहाँ छवि विवरण दर्ज करें

देखने के बाद ?quantileमैंने आर के साथ इसे फिर से बनाने का प्रयास किया:

> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
   0%   25%   50%   75%  100% 
  6.0   9.5  16.0  28.0 104.0 

यह देखते हुए कि पाठ और आर के अलग-अलग परिणाम हैं, मैं इकट्ठा कर रहा हूं कि आर पहले और तीसरे चतुर्थक की गणना में माध्यिका का उपयोग कर रहा है।

सवाल:

क्या मुझे पहली और तीसरी चतुर्थांश की गणना में माध्यिका को शामिल करना चाहिए?

विशेष रूप से, क्या पाठ्यपुस्तक या आर में यह सही है? यदि पाठ्यपुस्तक में यह सही है, तो क्या आर में इसे ठीक से प्राप्त करने का कोई तरीका है?

अग्रिम में धन्यवाद।

r  quantiles 

6
यहां कुछ सूत्र चर्चा करते हैं कि कई तरीकों से मात्राओं की गणना या अनुमान लगाया जा सकता है। यहाँ एक आधिकारिक उत्तर के साथ एक है , लेकिन अन्य हमारी साइट को खोजकर उपलब्ध हैं। संक्षेप में, आपकी पाठ्यपुस्तक कंप्यूटिंग चतुर्थकों की एक गैर-मानक विधि प्रस्तुत करती प्रतीत होती है, लेकिन quantileटाइप 1, 2, और 6 उन्हें इस विशेष आकार के डेटासेट के लिए पुन: पेश करेगी । कोई नहीं के Rतरीकों अपने पाठ्यपुस्तक से मेल खाती है। (इस पाठ की गुणवत्ता के बारे में एक चमत्कार ...)
व्हिबर

@whuber इस टिप्पणी के लिए धन्यवाद, यह बहुत मदद करता है क्योंकि मुझे डर है कि मेरे पास अभी तक तकनीकी पृष्ठभूमि नहीं है कि क्या अलग-अलग प्रकार के quantileहैं।

@ शुभंकर: यह स्पष्ट रूप से गैर-मानक है (जिसका उल्लेख किताब में कहीं है), लेकिन अनपेक्षित नहीं। क्या आपको लगता है कि यह गणितीय रूप से गलत है?
माइकल एम

6
@ मिचेल आप किसी भी चीज़ को पसंद करने के लिए "चतुर्थक" को परिभाषित कर सकते हैं, इसलिए गणितीय रूप से कुछ भी गलत नहीं है। यह स्पष्ट है कि asymptotically ये परिभाषाएं बड़े लिए काम करती हैं । लेकिन एक पाठ्यपुस्तक में एक उपन्यास की परिभाषा प्रस्तुत करना चक डी जैसे विचारशील छात्रों के लिए एक असहमति है, जो नोटिस करते हैं कि वे सॉफ्टवेयर, प्रकाशन, या कुछ और लेकिन उनके पाठ से सहमत होने के लिए अपनी गणना प्राप्त नहीं कर सकते हैं। n
whuber

1
आर क्वांटाइल्स की नौ विभिन्न परिभाषाओं का उपयोग करता है (डिफ़ॉल्ट रूप से यह परिभाषा 7 का उपयोग करता है)। देखें?quantile
Glen_b -Reinstate मोनिका

जवाबों:


43

आपकी पाठ्यपुस्तक भ्रमित है। बहुत कम लोग या सॉफ्टवेयर इस तरह से चौकड़ी को परिभाषित करते हैं। (यह पहली चतुर्थक को बहुत छोटा और तीसरे चतुर्थक को बहुत बड़ा बनाता है।)

quantileमें समारोह Rलागू करता नौ गणना quantiles को अलग अलग तरीकों से! यह देखने के लिए कि उनमें से कौन सा, यदि कोई हो, इस पद्धति के अनुरूप है, तो आइए इसे लागू करके शुरू करें। वर्णन से हम एक एल्गोरिथ्म लिख सकते हैं, पहले गणितीय और फिर इसमें R:

  1. एक्स1एक्स2एक्सn

  2. डेटा के किसी भी सेट के लिए औसत मूल्य की विषम संख्या होने पर माध्यिका इसका मध्य मूल्य है; अन्यथा यह दो मध्य मानों का औसत है जब समान मान होते हैं। Rके medianसमारोह इस गणना करता है।

    मीटर=(n+1)/2(एक्सएल+एक्सयू)/2एलयूमीटरमीटरएक्समीटरएल=मीटर-1यू=मीटर+1एलयू

  3. एक्समैंमैंएल(एक्समैं)मैंयू

यहाँ एक कार्यान्वयन है। इस पाठ्यपुस्तक में आपको अपने अभ्यास करने में मदद मिल सकती है।

quart <- function(x) {
  x <- sort(x)
  n <- length(x)
  m <- (n+1)/2
  if (floor(m) != m) {
    l <- m-1/2; u <- m+1/2
  } else {
    l <- m-1; u <- m+1
  }
  c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}

उदाहरण के लिए, quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))पाठ से सहमत हैं:

Q1 Q3 
 9 33 

चलो सभी दस विधियों का उपयोग करते हुए कुछ छोटे डेटासेट के लिए चतुर्थक की गणना करें: नौ में Rऔर पाठ्यपुस्तक की:

y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
  j <- 1
  for (i in 1:9) {
    y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
  }
  y[, 10] <- quart(1:n)
  cat("\n", n, ":\n")
  print(y, digits=2)
}

जब आप इसे चलाते हैं और जांचते हैं, तो आप पाएंगे कि पाठ्यपुस्तक के मान सभी तीन नमूना आकारों के किसी भीR आउटपुट से सहमत नहीं हैं । (असहमति का पैटर्न तीन की अवधि के चक्र में जारी है, यह दर्शाता है कि यह समस्या बनी रहती है कि नमूना कितना भी बड़ा क्यों न हो।)

9.528


3
इस तरह के एक विस्तृत जवाब के लिए एक बड़ा धन्यवाद मुझे उपकरण प्रदान करने के साथ-साथ काम करने के लिए और विभिन्न तरीकों का मूल्यांकन करने के लिए। मैं अब उन्हें आग लगाने जा रहा हूं और चीजों के बारे में अधिक विस्तार से जाना।

2

आँकड़ों के क्षेत्र के भीतर (जो मैं सिखाता हूं, लेकिन जिसमें मैं शोधकर्ता नहीं हूं), चतुर्थक गणना विशेष रूप से अस्पष्ट हैं (एक तरह से जो जरूरी नहीं कि मात्रात्मक रूप से सच है, अधिक आम तौर पर)। यह अंतर-चतुर्थक श्रेणी (IQR) के उपयोग (और शायद दुर्व्यवहार) के कारण इसके पीछे बहुत सारा इतिहास है, जो कि आउटलेर्स के लिए असंवेदनशील है, एक चेक या मानक विचलन के विकल्प के रूप में। यह एक खुली प्रतियोगिता बनी हुई है, जिसमें Q1 और Q3 के सह-विहित होने की गणना के लिए तीन विशिष्ट तरीके हैं।

जैसा कि अक्सर होता है, विकिपीडिया लेख में एक उचित सारांश है: https://en.m.wikipedia.org/wiki/Quartile लार्सन और फार्बर पाठ, जैसे अधिकांश प्राथमिक आँकड़े ग्रंथ, विकिपीडिया लेख में वर्णित के रूप में उपयोग करता है " विधि 1. " यदि मैं उपरोक्त विवरण का पालन करता हूं, तो r "विधि 3" का उपयोग करता है। आपको अपने लिए निर्णय लेना होगा जो आपके अपने क्षेत्र में कैनोनिक रूप से उपयुक्त है।


आप अच्छे अंक (+1) बनाते हैं। लेकिन यह देखते हुए कि "विधि 1" के संदर्भ TI-83 कैलकुलेटर और एक्सेल हैं (जिनकी विश्वसनीयता की कमी अच्छी तरह से ज्ञात है), कि यह विधि demonstrably पक्षपाती है, और यह कि Tukey की पंक्तियों की तुलना में गणना करना अधिक कठिन नहीं है, यह होगा इसके उपयोग को उचित ठहराना या उसकी अनुशंसा करना मुश्किल लगता है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.