डेटासेट्स का निर्माण एंस्कॉम्ब की चौकड़ी के समान एक उद्देश्य के लिए किया गया था


32

मैं बस अंस्कोम्बे की चौकड़ी पर आया हूं (चार डेटासेट में लगभग अप्रभेद्य वर्णनात्मक आँकड़े हैं, लेकिन प्लॉट किए जाने पर बहुत अलग दिखते हैं) और मैं उत्सुक हूं कि क्या कुछ और कम या ज्यादा जाने-माने डेटासेट हैं जो कुछ पहलुओं के महत्व को प्रदर्शित करने के लिए बनाए गए हैं सांख्यिकीय विश्लेषण के।


3
इस साइट में अब तक कई सौ ऐसे डेटासेट होने चाहिए, यदि अधिक नहीं, तो इसके पूरे उत्तर में बिखरे हुए हैं। यद्यपि उनकी खोज करने का कोई व्यवस्थित तरीका नहीं है, लेकिन प्रतिगमन टैग जैसे लोकप्रिय टैग के लिए उच्चतम-वोट वाले थ्रेड्स पर एक त्वरित नज़र : यह खोज का प्रयास करेगी ।
whuber

2
कुछ प्रत्यक्ष प्रासंगिकता से संबंधित ब्लॉग .revolutionanalytics.com
हाइबरनेट

जवाबों:


30

डेटा सेट जो कि लोकप्रिय गलतफहमी के लिए प्रतिकार के रूप में कार्य करते हैं * मौजूद हैं - मैंने कई परिस्थितियों में खुद का निर्माण किया है, लेकिन उनमें से ज्यादातर आपके लिए दिलचस्प नहीं होंगे, मुझे यकीन है।

* (जो कि Anscombe डेटा करता है, क्योंकि यह गलतफहमी के तहत काम करने वाले लोगों की प्रतिक्रिया है कि आपके द्वारा उल्लिखित समान आँकड़ों से एक मॉडल की गुणवत्ता को समझा जा सकता है)

मैं यहाँ कुछ को शामिल करूँगा जो कि मेरे द्वारा उत्पन्न अधिकांश लोगों की तुलना में अधिक रुचि के हो सकते हैं:

1) एक उदाहरण (काफी कुछ में) कुछ उदाहरण हैं असतत वितरण (और इस तरह डेटा सेट) मैंने सामान्य दावे का मुकाबला करने के लिए निर्माण किया है कि शून्य तीसरे-क्षण तिरछा समरूपता का अर्थ है। (केंडल और स्टुअर्ट की उन्नत थ्योरी ऑफ स्टेटिस्टिक्स एक अधिक प्रभावशाली निरंतर परिवार प्रदान करती है।)

यहाँ उन असतत वितरण उदाहरणों में से एक है:

x415P(X=x)2/63/61/6

4,4,1,1,1,5

3(meanmedianσ)

वास्तव में मैं भी वितरण और / या डेटा सेट के साथ आया हूं, जिसके लिए दो उपाय साइन में विपरीत हैं - जो इस विचार का मुकाबला करने के लिए पर्याप्त है कि तिरछा एक एकल, आसानी से समझ में आने वाली अवधारणा है, बजाय एक फिसलन विचार के जो हम वास्तव में नहीं करते हैं जानिए कि कैसे कई मामलों में उपयुक्त तरीके से मापें।

2) इस जवाब में निर्मित डेटा का एक सेट है , जो बहुपद वितरण के लिए बॉक्स-एंड-व्हिस्कर प्लॉट में बनाया गया है, चूनप्रादुब और मैकनील (2005) के दृष्टिकोण के बाद, जो एक ही बॉक्सप्लॉट के साथ चार बहुत अलग दिखने वाले डेटा सेट दिखाता है।

यहाँ छवि विवरण दर्ज करें

विशेष रूप से, सममित बॉक्सप्लॉट के साथ विशिष्ट तिरछा वितरण लोगों को आश्चर्यचकित करता है।

3) काउंटरटेम्पल डेटा सेट के संग्रह की एक और जोड़ी है, जिसका निर्माण मैंने लोगों के हिस्टोग्राम पर अधिक निर्भरता के जवाब में किया था, विशेष रूप से केवल कुछ डिब्बे और केवल एक बिन-चौड़ाई और बिन-मूल पर; जो वितरण के आकार के बारे में गलती से विश्वास दिलाता है। ये डेटा सेट और उदाहरण डिस्प्ले यहां देखे जा सकते हैं

यहाँ से एक उदाहरण है। यह डेटा है:

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

और यहाँ दो हिस्टोग्राम हैं:

तिरछा बनाम बेल

10.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

P(B>A)>12

यहां प्रत्येक नमूने में 30 अवलोकनों के साथ एक ऐसा डेटा सेट दिया गया है, जिस पर A से D अंकित है:

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

यहाँ एक उदाहरण परीक्षण है:

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199 

जैसा कि आप देखते हैं, एकतरफा परीक्षण शून्य को अस्वीकार करता है; A का मान बी से मानों की तुलना में छोटा है। एक ही निष्कर्ष (एक ही पी-मान पर) B बनाम C, C बनाम D और D बनाम A पर लागू होता है। अस्वीकारों का यह चक्र, अपने आप में एक समस्या नहीं है। , अगर हम इसकी व्याख्या नहीं करते हैं तो इसका मतलब यह नहीं है। (समान, लेकिन बड़े, नमूनों के साथ बहुत छोटे पी-मान प्राप्त करना एक साधारण मामला है।)

जब आप किसी स्थान परिवर्तन के लिए (इस मामले में एक तरफा) अंतराल की गणना करते हैं तो बड़ा "विरोधाभास" यहां आता है - प्रत्येक मामले में 0 को बाहर रखा गया है (प्रत्येक मामले में अंतराल समान नहीं हैं)। यह हमें इस निष्कर्ष पर ले जाता है कि जैसे हम डेटा कॉलम में A से B से C से D की ओर बढ़ते हैं, वैसे ही स्थान दाईं ओर बढ़ता है, और फिर भी जब हम A से पीछे जाते हैं, तब भी ऐसा ही होता है।

इन डेटा सेटों (मूल्यों के समान वितरण, लेकिन उनमें से अधिक समान) के बड़े संस्करणों के साथ, हम महत्वपूर्ण रूप से छोटे महत्व के स्तरों पर महत्व (एक या दो पूंछ) प्राप्त कर सकते हैं, ताकि कोई उदाहरण के लिए बोनफेरोनी समायोजन का उपयोग कर सके, और अभी भी प्रत्येक को खा सके समूह एक वितरण से आया था जिसे अगले एक से स्थानांतरित कर दिया गया था।

इससे हमें पता चलता है कि अन्य बातों के अलावा, विल्कोन-मान-व्हिटनी में एक अस्वीकृति स्वतः ही स्थान परिवर्तन के दावे को सही नहीं ठहराती है।

(हालांकि यह इन आंकड़ों के मामले में नहीं है, यह उन सेटों का निर्माण करना भी संभव है जहां नमूना साधन स्थिर हैं, जबकि उपरोक्त तरीके से परिणाम लागू होते हैं।)

बाद के संपादन में जोड़ा गया: इस पर एक बहुत जानकारीपूर्ण और शैक्षिक संदर्भ है

ब्राउन बीएम, और हेटमन्सपर्गर टीपी। (२००२)
क्रुस्कल-वालिस, मल्टीपल कॉम्प्रिसंस और एफ्रॉन पासा।
ऑस्ट एंड एन.जे.जे स्टेट। , 44 , 427–438।

5) संबंधित काउंटरटेक्मेन्स की एक और जोड़ी यहां आती है - जहां एक एनोवा महत्वपूर्ण हो सकती है, लेकिन सभी जोड़ीवार तुलनाएं (दो अलग-अलग तरीकों से व्याख्या की जाती हैं, अलग-अलग काउंटरटेम्पल की उपज होती हैं)।


तो वहाँ कई counterexample डेटा सेट है कि एक गलतफहमी विरोधाभास हो सकता है।

जैसा कि आप अनुमान लगा सकते हैं, मैं इस तरह के प्रतिवादों का निर्माण अक्सर (जैसा कि कई अन्य लोग करते हैं), आमतौर पर आवश्यकता के रूप में होता है। इन सामान्य गलतफहमियों में से कुछ के लिए, आप इस तरह से प्रतिपक्षों को चिह्नित कर सकते हैं कि नई इच्छाएं उत्पन्न हो सकती हैं (हालांकि अधिक बार, एक निश्चित स्तर का काम शामिल है)।

यदि आपकी रुचि के कुछ विशेष प्रकार हैं, तो मैं इस तरह के सेट (मेरा या अन्य लोगों का) का पता लगाने में सक्षम हो सकता हूं, या शायद कुछ का निर्माण भी कर सकता हूं।


यादृच्छिक रिग्रेशन डेटा बनाने के लिए एक उपयोगी ट्रिक जिसमें गुणांक है जो आप चाहते हैं वह निम्नानुसार है (कोष्ठक में हिस्सा आर कोड की एक रूपरेखा है):

क) बिना शोर के आप चाहते हैं कि गुणांक सेट करें ( y = b0 + b1 * x1 + b2 * x2)

ख) वांछित विशेषताओं के साथ त्रुटि शब्द उत्पन्न करना ( n = rnorm(length(y),s=0.4)

ग) उसी x पर शोर का एक प्रतिगमन स्थापित करें ( nfit = lm(n~x1+x2))

घ) इसमें से अवशेषों को y चर ( y = y + nfit$residuals) में जोड़ें

किया हुआ। (पूरी बात वास्तव में आर की कुछ पंक्तियों में की जा सकती है)


6
(10k)0.1k0.910k,k=0,,10

@Glen_b धन्यवाद। इसके विपरीत, बहुत, बहुत दिलचस्प। उदाहरण के लिए, मैंने आपके डेटा x और कोड की निम्नलिखित पंक्तियों के साथ Sterges.R नामक एक फ़ाइल को सहेजा है: hist (x, col = "green3", freq = FALSE); hist (एक्स, टूट जाता है = "स्कॉट", col = "Aquamarine", freq = false); hist (x, break = "FD", col = "darkgreen", freq = FALSE) मुझे पता है कि कुछ लोग R समुदाय को कोशिकाओं की संख्या के लिए डिफ़ॉल्ट के रूप में Sturges के नियम का उपयोग नहीं करने में विफल हुए - आपका उदाहरण शायद यही है रोब हंडमैन द्वारा उस अप्रकाशित सैद्धांतिक नोट की तुलना में अधिक ठोस तर्क।
हाइबरनेटिंग

@ स्पष्टता की कमी के लिए मेरी क्षमा याचना - मैंने मेरे लिए होने वाली दिलचस्प चीजों को चुना। जैसा कि मैंने कहा, प्रतिरूप उत्पन्न करना नियमित रूप से उत्पन्न होता है, लेकिन उनमें से अधिकांश दिलचस्प नहीं होंगे (उनके प्रत्यक्ष दर्शकों के बाहर)। कभी-कभी कुछ होते हैं, इसलिए मैंने उन सभी का उल्लेख किया जिनके बारे में मैं सोच सकता था। अगर मैं स्टर्गेस नियम के साथ समस्याओं को दिखाने के लिए एक उदाहरण का निर्माण करने जा रहा था, तो मैं उस उदाहरण को अलग करूंगा। (मुझे लगता है कि उदाहरण का मुख्य मूल्य स्पष्ट रूप से प्रदर्शित करना है कि आपको एक ही नियम पर भरोसा नहीं करना चाहिए, और आम तौर पर सामान्य नियमों की तुलना में अधिक डिब्बे की ओर झुकना चाहिए।)
Glen_b -Reinstate Monica

2
@NickCox "माध्य = माध्य = मोड का अर्थ है समरूपता" का एक छोटा सा प्रतिधारण -2 है, -1, 0, 0, 0, 3 जो मैंने इस प्रश्न के लिए बनाया था । मुझे संदेह है कि सबसे छोटा संभव है, क्योंकि हम मोड बनाने के लिए दो डेटा बिंदुओं का उपयोग करते हैं, एक तीसरा विशिष्ट बिंदु मतलब = माध्य को बिगाड़ देगा, और मुझे लगता है कि एक चौथा बिंदु अर्थ = माध्य = मोड को केवल सममित रूप से रखा जा सकता है। किसी भी दर पर, आपका द्विपद उदाहरण अधिक संतोषजनक है क्योंकि यह कम विवादित लगता है! n=5
सिल्वरफिश नोव

16

समान उद्देश्यों के लिए जनरेटिंग (उदाहरण के लिए, आपके अपने) डेटासेट के संबंध में , आपकी रुचि हो सकती है:

जहाँ तक डेटासेट्स का उपयोग केवल आँकड़ों में मुश्किल / जवाबी-सहज घटनाओं को प्रदर्शित करने के लिए किया जाता है, वहाँ बहुत कुछ है, लेकिन आपको यह निर्दिष्ट करने की आवश्यकता है कि आप किन घटनाओं को प्रदर्शित करना चाहते हैं। उदाहरण के लिए, सिम्पसन के विरोधाभास को प्रदर्शित करने के संबंध में , बर्कले लिंग पूर्वाग्रह केस डाटासेट बहुत प्रसिद्ध है।

सभी के सबसे प्रसिद्ध डेटासेट की एक महान चर्चा के लिए, देखें: "आइरिस" डेटा सेट के कौन से पहलू इसे उदाहरण / शिक्षण / परीक्षण डेटा सेट के रूप में इतना सफल बनाते हैं


1

पत्र में "चलो रखो कचरा-Can प्रतिगमन और कचरा-Can Probits वे कहाँ बिलॉन्ग" (सी Achen, 2004) लेखक एक गैर linearity कि वास्तविक जीवन मामलों जब डेटा को प्रतिबिंबित करने के लिए है के साथ एक कृत्रिम डेटा सेट बनाता है माप के दौरान एक कोडिंग त्रुटि का सामना करना पड़ा हो सकता है (उदाहरण के लिए डेटा को श्रेणीबद्ध मान, या गलत परिमाणीकरण प्रक्रियाओं में एक विकृति)।

सिंथेटिक डेटा दो सकारात्मक गुणांक के साथ एक परिपूर्ण रैखिक संबंध से बनाया गया है, लेकिन एक बार जब आप गैर-रैखिक कोडिंग त्रुटि लागू करते हैं, तो मानक प्रतिगमन तकनीक एक गुणांक का उत्पादन करेगी जो गलत संकेत का है और सांख्यिकीय रूप से भी महत्वपूर्ण है (और अधिक हो जाएगा यदि आपने एक बड़ा सिंथेटिक डेटा सेट बूटस्ट्रैप किया)।

हालांकि यह सिर्फ एक छोटा सा सिंथेटिक डेटा सेट है, कागज भोलेपन का एक बड़ा खंडन प्रस्तुत करता है "डंप सब कुछ मैं दाहिने हाथ की तरफ" प्रतिगमन के प्रकारों के बारे में सोच सकता हूं, यह दिखाते हुए कि छोटे / सूक्ष्म गैर-रैखिकता के साथ (जो वास्तव में काफी हैं यदि आप केवल मानक प्रतिगमन पुश-बटन विश्लेषण के आउटपुट पर भरोसा करते हैं, तो कोडिंग त्रुटियों या परिमाणीकरण त्रुटियों जैसी सामान्य चीजें) आप बेतहाशा भ्रामक परिणाम प्राप्त कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.