डेटा सेट जो कि लोकप्रिय गलतफहमी के लिए प्रतिकार के रूप में कार्य करते हैं * मौजूद हैं - मैंने कई परिस्थितियों में खुद का निर्माण किया है, लेकिन उनमें से ज्यादातर आपके लिए दिलचस्प नहीं होंगे, मुझे यकीन है।
* (जो कि Anscombe डेटा करता है, क्योंकि यह गलतफहमी के तहत काम करने वाले लोगों की प्रतिक्रिया है कि आपके द्वारा उल्लिखित समान आँकड़ों से एक मॉडल की गुणवत्ता को समझा जा सकता है)
मैं यहाँ कुछ को शामिल करूँगा जो कि मेरे द्वारा उत्पन्न अधिकांश लोगों की तुलना में अधिक रुचि के हो सकते हैं:
1) एक उदाहरण (काफी कुछ में) कुछ उदाहरण हैं असतत वितरण (और इस तरह डेटा सेट) मैंने सामान्य दावे का मुकाबला करने के लिए निर्माण किया है कि शून्य तीसरे-क्षण तिरछा समरूपता का अर्थ है। (केंडल और स्टुअर्ट की उन्नत थ्योरी ऑफ स्टेटिस्टिक्स एक अधिक प्रभावशाली निरंतर परिवार प्रदान करती है।)
यहाँ उन असतत वितरण उदाहरणों में से एक है:
xP(X=x)−42/613/651/6
−4,−4,1,1,1,5
3(mean−medianσ)
वास्तव में मैं भी वितरण और / या डेटा सेट के साथ आया हूं, जिसके लिए दो उपाय साइन में विपरीत हैं - जो इस विचार का मुकाबला करने के लिए पर्याप्त है कि तिरछा एक एकल, आसानी से समझ में आने वाली अवधारणा है, बजाय एक फिसलन विचार के जो हम वास्तव में नहीं करते हैं जानिए कि कैसे कई मामलों में उपयुक्त तरीके से मापें।
2) इस जवाब में निर्मित डेटा का एक सेट है , जो बहुपद वितरण के लिए बॉक्स-एंड-व्हिस्कर प्लॉट में बनाया गया है, चूनप्रादुब और मैकनील (2005) के दृष्टिकोण के बाद, जो एक ही बॉक्सप्लॉट के साथ चार बहुत अलग दिखने वाले डेटा सेट दिखाता है।
विशेष रूप से, सममित बॉक्सप्लॉट के साथ विशिष्ट तिरछा वितरण लोगों को आश्चर्यचकित करता है।
3) काउंटरटेम्पल डेटा सेट के संग्रह की एक और जोड़ी है, जिसका निर्माण मैंने लोगों के हिस्टोग्राम पर अधिक निर्भरता के जवाब में किया था, विशेष रूप से केवल कुछ डिब्बे और केवल एक बिन-चौड़ाई और बिन-मूल पर; जो वितरण के आकार के बारे में गलती से विश्वास दिलाता है। ये डेटा सेट और उदाहरण डिस्प्ले यहां देखे जा सकते हैं
यहाँ से एक उदाहरण है। यह डेटा है:
1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62
और यहाँ दो हिस्टोग्राम हैं:
10.8
x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)
P(B>A)>12
यहां प्रत्येक नमूने में 30 अवलोकनों के साथ एक ऐसा डेटा सेट दिया गया है, जिस पर A से D अंकित है:
1 2 3 4 5 6 7 8 9 10 11 12
A 1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
B 3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
C 6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50
13 14 15 16 17 18 19 20 21 22 23 24
A 1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
B 3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
C 6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65
25 26 27 28 29 30
A 1.42 2.56 16.73 17.01 18.86 19.98
B 3.44 4.13 6.00 20.85 21.82 22.05
C 6.57 7.58 8.81 9.08 23.43 24.45
D 10.29 11.48 12.19 13.09 14.68 15.36
यहाँ एक उदाहरण परीक्षण है:
> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)
Wilcoxon rank sum test
data: adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
-Inf -1.336372
sample estimates:
difference in location
-2.500199
जैसा कि आप देखते हैं, एकतरफा परीक्षण शून्य को अस्वीकार करता है; A का मान बी से मानों की तुलना में छोटा है। एक ही निष्कर्ष (एक ही पी-मान पर) B बनाम C, C बनाम D और D बनाम A पर लागू होता है। अस्वीकारों का यह चक्र, अपने आप में एक समस्या नहीं है। , अगर हम इसकी व्याख्या नहीं करते हैं तो इसका मतलब यह नहीं है। (समान, लेकिन बड़े, नमूनों के साथ बहुत छोटे पी-मान प्राप्त करना एक साधारण मामला है।)
जब आप किसी स्थान परिवर्तन के लिए (इस मामले में एक तरफा) अंतराल की गणना करते हैं तो बड़ा "विरोधाभास" यहां आता है - प्रत्येक मामले में 0 को बाहर रखा गया है (प्रत्येक मामले में अंतराल समान नहीं हैं)। यह हमें इस निष्कर्ष पर ले जाता है कि जैसे हम डेटा कॉलम में A से B से C से D की ओर बढ़ते हैं, वैसे ही स्थान दाईं ओर बढ़ता है, और फिर भी जब हम A से पीछे जाते हैं, तब भी ऐसा ही होता है।
इन डेटा सेटों (मूल्यों के समान वितरण, लेकिन उनमें से अधिक समान) के बड़े संस्करणों के साथ, हम महत्वपूर्ण रूप से छोटे महत्व के स्तरों पर महत्व (एक या दो पूंछ) प्राप्त कर सकते हैं, ताकि कोई उदाहरण के लिए बोनफेरोनी समायोजन का उपयोग कर सके, और अभी भी प्रत्येक को खा सके समूह एक वितरण से आया था जिसे अगले एक से स्थानांतरित कर दिया गया था।
इससे हमें पता चलता है कि अन्य बातों के अलावा, विल्कोन-मान-व्हिटनी में एक अस्वीकृति स्वतः ही स्थान परिवर्तन के दावे को सही नहीं ठहराती है।
(हालांकि यह इन आंकड़ों के मामले में नहीं है, यह उन सेटों का निर्माण करना भी संभव है जहां नमूना साधन स्थिर हैं, जबकि उपरोक्त तरीके से परिणाम लागू होते हैं।)
बाद के संपादन में जोड़ा गया: इस पर एक बहुत जानकारीपूर्ण और शैक्षिक संदर्भ है
ब्राउन बीएम, और हेटमन्सपर्गर टीपी। (२००२)
क्रुस्कल-वालिस, मल्टीपल कॉम्प्रिसंस और एफ्रॉन पासा।
ऑस्ट एंड एन.जे.जे स्टेट। , 44 , 427–438।
5) संबंधित काउंटरटेक्मेन्स की एक और जोड़ी यहां आती है - जहां एक एनोवा महत्वपूर्ण हो सकती है, लेकिन सभी जोड़ीवार तुलनाएं (दो अलग-अलग तरीकों से व्याख्या की जाती हैं, अलग-अलग काउंटरटेम्पल की उपज होती हैं)।
तो वहाँ कई counterexample डेटा सेट है कि एक गलतफहमी विरोधाभास हो सकता है।
जैसा कि आप अनुमान लगा सकते हैं, मैं इस तरह के प्रतिवादों का निर्माण अक्सर (जैसा कि कई अन्य लोग करते हैं), आमतौर पर आवश्यकता के रूप में होता है। इन सामान्य गलतफहमियों में से कुछ के लिए, आप इस तरह से प्रतिपक्षों को चिह्नित कर सकते हैं कि नई इच्छाएं उत्पन्न हो सकती हैं (हालांकि अधिक बार, एक निश्चित स्तर का काम शामिल है)।
यदि आपकी रुचि के कुछ विशेष प्रकार हैं, तो मैं इस तरह के सेट (मेरा या अन्य लोगों का) का पता लगाने में सक्षम हो सकता हूं, या शायद कुछ का निर्माण भी कर सकता हूं।
यादृच्छिक रिग्रेशन डेटा बनाने के लिए एक उपयोगी ट्रिक जिसमें गुणांक है जो आप चाहते हैं वह निम्नानुसार है (कोष्ठक में हिस्सा आर कोड की एक रूपरेखा है):
क) बिना शोर के आप चाहते हैं कि गुणांक सेट करें ( y = b0 + b1 * x1 + b2 * x2
)
ख) वांछित विशेषताओं के साथ त्रुटि शब्द उत्पन्न करना ( n = rnorm(length(y),s=0.4
)
ग) उसी x पर शोर का एक प्रतिगमन स्थापित करें ( nfit = lm(n~x1+x2)
)
घ) इसमें से अवशेषों को y चर ( y = y + nfit$residuals
) में जोड़ें
किया हुआ। (पूरी बात वास्तव में आर की कुछ पंक्तियों में की जा सकती है)