ए) उस डिग्री का सबसे अच्छा एकल सूचकांक क्या है जिससे डेटा सामान्यता का उल्लंघन करता है?
बी) या सामान्यता उल्लंघन के कई सूचकांकों के बारे में बात करना बेहतर है (उदाहरण के लिए, तिरछापन, कुर्तोसिस, आउटलाइव प्रचलन)?
मैं बी को वोट दूंगा। अलग-अलग उल्लंघनों के अलग-अलग परिणाम होते हैं। उदाहरण के लिए, भारी पूंछ के साथ असमान, सममित वितरण आपके CI को बहुत व्यापक बनाते हैं और संभवतः किसी भी प्रभाव का पता लगाने के लिए शक्ति को कम करते हैं। हालांकि, इसका मतलब है, अभी भी "विशिष्ट" मूल्य हिट है। बहुत तिरछा वितरण के लिए, उदाहरण के लिए, "विशिष्ट मूल्य" का एक बहुत समझदार सूचकांक नहीं हो सकता है।
ग) सूचकांक के लिए विश्वास अंतराल की गणना कैसे की जा सकती है (या शायद बायेसियन दृष्टिकोण)?
मैं बायेसियन आंकड़ों के बारे में नहीं जानता, लेकिन सामान्यता के शास्त्रीय परीक्षण के विषय में, मैं एर्सग-हर्न एट अल का हवाला देना चाहूंगा। (2008) [2]:
एक और समस्या यह है कि धारणा परीक्षणों की अपनी धारणाएँ हैं। सामान्यता के परीक्षण आमतौर पर यह मानते हैं कि डेटा होमोसिस्टैस्टिक हैं; समरूपता के परीक्षण यह मानते हैं कि डेटा सामान्य रूप से वितरित किया जाता है। यदि सामान्यता और समरूपता मान्यताओं का उल्लंघन किया जाता है, तो धारणा परीक्षणों की वैधता को गंभीरता से समझौता किया जा सकता है। प्रमुख सांख्यिकीविदों ने धारणा परीक्षणों (जैसे, लेवेने का परीक्षण, कोलमोगोरोव-स्मिर्नोव परीक्षण) को एसपीएसएस जैसे सॉफ्टवेयर में मोटे तौर पर त्रुटिपूर्ण बनाया है और सिफारिश की है कि इन परीक्षणों का कभी उपयोग नहीं किया जाता है (डायगोस्टिनो, 1986; ग्लास & हॉपकिंस, 1996)।
डी) सामान्यता के उल्लंघन की डिग्री (उदाहरण के लिए, हल्के, मध्यम, मजबूत, चरम, आदि) को इंगित करने के लिए आप उस सूचकांक पर किस तरह के मौखिक लेबल दे सकते हैं?
माइसेरी (1989) [1] ने मनोविज्ञान में 440 बड़े पैमाने पर डेटा सेट का विश्लेषण किया। उन्होंने समरूपता और पूंछ के वजन और परिभाषित मानदंडों और लेबल का आकलन किया। असममितता के लिए लेबल 'अपेक्षाकृत सममित' से 'मध्यम -> अति -> घातीय विषमता' तक होते हैं। पूंछ के वजन के लिए लेबल 'यूनिफ़ॉर्म -> गॉसियन से कम -> गॉसियन के बारे में -> मॉडरेट -> एक्सट्रीम -> डबल घातीय संदूषण'। प्रत्येक वर्गीकरण कई, मजबूत मानदंडों पर आधारित है।
उन्होंने पाया कि इन 440 डेटा सेटों में से केवल 28% अपेक्षाकृत सममित थे, और केवल 15% पूंछ भार के बारे में गाऊसी के बारे में थे। इसलिए कागज का अच्छा शीर्षक:
गेंडा, सामान्य वक्र, और अन्य असंभव जीव
मैंने एक R
फ़ंक्शन लिखा , जो स्वचालित रूप से Micceri के मानदंडों का आकलन करता है और लेबल को प्रिंट करता है:
# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
library(fBasics)
QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))
n <- length(x)
x.s <- sort(x)
U05 <- mean(x.s[(.95*n ):n])
L05 <- mean(x.s[1:(.05*n)])
U20 <- mean(x.s[(.80*n):n])
L20 <- mean(x.s[1:(.20*n)])
U50 <- mean(x.s[(.50*n):n])
L50 <- mean(x.s[1:(.50*n)])
M25 <- mean(x.s[(.375*n):(.625*n)])
Q <- (U05 - L05)/(U50 - L50)
Q1 <- (U20 - L20)/(U50 - L50)
Q2 <- (U05 - M25)/(M25 - L05)
# mean/median interval
QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))
SKEW <- skewness(x)
if (plot==TRUE) plot(density(x))
tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)
cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
1.8, 2.3, 2.5, 2.8, 3.3,
1.6, 1.85, 1.93, 2, 2.3,
1.9, 2.5, 2.65, 2.73, 3.3,
1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)
cat.sym <- matrix(c(0.31, 0.71, 2,
0.05, 0.18, 0.37,
1.25, 1.75, 4.70), ncol=3, nrow=3)
ts <- c()
for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}
ss <- c()
for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}
tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")
slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")
cat("Tail weight indexes:\n")
print(tail_weight)
cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
cat("\n\nAsymmetry indexes:\n")
print(symmetry)
cat(paste("\nMicceri category:", slabels[max(ss)]))
tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
sym.cat <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)
invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}
यहाँ मानक सामान्य वितरण के लिए एक परीक्षण है, 8 df के साथ एक , और एक लॉग-सामान्य:t
> micceri(rnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
2.86 2.42 1.88 2.59 1.76
Micceri category: About Gaussian
Asymmetry indexes:
Skewness MM.75% Q2
0.01 0.00 1.00
Micceri category: Relatively symmetric
> micceri(rt(10000, 8))
Tail weight indexes:
97.5% 95% 90% Q Q1
3.19 2.57 1.94 2.81 1.79
Micceri category: Extreme contamination
Asymmetry indexes:
Skewness MM.75% Q2
-0.03 0.00 0.98
Micceri category: Relatively symmetric
> micceri(rlnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
6.24 4.30 2.67 3.72 1.93
Micceri category: Double exponential contamination
Asymmetry indexes:
Skewness MM.75% Q2
5.28 0.59 8.37
Micceri category: Exponential asymmetry
[१] मिसेरी, टी। (१ ९ i ९)। गेंडा, सामान्य वक्र, और अन्य असंभव जीव। मनोवैज्ञानिक बुलेटिन, 105 , 156-166। डोई: 10.1037 / 0033-2909.105.1.156
[२] एर्सग-हर्न, डीएम, और मिरोसेविच, वीएम (२००))। आधुनिक मजबूत सांख्यिकीय तरीके: अपने शोध की सटीकता और शक्ति को अधिकतम करने का एक आसान तरीका। अमेरिकी मनोवैज्ञानिक, 63 , 591-601।