जब डेटा में एक गाऊसी वितरण होता है, तो कितने नमूने इसकी विशेषता होगी?


12

गॉसियन डेटा को एक ही आयाम में वितरित करने के लिए इसे (माध्य, विचरण) को चिह्नित करने के लिए दो मापदंडों की आवश्यकता होती है, और अफवाह यह है कि लगभग 30 यादृच्छिक रूप से चयनित नमूने आमतौर पर इन मापदंडों का अनुमान लगाने के लिए पर्याप्त रूप से उच्च आत्मविश्वास के साथ पर्याप्त हैं। लेकिन जैसे-जैसे आयाम बढ़ते हैं, क्या होता है?

दो आयामों (जैसे ऊंचाई, वजन) में "सर्वश्रेष्ठ-फिट" दीर्घवृत्त को निर्दिष्ट करने के लिए 5 पैरामीटर लगते हैं। तीन आयामों में, यह एक दीर्घवृत्त का वर्णन करने के लिए 9 मापदंडों तक बढ़ जाता है, और 4-डी में यह 14 पैरामीटर लेता है। मुझे यह जानने में रुचि है कि क्या इन मापदंडों का अनुमान लगाने के लिए आवश्यक नमूनों की संख्या भी धीमी दर पर या उच्च दर पर (कृपया नहीं!) पर तुलनीय दर से बढ़ जाती है। बेहतर अभी भी, अगर अंगूठे का एक व्यापक रूप से स्वीकृत नियम था जो बताता है कि किसी दिए गए संख्या आयामों में एक गौसियन वितरण को चिह्नित करने के लिए कितने नमूनों की आवश्यकता होती है, तो यह जानना अच्छा होगा।

अधिक सटीक होने के लिए, मान लीजिए कि हम सममित बिंदु पर केंद्रित एक सममित "सर्वश्रेष्ठ-फिट" सीमा को परिभाषित करना चाहते हैं जिसके अंदर हम आश्वस्त हो सकते हैं कि सभी नमूनों का 95% गिर जाएगा। मैं जानना चाहता हूं कि इस सीमा (लगभग 1-डी में अंतराल, 2-डी में दीर्घवृत्त, आदि) के लिए उपयुक्त रूप से उच्च (> 95%) आत्मविश्वास के साथ पैरामीटर खोजने में कितने नमूने लग सकते हैं, और यह संख्या किस प्रकार भिन्न होती है आयामों की संख्या बढ़ जाती है।


3
'पिन डाउन' की पर्याप्त रूप से सटीक परिभाषा के बिना, इस सवाल का जवाब देना संभव नहीं है यहां तक ​​कि एक अविभाज्य गौसियन के लिए भी।
Glen_b -Reinstate मोनिका

1
कैसे के बारे में: कितने नमूने लेने के लिए कम से कम 95% आश्वस्त होना चाहिए कि सभी नमूनों का 95% (लेकिन सभी नमूनों में से केवल 95%) एक परिभाषित अंतराल / दीर्घवृत्त / दीर्घवृत्त / हाइपरलिपोसिड के भीतर होगा?
ओमाताई

1
यह कहना है ... सभी नमूनों का 95% मतलब की कुछ परिभाषित दूरी के भीतर होगा। 95% या बेहतर आत्मविश्वास के साथ उस दूरी (अंतराल / दीर्घवृत्त / दीर्घवृत्त / आदि) को परिभाषित करने के लिए कितने नमूनों की आवश्यकता है?
ओमाताई

1
जैसे ही आपके पास एक से अधिक स्वतंत्र डेटा मूल्य होते हैं, पैरामीटर ( आयामों में मान ) होते हैं, आप उनके चारों ओर 95% विश्वास क्षेत्र बना सकते हैं। ( गैर-पारंपरिक तकनीकों का उपयोग करके कोई भी बेहतर कर सकता है ।) यह एक उत्तर है - यह एक निश्चित है - लेकिन यह शायद वह नहीं है जो आप खोज रहे हैं। मुद्दा यह है कि आपको इस प्रश्न का उत्तर प्राप्त करने के लिए वांछित सटीकता के कुछ पूर्ण पैमाने को निर्धारित करना होगा। (d+22)d
whuber

1
Snedecor & Cochran [ सांख्यिकीय तरीके , 8 वें संस्करण] नमूनाकरण के अधिकारी हैं। वे अध्याय 4 और 6 में इस प्रक्रिया का वर्णन करते हैं: "हम पहले मान लेते हैं कि जनसंख्या मानक विचलन ... ज्ञात है।" बाद में वे लिखते हैं, "यह विधि इसलिए काम की एक प्रारंभिक अवस्था में सबसे उपयोगी है। ... उदाहरण के लिए, पिछले छोटे प्रयोगों ने संकेत दिया है कि एक नया उपचार लगभग 20% की वृद्धि देता है और लगभग 7% है। । अन्वेषक ... [चाहता है एक] के एसई 2% और इस तरह सेट , दे रही है ... यह ... अक्सर उपयोगी है बाद में काम में।σDσ±2(7)/n=2n=25
whuber

जवाबों:


7

एक बहुभिन्नरूपी सामान्य वितरण के मापदंडों का अनुमान लगाने के लिए आवश्यक डेटा की मात्रा एक निश्चित आत्मविश्वास के भीतर निर्दिष्ट आयाम के साथ भिन्न नहीं होती है, अन्य सभी चीजें समान हैं। इसलिए आप दो आयामी आयामों के लिए अंगूठे के किसी भी नियम को बिना किसी बदलाव के लागू कर सकते हैं।

क्यों करना चाहिए? केवल तीन प्रकार के पैरामीटर हैं: साधन, संस्करण, और सहसंयोजक। किसी माध्यम में अनुमान की त्रुटि केवल भिन्नता और डेटा की मात्रा पर निर्भर करती है, । इस प्रकार, जब का एक बहुभिन्नरूपी सामान्य वितरण होता है और में variances , तो के अनुमान केवल और पर निर्भर करते हैं । जिस कारण से, आकलन में पर्याप्त सटीकता प्राप्त करने के लिए सभी , हम केवल के लिए आवश्यक डेटा की मात्रा विचार करने की जरूरत होने सबसे बड़ा कीn(X1,X2,,Xd)Xiσi2E[Xi]σinE[Xi]Xiσi। इसलिए, जब हम बढ़ती आयामों के लिए आकलन समस्याओं का एक उत्तराधिकार मनन , सभी हम विचार करने की जरूरत है कि कितना बड़ा है में वृद्धि होगी। जब ये पैरामीटर ऊपर बंधे होते हैं, तो हम निष्कर्ष निकालते हैं कि आवश्यक डेटा की मात्रा आयाम पर निर्भर नहीं करती है।dσi

इसी तरह के विचार variances और covariances का अनुमान लगाने के लिए लागू होते हैं : यदि एक निश्चित सटीकता के लिए एक सहसंयोजक (या सहसंबंध गुणांक) का आकलन करने के लिए डेटा की एक निश्चित राशि पर्याप्त होती है, तो - अंतर्निहित सामान्य वितरण समान है पैरामीटर मान - किसी भी सहसंयोजक या सहसंबंध गुणांक के आकलन के लिए डेटा की समान मात्रा पर्याप्त होगी ।σi2σij


इस तर्क के लिए अनुभवजन्य समर्थन प्रदान करने के लिए, आइए कुछ सिमुलेशन का अध्ययन करें। निम्नलिखित निर्दिष्ट आयामों के एक बहुराष्ट्रीय वितरण के लिए पैरामीटर बनाता है, उस वितरण से वैक्टर के कई स्वतंत्र, समान रूप से वितरित सेटों को खींचता है, इस तरह के प्रत्येक नमूने से मापदंडों का अनुमान लगाता है, और (1) उनके औसत के संदर्भ में उन पैरामीटर अनुमानों के परिणामों को सारांशित करता है। -प्रदर्शन के दौरान वे निष्पक्ष हैं (और कोड सही ढंग से काम कर रहा है - और (2) उनके मानक विचलन, जो अनुमानों की सटीकता को निर्धारित करते हैं। (इन मानक विचलन को भ्रमित न करें, जो कई से अधिक अनुमानों के बीच भिन्नता की मात्रा निर्धारित करते हैं। सिमुलेशन के पुनरावृत्तियों, मानक विचलन के साथ अंतर्निहित बहुराष्ट्रीय वितरण को परिभाषित करने के लिए उपयोग किया जाता है!d परिवर्तन, बशर्ते कि परिवर्तन के रूप में , हम अंतर्निहित बहुराष्ट्रीय वितरण में बड़े भिन्नताओं का परिचय न दें।d

अंतर्निहित वितरण के प्रकारों के आकार को इस अनुकरण में बराबर सहसंयोजक मैट्रिक्स का सबसे बड़ा आइगेनवेल्यू बनाकर नियंत्रित किया जाता है । यह संभावना घनत्व "बादल" को सीमा के भीतर रखता है क्योंकि आयाम बढ़ता है, इससे कोई फर्क नहीं पड़ता कि इस बादल का आकार क्या हो सकता है। प्रणाली के व्यवहार के अन्य मॉडलों के आयामों के रूप में आयाम बढ़ जाता है बस eigenvalues ​​उत्पन्न कर रहे हैं बदलकर बनाया जा सकता है; एक उदाहरण (एक गामा वितरण का उपयोग करके) नीचे दिए गए कोड में टिप्पणी की गई है।1R

हम जिस चीज की तलाश कर रहे हैं, वह यह सत्यापित करना है कि पैरामीटर अनुमानों के मानक विचलन आयाम के बदले जाने पर सराहनीय रूप से नहीं बदलते हैं। इसलिए मैं दो चरम सीमाओं, के लिए परिणाम बताते हैं और , डेटा की समान राशि (का उपयोग करते हुए दोनों ही मामलों में)। यह उल्लेखनीय है कि बराबर होने पर अनुमानित मापदंडों की संख्या, वैक्टर की संख्या ( ) से अधिक है और यहां तक कि संपूर्ण डेटासेट में व्यक्तिगत संख्या ( ) से अधिक है।dd=2d=6030d=601890303060=1800

चलो दो आयामों से शुरू करते हैं, । पांच पैरामीटर हैं: दो संस्करण ( इस सिमुलेशन में और मानक विचलन के साथ ), एक सहसंयोजक (एसडी = ), और दो साधन (एसडी = और )। विभिन्न सिमुलेशन के साथ (यादृच्छिक बीज के शुरुआती मूल्य को बदलकर प्राप्त करने वाले) ये थोड़ा भिन्न होंगे, लेकिन नमूना आकार होने पर वे लगातार तुलनात्मक आकार के होंगे । उदाहरण के लिए, अगले सिमुलेशन में एसडी , , , औरd=20.0970.1820.1260.110.15n=300.0140.2630.0430.040.18, क्रमशः: वे सभी बदल गए लेकिन परिमाण के तुलनीय आदेश हैं।

(इन बयानों को सैद्धांतिक रूप से समर्थन दिया जा सकता है लेकिन यहाँ बिंदु विशुद्ध रूप से अनुभवजन्य प्रदर्शन प्रदान करना है।)

अब हम , नमूना आकार को पर रखते हैं । विशेष रूप से, इसका मतलब है कि प्रत्येक नमूने में वैक्टर होते हैं , प्रत्येक में घटक होते हैं। सभी मानक विचलन की सूची के बजाय , आइए उनकी सीमाओं को चित्रित करने के लिए हिस्टोग्राम का उपयोग करते हुए उनके चित्रों को देखें।d=60n=3030601890

आकृति

शीर्ष पंक्ति में बिखराव इस सिमुलेशन में पुनरावृत्तियों के दौरान किए गए औसत अनुमानों के वास्तविक मापदंडों sigma( ) और ( ) की तुलना करते हैं । ग्रे संदर्भ लाइनें सही समानता के स्थान को चिह्नित करती हैं: स्पष्ट रूप से अनुमान इरादा के अनुसार काम कर रहे हैं और निष्पक्ष हैं।σmuμ104

हिस्टोग्राम नीचे की पंक्ति में दिखाई देते हैं, कोविर्सियस मैट्रिक्स में सभी प्रविष्टियों के लिए अलग-अलग (बाएं) और साधन (दाएं) के लिए। व्यक्ति की एसडीएस प्रसरण के बीच झूठ के लिए करते हैं और है, जबकि की एसडीएस सहप्रसरण अलग घटकों के बीच के बीच झूठ के लिए करते हैं और : रेंज में वास्तव में हासिल की जब । इसी तरह, औसत अनुमानों के एसडी और बीच झूठ बोलते हैं , जो होने पर जो देखा गया था, उसकी तुलना में है । निश्चित रूप से कोई संकेत नहीं है कि एसडी रूप में बढ़े हैं0.080.120.040.08d=20.080.13d=2dसे ऊपर चला गया करने के लिए ।260

कोड इस प्रकार है।

#
# Create iid multivariate data and do it `n.iter` times.
#
sim <- function(n.data, mu, sigma, n.iter=1) {
  #
  # Returns arrays of parmeter estimates (distinguished by the last index).
  #
  library(MASS) #mvrnorm()
  x <- mvrnorm(n.iter * n.data, mu, sigma)
  s <- array(sapply(1:n.iter, function(i) cov(x[(n.data*(i-1)+1):(n.data*i),])), 
        dim=c(n.dim, n.dim, n.iter))
  m <-array(sapply(1:n.iter, function(i) colMeans(x[(n.data*(i-1)+1):(n.data*i),])), 
            dim=c(n.dim, n.iter))
  return(list(m=m, s=s))
}
#
# Control the study.
#
set.seed(17)
n.dim <- 60
n.data <- 30    # Amount of data per iteration
n.iter <- 10^4  # Number of iterations
#n.parms <- choose(n.dim+2, 2) - 1
#
# Create a random mean vector.
#
mu <- rnorm(n.dim)
#
# Create a random covariance matrix.
#
#eigenvalues <- rgamma(n.dim, 1)
eigenvalues <- exp(-seq(from=0, to=3, length.out=n.dim)) # For comparability
u <- svd(matrix(rnorm(n.dim^2), n.dim))$u
sigma <- u %*% diag(eigenvalues) %*% t(u)
#
# Perform the simulation.
# (Timing is about 5 seconds for n.dim=60, n.data=30, and n.iter=10000.)
#
system.time(sim.data <- sim(n.data, mu, sigma, n.iter))
#
# Optional: plot the simulation results.
#
if (n.dim <= 6) {
  par(mfcol=c(n.dim, n.dim+1))
  tmp <- apply(sim.data$s, 1:2, hist)
  tmp <- apply(sim.data$m, 1, hist)
}
#
# Compare the mean simulation results to the parameters.
#
par(mfrow=c(2,2))
plot(sigma, apply(sim.data$s, 1:2, mean), main="Average covariances")
abline(c(0,1), col="Gray")
plot(mu, apply(sim.data$m, 1, mean), main="Average means")
abline(c(0,1), col="Gray")
#
# Quantify the variability.
#
i <- lower.tri(matrix(1, n.dim, n.dim), diag=TRUE)
hist(sd.cov <- apply(sim.data$s, 1:2, sd)[i], main="SD covariances")
hist(sd.mean <- apply(sim.data$m, 1, sd), main="SD means")
#
# Display the simulation standard deviations for inspection.
#
sd.cov
sd.mean

1

कुछ संक्षिप्त अंक एक मानक सामान्य वितरण से बनाए गए 30 नमूनों के फिट के लिए निम्नलिखित त्रुटि वितरण देता है फिर एक यूनीवेट गौसियन के लिए फिट होता है।

यहाँ छवि विवरण दर्ज करें

चतुर्थांश संकेत कर रहे हैं। यह माना जाता है कि बहु-आयामी मामले में भिन्नता का यह स्तर वांछित है।

मेरे पास कुल परिणाम प्राप्त करने के लिए माटलैब को हरा देने का समय नहीं है, इसलिए मैं अपने "नियम" को साझा करूंगा। 30 को अंगूठे के नियम के रूप में प्रदान किया जाता है, या अनुमान के अनुसार इसलिए यह माना जाता है कि उत्तराधिकार अस्वीकार्य नहीं हैं।

मेरा अनुमान है कि पास्कल के त्रिभुज का अविभाजित मामले से गुणा करना है। यहाँ छवि विवरण दर्ज करें

अगर मैं 2d डेटा का उपयोग कर रहा हूं तो मैं दूसरी पंक्ति में जाता हूं और 2x को नमूने की संख्या, या 60 नमूने प्राप्त करने के लिए योग करता हूं। 3 डी डेटा के लिए मैं तीसरी पंक्ति में जाता हूं और इसे 4x प्राप्त करने के लिए नमूने या 120 नमूनों की संख्या प्राप्त करता हूं। 5d डेटा के लिए मैं 5 वीं पंक्ति में जाता हूं और 16x को नमूने, या 480 नमूने प्राप्त करने के लिए योग करता हूं।

शुभकामनाएँ।

संपादित करें:

यह सहज था, लेकिन गणित में सब कुछ बचाव करना होगा। मैं सिर्फ एक बॉलपार्क प्राप्त करने के लिए अनुभव के साथ परिमित तत्वों से बहुपद रूपों के निर्माण से छलांग नहीं ले सकता।

पास्कल के त्रिकोण की पंक्ति के योग का समीकरण । kth2k

यहाँ दृष्टिकोण के लिए मेरा विचार कम नमूनों वाले कम आयामी वितरण के लिए अधिक नमूनों के साथ उच्च-आयामी वितरण के एआईसी की बराबरी करना है।

Akaike Information Criterion (AIC) को रूप में परिभाषित किया गया है, जहां वर्गों का अवशिष्ट योग है, नमूना गणना है, और मॉडल के लिए पैरामीटर गणना है । AIC=nlog(RSSn)+2kRSSnk

AIC1=AIC2

n1log(RSS1n1)+2k1=n2log(RSS2n2)+2k2

प्रत्येक आयाम के लिए जिसे हम समाप्त करते हैं, इसका मतलब है कि माध्य एक पंक्ति खो देता है और सहसंयोजक पंक्ति और स्तंभ दोनों खो देता है। हम इसे राज्य कर सकते हैं

k(d)=d2+d

का

k(d+1)k(d)=2d+2

नमूना बिंदु के अनुसार त्रुटि को मानने से लगातार वर्गों की अवशिष्ट राशि नमूना संख्या से संबंधित होती है, और लघुगणक में शब्द स्थिर रहता है। सैंपल काउंट में अंतर एक स्केलिंग स्थिरांक बन जाता है।

तो हमारे पास:

n1A+2(k2+2d+2)=n2A+2k2

आयाम के साथ नमूनों में वृद्धि के लिए हल देता है:

n2n1=(2(k2+2d+2)2k2)A1=(4d+4)A1

तो स्केलिंग फ़ंक्शन क्या है? मान लें कि 2-आयामी बहुभिन्नरूपी गॉसियन के लिए आवश्यक नमूनों की संख्या प्रति पैरामीटर 15 है। सहसंयोजक के 2 साधन और 4 तत्व हैं इसलिए 6 पैरामीटर या 90 नमूने हैं। अंतर 60 नमूने हैं, । A1=5

यहाँ छवि विवरण दर्ज करें

इस बिंदु पर मैं कहूंगा कि हेयुरिस्टिक थोड़ा कम शुरू होता है, लेकिन आवश्यक 2x की संख्या के बारे में 2x होने पर समाप्त होता है। मेरी व्यक्तिगत राय में इसकी सर्वश्रेष्ठ उपयोगिता की सीमा, लगभग 4 आयाम या तो है।

संपादित करें:

इसलिए मैंने @ वाउबर का उत्तर पढ़ा है और मुझे यह पसंद आया। यह अनुभवजन्य है, और इस मामले में यह आधिकारिक है। मैंने उसके जवाब के लिए मतदान किया।

निम्नलिखित में मैं चर्चा करने का प्रयास कर रहा हूं और ~ 300 से अधिक वर्णों का उपयोग करने में सक्षम होने की उम्मीद कर रहा हूं, और मैं चित्रों को एम्बेड करने में सक्षम होने की उम्मीद कर रहा हूं। इसलिए मैं उत्तर की सीमा के भीतर चर्चा कर रहा हूं। मुझे उम्मीद है कि यह ठीक है।

मैं इस बिंदु पर आश्वस्त नहीं हूं कि इसके लिए एआईसी का उपयोग, या नमूना आकार और पैरामीटर आकार का उपयोग कैसे गलत था।

अगला कदम:

  • व्हिबर के परिणामों को दोहराएं, उन्हें अनुभवजन्य रूप से पुष्टि करें
  • AIC का परीक्षण करें, कम से कम कुछ कलाकारों की टुकड़ी में, यह पुष्टि करने के लिए कि क्या यह उचित है
  • यदि एआईसी उचित है, तो तर्क में दोष का पीछा करने के लिए अनुभवजन्य तरीकों का उपयोग करने का प्रयास करें।

टिप्पणियाँ और सुझाव का स्वागत करते हैं।


4
क्या आप अपने अनुमान के लिए कुछ औचित्य प्रदान कर सकते हैं?
whuber

1
और क्या आप पुष्टि कर सकते हैं कि 5 वीं पंक्ति का योग वास्तव में 16 है?
ओमाताई

1 + 4 + 6 + 4 + 1 = 1 + 10 + 5 = 16. इसके बारे में क्षमा करें। 16 22. मुझे जोड़ते ही आधा सो गया होगा।
EngrStudent

1
आप मापदंडों की संख्या के लिए के साथ कैसे आते हैं ? वह बहुत दूर है। उदाहरण के लिए, घटकों के साथ केवल मापदंडों की आवश्यकता होती है ( साधनों के लिए, सहवास, और सहसंबंध)। यह समझा सकता है कि आपकी सिफारिश इतनी असाधारण उच्च नमूना आकार के लिए क्यों बुलाती है! 2d+12d=9549936
whuber

1
@ जब भी, मुझे पता चलता है कि मैं अपनी त्रुटियों से (अपने जानने के बाद) अपने सही होने से ज्यादा सीखता हूं। हैरानी की बात है कि गलत होना बिलकुल ठीक लगता है, जब तक कि मैं जानता हूं कि मैं गलत हूं। धन्यवाद। ted.com/talks/kathryn_schulz_on_being_wrong.html
EngrStudent
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.