स्फूर्त सहसंबंध का अपेक्षित मूल्य


12

हम एक सामान्य वितरण से नमूने, प्रत्येक आकार स्वतंत्र रूप से खींचते हैं ।एन ( μ , σ 2 )Nn(μ,σ2)

से नमूने हम तो 2 नमूने जो उच्चतम (पूर्ण) पियर्सन एक दूसरे के साथ संबंध हो चुनें।N

इस सहसंबंध का अपेक्षित मूल्य क्या है?

धन्यवाद [पुनश्च यह होमवर्क नहीं है]


2
(+1) यह काफी चुनौतीपूर्ण होमवर्क प्रश्न :-) बना देगा। यदि आप एक सामान्य जवाब की जरूरत है या आप (शायद) के विशिष्ट मूल्यों पर अपना ध्यान केन्द्रित कर सकता है या ? उदाहरण के लिए, यह संभव हो सकता है कि जब की तुलना में अधिक बड़ा हो तो अच्छे अनुमानों को विकसित किया जा सके ; अन्य मामलों में विभिन्न सन्निकटन की आवश्यकता होगी। एन एन एनNnnN
whuber

1
मैं एक सामान्य उत्तर की उम्मीद कर रहा था, लेकिन एक जहाँ धारणा ठीक होगा! के विशिष्ट मानों के लिए और , यह बहुत दिलचस्प नहीं होगा, जैसा कि मैंने अनुकरण द्वारा इस तरह के विशिष्ट मामलों देख सकते हैं (जो की मैं इस समय क्या कर रहा है), लेकिन यह अभी भी ब्याज की हो सकती है। एन एनn>>NNn
पी सेलाज़

1
मुझे लगता है कि किसी भी वास्तविक उपयोगिता का एक सामान्य समाधान संभवतः संभव नहीं है, हालांकि मुझे गलत किया जा सकता है। यह ज्यामिति और रैखिक बीजगणित के इंटरफेस में कुछ खुली समस्याओं से काफी निकटता से संबंधित है। अनुप्रयोगों में, इस तरह की मात्रा पर जानकारी की आवश्यकता उत्पन्न होती है, उदाहरण के लिए, संकुचित संवेदन में।
कार्डिनल

1
Fwiw, इस अनुकरण मैं सिर्फ चल रहे हैं का परिणाम है: सामान्य (0,1) का उपयोग कर, मैंने पाया कि मतलब सहसंबंध, (1000 से अधिक सिमुलेशन), और नमूनों की संख्या लगभग द्वारा संबंधित हैं for और एक रेखीय प्रतिगमन मॉडल का उपयोग करते हुए। मॉडल फिट और सामान्य निदान काफी अच्छे थे। मैंने यह भी पाया कि औसत सहसंबंध लगभग सामान्य रूप से वितरित किया गया था (हालांकि थोड़ा दाएं-तिरछा)। एन ρ = 0.025 + 0.113 ln ( एन ) - 0.008 ln ( एन ) 2 n = 100 4 एन nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
पी सेलाज़

जवाबों:


9

मुझे निम्नलिखित लेख मिला, जो इस समस्या को संबोधित करता है: जियांग, टिफेंग (2004)। नमूना सहसंबंध की सबसे बड़ी प्रविष्टियों के विषम वितरण। लागू होने की संभावना, 14 (2), 865-880

Ln=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
जहां को कागज में मौजूद माना जाता है और एक फ़ंक्शन है ।a=limnn/NNn

जाहिरा तौर पर यह परिणाम किसी भी वितरण वितरण के लिए पर्याप्त परिमित क्षणों के साथ होता है ( संपादित करें: नीचे @ कार्डिनल की टिप्पणी देखें)। जियांग बताते हैं कि यह एक प्रकार I चरम मूल्य वितरण है। स्थान और पैमाने हैं

σ=2,μ=2log(1a28π).

टाइप- I EV वितरण का अपेक्षित मान , जहां Gamma Eul's स्थिरांक को दर्शाता है। हालाँकि, जैसा कि टिप्पणियों में कहा गया है, वितरण में अभिसरण स्वयं के वितरण के साधनों के अभिसरण की गारंटी नहीं देता है।μ+σγγ

यदि हम इस मामले में ऐसा कोई परिणाम दिखा सकते हैं, तोअपेक्षित मानहोगाnLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

ध्यान दें कि यह सबसे बड़े वर्ग के सहसंबंध के असममित अपेक्षित मूल्य देगा, जबकि सबसे बड़ी पूर्ण सहसंबंध के अपेक्षित मूल्य के लिए पूछा गया प्रश्न। तो वहाँ 100% नहीं, लेकिन करीब।

मैंने कुछ संक्षिप्त सिमुलेशन किए जो मुझे या तो सोचने के लिए प्रेरित करते हैं 1) मेरे सिमुलेशन (संभावना) के साथ एक समस्या है, 2) मेरे ट्रांसक्रिप्शन / बीजगणित (भी संभावना है, या 3) के साथ एक समस्या है कि सन्निकटन के लिए मान्य नहीं है के मूल्यों और मैं का इस्तेमाल किया। शायद इस सन्निकटन का उपयोग करते हुए ओपी कुछ सिमुलेशन परिणामों के साथ वजन कर सकता है?nN


2
और एक तरफ: मुझे वास्तव में यह सवाल पसंद आया - मैंने पहले इस सवाल के बारे में सोचा है। मैं टाइप-आई वितरण के कनेक्शन से हैरान था - मैंने पाया कि यह बहुत अच्छा है। काश मैं इसे समझने की गणित को समझ
पाता

1
(+1) अच्छा लगा !! मुझे लगता है कि हम मान सकते हैं कि इस का सकारात्मक वर्गमूल सबसे बड़े पूर्ण सहसंबंध के अपेक्षित मूल्य के बराबर है? अपेक्षा के लिए आपकी अभिव्यक्ति में, हम केवल को शामिल करने के लिए सभी भागों को बाहर नहीं निकाल सकते हैं : ? वैसे भी, मैंने इसकी तुलना अपने सिमुलेशन से की है और यह काफी करीब लग रहा है! मेरा आर कोड वास्तव में मैला है, इसलिए मैं इसे आज या कल बाद में साफ करने की कोशिश करूंगा और इसे पोस्ट करूंगा ...Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
पी सेलाज़

BTW, पेपर यहाँ से सीधे उपलब्ध है projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz

3
(+1) यह बहुत अच्छा पेपर है, और मैंने केवल इसे स्किम्ड किया है, लेकिन हमें यहां थोड़ा सावधान रहने की जरूरत है। कुछ टिप्पणी: ( 1 ) परिणाम शासन के लिए हैं , इसलिए वैक्टर के आयाम इन परिणामों पर विचार के तहत वैक्टर की संख्या के लिए लगभग आनुपातिक बढ़ रहा है रोके रखना। ( 2 ) इस मामले में भी, परिणाम "किसी भी" वितरण के लिए नहीं हैं; वास्तव में, कागज में शर्तों की आवश्यकता होती है कि यादृच्छिक चर "लगभग घातीय रूप से बंधे हुए" होते हैं, इस अर्थ में कि हमें अनिवार्य रूप से 30 वें क्षण की आवश्यकता होती है! (cont।)n/pγ(0,)
कार्डिनल

3
(cont।) ( 3 ) वितरण में रूपांतरण सीमित वितरण के साधनों के अभिसरण की गारंटी नहीं देता है। उसके लिए, हम सामान्य रूप से सेट के सेट की एकरूपता के लिए कुछ समान का उपयोग करते हैं । यह कागज में नहीं दिखाया गया है और, अत्यधिक मूल्य वितरण से निपटने के बाद से, यह सच नहीं हो सकता है। इस घटना का मेरा पसंदीदा उदाहरण यादृच्छिक चर का एक क्रम है जो वितरण में एक में परिवर्तित होता है , लेकिन किसी भी सकारात्मक निरंतर को चुनने के लिए साधन बनाया जा सकता है। {Ln}χ12
कार्डिनल

2

@Jmtroos द्वारा प्रदान किए गए उत्तर के आगे, नीचे मेरे सिमुलेशन के विवरण हैं, और @ jmtroos की अपेक्षा जियांग (2004) से उम्मीद की व्युत्पत्ति के साथ एक तुलना है:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

इस उम्मीद के मूल्यों छोटे के लिए नकली मूल्यों से ऊपर होने लगते हैं और नीचे बड़े के लिए और वे के रूप में थोड़ा भिन्न दिखाई देते हैं बढ़ जाती है। हालाँकि, अंतर बढ़ने से कम हो जाता है, क्योंकि हम उम्मीद करेंगे कि पेपर का दावा है कि वितरण विषम है। मैंने विभिन्न की कोशिश की है । नीचे दिए गए सिमुलेशन में का उपयोग किया गया है । मैं आर के लिए बहुत नया हूं, इसलिए मेरे कोड को बेहतर बनाने के लिए किसी भी संकेत या सुझाव का गर्मजोशी से स्वागत किया जाएगा।NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

मेरी टिप्पणियों को अन्य उत्तर में देखें, जो आपके द्वारा नोट की गई कुछ विसंगतियों को समझाने में मदद कर सकते हैं (या नहीं)।
कार्डिनल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.