एक सटीक परिणाम प्राप्त करने के लिए आवश्यक गणित गड़बड़ है, लेकिन हम अपेक्षाकृत कम दर्द रहित अपेक्षित वर्ग सहसंबंध गुणांक के लिए एक सटीक मान प्राप्त कर सकते हैं । यह समझाने में मदद करता है कि पास का मान क्यों दिखाता रहता है और यादृच्छिक चलने की लंबाई बढ़ने से चीजें क्यों नहीं बदल जाएंगी।1/2n
मानक शर्तों के बारे में भ्रम की संभावना है। प्रश्न में संदर्भित पूर्ण सहसंबंध, इसे बनाने वाले आँकड़ों के साथ-साथ संस्करण और सहसंयोजक - ऐसे सूत्र हैं जो किसी भी यादृच्छिक वाक्यों की प्राप्ति के किसी भी जोड़े पर लागू हो सकते हैं । सवाल यह है कि जब हम कई स्वतंत्र वास्तविकताओं को देखते हैं तो क्या होता है। उसके लिए, हमें रैंडम वॉक प्रक्रिया पर अपेक्षाएँ रखने की आवश्यकता है ।
(संपादित करें)
इससे पहले कि हम आगे बढ़ें, मैं आपके साथ कुछ चित्रमय अंतर्दृष्टि साझा करना चाहता हूं। स्वतंत्र रैंडम वॉक की एक जोड़ी दो आयामों में एक रैंडम वॉक है। हम प्रत्येक से तक जाने वाले पथ को प्लॉट कर सकते हैं । यदि यह पथ नीचे की ओर झुकता है (बाएं से दाएं, सामान्य XY कुल्हाड़ियों पर प्लॉट किया जाता है) तो सहसंबंध के निरपेक्ष मूल्य का अध्ययन करने के लिए , चलो सभी मानों को नकार दें । प्लॉट चलता कुल्हाड़ियों देने के लिए आकार पर और मूल्यों मानक विचलन के बराबर और मिलाती हैं कम से कम वर्गों के फिट के लिए(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX। इन रेखाओं के ढलान सहसंबंध गुणांक के पूर्ण मान होंगे, जो हमेशा और बीच स्थित होते हैं ।01
यह आंकड़ा ऐसे चलता है, जिनमें से प्रत्येक की लंबाई (मानक सामान्य अंतर के साथ) है। छोटे खुले सर्कल उनके शुरुआती बिंदुओं को चिह्नित करते हैं। डार्क सर्कल उनके अंतिम स्थानों को चिह्नित करते हैं।15960
ये ढलान बहुत बड़े होते हैं। इसके कई बिंदुओं का एकदम बेतरतीब बिखराव हमेशा ढलान को शून्य के बहुत करीब होगा। यदि हमें यहां उभरने वाले पैटर्न का वर्णन करना था, तो हम कह सकते हैं कि अधिकांश 2D यादृच्छिक चलता धीरे-धीरे एक स्थान से दूसरे स्थान पर स्थानांतरित हो जाता है। (ये जरूरी नहीं कि उनके शुरुआती और समापन बिंदु वाले स्थान हों, हालाँकि!) लगभग आधा समय, तब, यह प्रवास विकर्ण दिशा में होता है - और ढलान तदनुसार उच्च होता है।
इस पोस्ट के बाकी हिस्से में इस स्थिति का विश्लेषण है।
एक यादृच्छिक चलना के आंशिक योगों का एक क्रम है जहाँ स्वतंत्र रूप से वितरित शून्य-माध्य चर वितरित करते हैं। उनका सामान्य विचरण ।(Xi)(W1,W2,…,Wn)Wiσ2
इस तरह के चलने के एक साकार में, "विचरण" की गणना की जाएगी जैसे कि यह कोई डेटासेट था:x=(x1,…,xn)
V(x)=1n∑(xi−x¯)2.
इस मान की गणना करने का एक अच्छा तरीका सभी चुकता अंतरों का आधा औसत लेना है:
V(x)=1n(n−1)∑j>i(xj−xi)2.
जब को चरणों के यादृच्छिक वॉक के परिणाम के रूप में देखा जाता है , तो इस बात की उम्मीद हैxXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
मतभेद IID चर के योग हैं,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
वर्ग का विस्तार करें और अपेक्षाएं लें। क्योंकि स्वतंत्र हैं और शून्य साधन हैं, सभी क्रॉस शब्दों की अपेक्षाएं शून्य हैं। यह जैसे शब्दों को छोड़ देता है , जिसकी अपेक्षा । इस प्रकारWkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
यह आसानी से इस प्रकार है
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
दो स्वतंत्र अहसासों के बीच सहसंयोजक और - डेटासेट के अर्थ में, यादृच्छिक चर नहीं - एक ही तकनीक के साथ गणना की जा सकती है (लेकिन इसके लिए अधिक बीजीय कार्य की आवश्यकता है; एक चौगुनी राशि शामिल है)। परिणाम यह है कि सहसंयोजक का अपेक्षित वर्ग हैxy
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
नतीजतन, और बीच चौकोर सहसंबंध गुणांक की उम्मीद , चरणों के लिए निकाली गई है , हैXYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
हालांकि यह स्थिर नहीं है, यह तेजी से सीमित मूल्य तक । इसकी वर्गाकार जड़, लगभग , इसलिए के अपेक्षित निरपेक्ष मान का अनुमान (और इसे कम करती है)।9/400.47ρ(n)
मुझे यकीन है कि मैंने कम्प्यूटेशनल त्रुटियां की हैं, लेकिन सिमुलेशन असममित सटीकता को सहन करते हैं। निम्नलिखित परिणामों में प्रत्येक सिमुलेशन के लिए के हिस्टोग्राम दिखाते हैं , ऊर्ध्वाधर लाल रेखाएं दिखाती हैं जबकि धराशायी नीली रेखाएं सूत्र का मान दिखाती हैं। स्पष्ट रूप से यह गलत है, लेकिन asymptotically यह सही है। जाहिर तौर पर का संपूर्ण वितरण वृद्धि के रूप में एक सीमा तक पहुंच रहा है । इसी प्रकार, वितरण(जो ब्याज की मात्रा है) एक सीमा तक पहुंच जाएगा।ρ2(n)1000ρ2(n)n|ρ(n)|
यह R
आंकड़ा बनाने के लिए कोड है।
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}