उच्च पी मान के साथ मजबूत सहसंबंध गुणांक का उदाहरण


21

मैं सोच रहा था, क्या उच्च पी मान (जैसे .25 या अधिक) के साथ एक बहुत मजबूत सहसंबंध गुणांक (कहना। 9 या अधिक) होना संभव है?

यहाँ उच्च पी मान के साथ कम सहसंबंध गुणांक का एक उदाहरण दिया गया है:

set.seed(10)
y <- rnorm(100)
x <- rnorm(100)+.1*y
cor.test(x,y)

cor = 0.03908927, p = 0.6994

उच्च सहसंबंध गुणांक, कम p मान:

y <- rnorm(100)
x <- rnorm(100)+2*y
cor.test(x,y)

cor = 0.8807809, p = 2.2e-16

निम्न सहसंबंध गुणांक, कम p मान:

y <- rnorm(100000)
x <- rnorm(100000)+.1*y
cor.test(x,y)

cor = 0.1035018, p = 2.2e-16

उच्च सहसंबंध गुणांक, उच्च पी मान: ???

जवाबों:


36

तल - रेखा

नमूना सहसंबंध गुणांक की परिकल्पना को खारिज करने के लिए आवश्यक है कि सही (पीयरसन) सहसंबंध गुणांक शून्य है काफी छोटा हो जाता है जैसा कि नमूना आकार बढ़ता है। तो, सामान्य तौर पर, नहीं, आप एक साथ बड़े (परिमाण में) सहसंबंध गुणांक और एक साथ बड़े अंतराल नहीं कर सकते हैंp

शीर्ष पंक्ति (विवरण)

फ़ंक्शन में पियर्सन सहसंबंध गुणांक के लिए उपयोग किया जाने वाला परीक्षण नीचे चर्चा की गई विधि का थोड़ा संशोधित संस्करण है।Rcor.test

मान लीजिए सहसंबंध ρ के साथ सामान्य बेतरतीब वैक्टर हैं । हम शून्य परिकल्पना का परीक्षण करना चाहते हैं कि ρ = 0 बनाम ρ n 0 । चलो आर नमूना सहसंबंध गुणांक हो। मानक रैखिक-प्रतिगमन सिद्धांत का उपयोग करना, यह दिखाना मुश्किल नहीं है कि परीक्षण सांख्यिकीय, टी = आर ression(X1,Y1),(X2,Y2),,(Xn,Yn)ρρ=0ρ0r एक हैटीएन-2शून्य परिकल्पना के तहत वितरण। बड़ेएन के लिए,टीn-2वितरण मानक सामान्य दृष्टिकोण। इसलिएटी2स्वतंत्रता की एक डिग्री के साथ वितरित लगभग ची-वर्ग है। (मान्यताओं के तहत हमारे द्वारा किए गए,टी2~एफ1,एन-2वास्तविकता में, लेकिनχ21सन्निकटन स्पष्ट करता है क्या, पर जा रहा है मुझे लगता है।)

T=rn2(1r2)
tn2ntn2T2T2F1,n2χ12

तो, जहां क्ष 1 - α है ( 1 - α ) स्वतंत्रता से एक डिग्री के साथ एक ची-वर्ग वितरण के quantile।

P(r21r2(n2)q1α)α,
q1α(1α)

अब, ध्यान दें कि के रूप में बढ़ती जा रही है आर 2 बढ़ जाती है। संभाव्यता कथन में मात्रा का पुनरावर्तन, हम सभी के लिए है | आर | r2/(1r2)r2 हम स्तरαपर शून्य परिकल्पना की अस्वीकृति प्राप्त करेंगे। स्पष्ट रूप से दाईं ओर का भागn केसाथ घटता है।

|r|11+(n2)/q1α
αn

एक साजिश

यहाँ अस्वीकृति क्षेत्र का एक भूखंड है नमूना आकार के एक समारोह के रूप में। इसलिए, उदाहरण के लिए, जब नमूना आकार 100 से अधिक हो जाता है, तो (निरपेक्ष) सहसंबंध केवल α = 0.05 स्तर पर नल को अस्वीकार करने के लिए लगभग 0.2 होना चाहिए ।|r|α=0.05

एक अनुकरण

हम एक सटीक सहसंबंध गुणांक के साथ शून्य-मीन वैक्टर की एक जोड़ी उत्पन्न करने के लिए एक सरल सिमुलेशन कर सकते हैं । नीचे कोड है। इससे हम आउटपुट पर देख सकते हैं cor.test

k <- 100
n <- 4*k

# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho  <- 1/sqrt(1+(n-2)/qval)

# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)

# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2

# Do test
ctst <- cor.test(x,y)

जैसा कि टिप्पणियों में अनुरोध किया गया है, यहां प्लॉट को पुन: पेश करने के लिए कोड है, जिसे ऊपर दिए गए कोड के तुरंत बाद चलाया जा सकता है (और वहां परिभाषित कुछ चर का उपयोग करता है)।

png("cortest.png", height=600, width=600)
m  <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
     xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()

1
तो - नीचे की रेखा क्या है? मुझे लगता है कि आप कह रहे हैं कि, जब तक कि नमूना का आकार छोटा नहीं होता है, एक उच्च सहसंबंध मूल्य का अर्थ कम पी-मूल्य होता है - लेकिन मुझे लगता है कि यह स्पष्ट रूप से वर्तनी में मदद करेगा।
डीडब्ल्यू

p

@ कार्डिनल, क्या आप, आपके द्वारा उत्पन्न ग्राफ के लिए स्रोत कोड पोस्ट कर सकते हैं?
aL3xa

@ डीडब्ल्यू, मैंने आपकी चिंताओं को दूर करने का प्रयास किया है। यदि आपको ऐसे सुधार दिखाई देते हैं जो किए जा सकते हैं, तो कृपया मुझे बताएं।
कार्डिनल

1
@ aL3xa: मैंने अपने द्वारा उपयोग किए गए प्लॉटिंग कोड को जोड़ दिया है। उम्मीद है की यह मदद करेगा।
कार्डिनल

17
cor.test(c(1,2,3),c(1,2,2))

cor = 0.866, p = 0.333


6
@Zach: कृपया अपने चेक पर पुनर्विचार करने के लिए स्वतंत्र महसूस करें कि कार्डिनल और शबाइकफेफ ने पूर्ण उत्तर देने के लिए समय लिया है।
हारून - मोनिका

11

एक उच्च पी-मूल्य के साथ सहसंबंध गुणांक का एक उच्च अनुमान केवल एक बहुत ही छोटे नमूना आकार के साथ हो सकता है। मैं एक चित्रण प्रदान करने वाला था, लेकिन हारून ने ऐसा किया है!


9

1/n3ρ^>0p

p=22Φ(atanh(ρ^)n3),
ΦH0:ρ=0

nρ^p

 #get n for sample correlation and p-value, 2-sided test of 0 correlation
 n.size <- function(rho.hat,p.val) {
   n <- 3 + ((qnorm(1 - 0.5 * p.val)) / atanh(rho.hat))^2
 }

ρ^=0.5p=0.2

print(n.size(0.5,0.2))

[१] ].४४३०६२

n,pρ^


1

हाँ। एक पी-मूल्य नमूना आकार पर निर्भर करता है, इसलिए एक छोटा नमूना यह दे सकता है।

कहते हैं कि सही प्रभाव का आकार बहुत छोटा था, और आप एक छोटा सा नमूना बनाते हैं। भाग्य से, आपको बहुत अधिक सहसंबंध के साथ कुछ डेटा बिंदु मिलते हैं। पी-मूल्य अधिक होगा, जैसा कि यह होना चाहिए। सहसंबंध अधिक है, लेकिन यह बहुत भरोसेमंद परिणाम नहीं है।

R's cor () से नमूना सहसंबंध आपको सहसंबंध (नमूना दिया गया) का सबसे अच्छा अनुमान बताएगा। पी-मूल्य सहसंबंध की ताकत को मापता नहीं है। यह मापता है कि नमूना के आकार को देखते हुए वास्तव में इसका कोई प्रभाव नहीं होने की संभावना थी।

इसे देखने का एक और तरीका: यदि आपके पास एक ही प्रभाव आकार है, लेकिन अधिक नमूने प्राप्त करें, तो पी-मूल्य हमेशा शून्य हो जाता है।

(यदि आप अनुमान के बारे में अनुमानित प्रभाव आकार और आत्मविश्वास की धारणाओं को अधिक बारीकी से एकीकृत करना चाहते हैं, तो आत्मविश्वास अंतराल का उपयोग करना बेहतर हो सकता है; या, बेयसियन तकनीकों का उपयोग करें।)


α=0.050.9 से अधिक सहसंबंधों के लिए x <- seq(0,4); y <- seq(0,4) + rnorm(5); cor.test(x,y):।
n
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.