प्रतिगमन एफ परीक्षण की शक्ति क्या है?

11

बहुस्तर प्रतिगमन में चर के सबसेट के लिए शास्त्रीय एफ-परीक्षण में जहां 'कम' मॉडल के तहत चुकता त्रुटियों का योग है, जो 'बिग' मॉडल अंदर घोंसला हैं , और स्वतंत्रता की डिग्री हैं दो मॉडल। अशक्त परिकल्पना के तहत कि 'बड़े' मॉडल में अतिरिक्त चर में कोई रेखीय व्याख्यात्मक शक्ति नहीं है, सांख्यिकीय को एफ के रूप में वितरित किया जाता है और स्वतंत्रता की डिग्री।

F = \frac{(SSE (R) - SSE (B)) / (d f_{R} - d f_{B})}{SSE (B) / d f_{B}},

$F = \frac{(\mbox{SSE}(R) - \mbox{SSE}(B))/(df_R - df_B)}{\mbox{SSE}(B)/df_B},$

SSE (R)

$\mbox{SSE}(R)$

B

$B$

d f

$df$

d f_{R} - d f_{B}

$df_R - df_B$

d f_{B}

$df_B$

हालांकि, विकल्प के तहत वितरण क्या है? मुझे लगता है कि यह एक गैर-केंद्रीय एफ है (मुझे उम्मीद है कि गैर-केंद्रीय नहीं है), लेकिन मुझे इस बात पर कोई संदर्भ नहीं मिल सकता है कि गैर-केंद्रीयता पैरामीटर क्या है। मुझे लगता है कि यह सच प्रतिगमन गुणांक पर निर्भर करता है , और शायद डिजाइन मैट्रिक्स पर निर्भर करता है , लेकिन इससे परे मुझे इतना यकीन नहीं है। $\beta$ $X$

— shabbychef
स्रोत

9

Noncentrality पैरामीटर , प्रतिबंधित मॉडल के लिए प्रक्षेपण , वास्तविक मापदंडों का वेक्टर है, अप्रतिबंधित (सच्चा) मॉडल के लिए डिजाइन मैट्रिक्स है,आदर्श है: $\delta^{2}$ $P_{r}$ $\beta$ $X$ $|| x ||$

δ^{2} = \frac{| | X β - P_{r} X β | |^{2}}{σ^{2}}

$\delta^{2} = \frac{|| X \beta - P_{r} X \beta ||^{2}}{\sigma^{2}}$

आप इस तरह सूत्र को पढ़ सकते हैं: डिजाइन मैट्रिक्स पर अपेक्षित मान सशर्त का वेक्टर है । यदि आप को एक अनुभवजन्य डेटा वेक्टर रूप में मानते हैं , तो प्रतिबंधित मॉडल उप-स्थान पर इसका प्रक्षेपण , जो आपको उस "डेटा" के लिए प्रतिबंधित मॉडल से भविष्यवाणी देता है । नतीजतन, अनुरूप है और आपको उस भविष्यवाणी की त्रुटि देता है। इसलिए उस त्रुटि के वर्गों का योग देता है। यदि प्रतिबंधित मॉडल सत्य है, तो $E(y | X) = X \beta$ $X$ $X \beta$ $y$ $P_{r} X \beta$ $\hat{y}$ $X \beta - P_{r} X \beta$ $y - \hat{y}$ $|| X \beta - P_{r} X \beta ||^{2}$ $X \beta$ पहले से ही द्वारा परिभाषित उप-क्षेत्र के भीतर है , और , जैसे कि गैर-पैरामीटर पैरामीटर । $X_{r}$ $P_{r} X \beta = X \beta$ $0$

आपको मार्दिया, केंट और बिब्बी में यह पता लगाना चाहिए। (1980)। बहुभिन्नरूपी विश्लेषण।

— कैरकल
स्रोत

महान! क्या मानक को चुकता किया जाना चाहिए? अन्यथा यह इकाइयों की तरह लगता है? आप कहते हैं कि यह 'वर्गों का योग' है, इसलिए मुझे लगता है कि यह आदर्श वर्ग है ..

— shabbychef

@shabbychef बेशक आप सही हैं, इसे पकड़ने के लिए धन्यवाद!

— कारकल

7

मैंने मोंटे कार्लो प्रयोग के साथ @ काराकल के उत्तर की पुष्टि की। मैंने एक रेखीय मॉडल (यादृच्छिक आकार के साथ) से यादृच्छिक उदाहरण उत्पन्न किए, एफ-स्टेटिस्टिक की गणना की और गैर-केंद्रीयता पैरामीटर का उपयोग करके पी-मूल्य की गणना की फिर मैंने इन p- मानों की आनुभविक cdf प्लॉट की। यदि गैर-केंद्रीयता पैरामीटर (और कोड!) सही है, तो मुझे एक निकट वर्दी cdf मिलना चाहिए, जो मामला है:

δ^{2} = \frac{| | X β_{1} - X β_{2} | |^{2}}{σ^{2}},

$\delta^2 = \frac{||X\beta_1 - X\beta_2||^2}{\sigma^2},$

सामान्य क्या होना चाहिए की अनुभवजन्य सीडीएफ

यहाँ R कोड है (शैली को क्षमा करें, मैं अभी भी सीख रहा हूँ):

#sum of squares
sum2 <- function(x) { return(sum(x * x)) }
#random integer between n and 2n
rint <- function(n) { return(ceiling(runif(1,min=n,max=2*n))) }
#generate random instance from linear model plus noise.
#n observations of p2 vector
#regress against all variables and against a subset of p1 of them
#compute the F-statistic for the test of the p2-p1 marginal variables
#compute the p-value under the putative non-centrality parameter
gend <- function(n,p1,p2,sig = 1) {
 beta2 <- matrix(rnorm(p2,sd=0.1),nrow=p2)
 beta1 <- matrix(beta2[1:p1],nrow=p1)
 X <- matrix(rnorm(n*p2),nrow=n,ncol=p2)
 yt1 <- X[,1:p1] %*% beta1
 yt2 <- X %*% beta2
 y <- yt2 + matrix(rnorm(n,mean=0,sd=sig),nrow=n)
 ncp <- (sum2(yt2 - yt1)) / (sig ** 2)
 bhat2 <- lm(y ~ X - 1)
 bhat1 <- lm(y ~ X[,1:p1] - 1)
 SSE1 <- sum2(bhat1$residual)
 SSE2 <- sum2(bhat2$residual)
 df1 <- bhat1$df.residual
 df2 <- bhat2$df.residual
 Fstat <- ((SSE1 - SSE2) / (df1 - df2)) / (SSE2 / bhat2$df.residual)
 pval <- pf(Fstat,df=df1-df2,df2=df2,ncp=ncp)
 return(pval)
}
#call the above function, but randomize the problem size (within reason)
genr <- function(n,p1,p2,sig=1) {
 use.p1 <- rint(p1)
 use.p2 <- use.p1 + rint(p2 - p1)
 return(gend(n=rint(n),p1=use.p1,p2=use.p2,sig=sig+runif(1)))
}
ntrial <- 4096
ssize <- 256
z <- replicate(ntrial,genr(ssize,p1=4,p2=10))
plot(ecdf(z))

— shabbychef
स्रोत

2

कोड के साथ अनुवर्ती के लिए +1। उसे देखकर हमेशा अच्छा लगता है।

— एमपिकटस