जनसंख्या आर-वर्ग परिवर्तन पर विश्वास अंतराल कैसे प्राप्त करें


10

एक साधारण उदाहरण के लिए मान लें कि दो रैखिक प्रतिगमन मॉडल हैं

  • मॉडल 1 है तीन भविष्यवक्ताओं, x1a, x2b, औरx2c
  • मॉडल 2 में मॉडल 1 से तीन और दो अतिरिक्त भविष्यवक्ता हैं x2aऔरx2b

वहाँ एक जनसंख्या प्रतिगमन समीकरण जहां जनसंख्या विचरण समझाया है मॉडल 1 के लिए और मॉडल 2. के लिए वृद्धिशील विचरण मॉडल 2 द्वारा में आबादी है समझाया ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ(1)2ρ(2)2Δρ2=ρ(2)2ρ(1)2

मैं एक अनुमानक के लिए मानक त्रुटियों और विश्वास अंतराल प्राप्त करने में रुचि रखता हूं । जबकि उदाहरण में क्रमशः 3 और 2 भविष्यवक्ता शामिल हैं, मेरे शोध हित में भविष्यवक्ताओं की विभिन्न संख्याओं (जैसे, 5 और 30) की एक विस्तृत श्रृंखला है। मेरा पहला विचार था कि एक अनुमानक के रूप में करें और इसे बूटस्ट्रैप करें, लेकिन मुझे यकीन नहीं था कि यह है या नहीं उपयुक्त रहें। Δ आर 2 एक j = आर 2 एक j ( 2 ) - आर 2 एक j ( 1 )Δρ2Δradj2=radj(2)2radj(1)2

प्रशन

  • क्या का उचित अनुमानक है ? Δ ρ 2Δradj2Δρ2
  • जनसंख्या आर-वर्ग परिवर्तन (यानी, ) के लिए एक विश्वास अंतराल कैसे प्राप्त किया जा सकता है ?Δρ2
  • क्या विश्वास अंतराल गणना के लिए बूटस्ट्रैपिंग उपयुक्त होगा?Δρ2

सिमुलेशन या प्रकाशित साहित्य का कोई भी संदर्भ भी सबसे स्वागत योग्य होगा।

उदाहरण कोड

यदि यह मदद करता है, तो मैंने R में एक छोटा सिमुलेशन डेटासेट बनाया, जिसका उपयोग उत्तर प्रदर्शित करने के लिए किया जा सकता है:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

बूटस्ट्रैप के साथ चिंता का कारण

मैंने लगभग 300 मामलों के साथ कुछ डेटा पर एक बूटस्ट्रैप चलाया, और सरल मॉडल में 5 भविष्यवक्ताओं और पूर्ण मॉडल में 30 भविष्यवक्ताओं। जबकि समायोजित आर-स्क्वायर अंतर का उपयोग करते हुए नमूना अनुमान था 0.116, बढ़ाया आत्मविश्वास अंतराल ज्यादातर बड़े CI95% (0.095 से 0.214) थे और बूटस्ट्रैप का मतलब नमूना अनुमान के पास कहीं नहीं था। बल्कि नमूने में आर-वर्गों के बीच अंतर के नमूने के अनुमान पर केंद्रित नमूनों को बढ़ावा दिया गया है। यह इस तथ्य के बावजूद है कि मैं अंतर का अनुमान लगाने के लिए नमूना समायोजित आर-वर्गों का उपयोग कर रहा था।

दिलचस्प बात यह है कि, मैंने एक वैकल्पिक तरीका कंप्यूटिंग रूप में देखाΔρ2

  1. नमूना आर-वर्ग परिवर्तन की गणना करें
  2. मानक समायोजित आर-वर्ग सूत्र का उपयोग करके नमूना आर-वर्ग परिवर्तन समायोजित करें

नमूना डेटा के लिए आवेदन किया जब इस के अनुमान को कम किया करने के लिए , लेकिन विश्वास के अंतराल 0.118 के औसत के साथ विधि मैं पहली बार उल्लेख किया है, CI95% (0.062, 0.179) के लिए उपयुक्त लग रहा था।Δρ2.082

मोटे तौर पर, मुझे चिंता है कि बूटस्ट्रैपिंग मानती है कि नमूना आबादी है, और इसलिए अनुमान है कि ओवरफिटिंग के लिए कम उचित रूप से प्रदर्शन नहीं कर सकता है।


"हालांकि, मुझे चिंता है कि इस तरह की आबादी समायोजित मूल्य बूटस्ट्रैपिंग समस्याग्रस्त हो सकती है।" -- क्यों?
जनवरी

@January मैंने सवाल संपादित किया है और समायोजित आर-स्क्वायर के साथ बूटस्ट्रैपिंग के बारे में मेरी चिंता को स्पष्ट करने की कोशिश की है।
जेरोमे एंग्लीम

जनसंख्या R वर्ग कितना है ? मैंने यहां दी गई परिभाषा पर एक नज़र , लेकिन मेरे लिए variance कोई मतलब नहीं है क्योंकि पहचान के रूप में वितरित नहीं हैं। y मैंσy2yi
स्टीफन लॉरेंट

@ StéphaneLaurent यह जनसंख्या प्रतिगमन समीकरण द्वारा जनसंख्या में समझाया गया विचरण का प्रतिशत है। या आप इसे असमान रूप से परिभाषित कर सकते हैं क्योंकि आपके नमूने में विचरण के अनुपात को समझाया गया है क्योंकि आपका नमूना आकार अनन्तता के निकट आता है। जनसंख्या आर-वर्ग के निष्पक्ष अनुमानों के संबंध में यह उत्तर भी देखें । यह मनोविज्ञान में विशेष रूप से प्रासंगिक है जहां हम वास्तव में हमारे अनुमानित भविष्यवाणी समीकरण को लागू करने के बजाय सच्चे रिश्ते में अधिक रुचि रखते हैं।
जेरोमे एंग्लीम

3
एक एफ-परीक्षण को परिकल्पना परीक्षण के रूप में सोचा जा सकता है । क्या आप जिस मानक त्रुटि और विश्वास अंतराल की तलाश कर रहे हैं, उसे प्राप्त कर सकते हैं? Δρ2=0
मार्टेन ब्यूस

जवाबों:


3

R2

मैं सबसे पहले R-squared की आबादी की परिभाषा को समझने की कोशिश कर रहा हूं ।

अपनी टिप्पणी उद्धृत करते हुए:

या आप इसे असमान रूप से परिभाषित कर सकते हैं क्योंकि आपके नमूने में समझाया गया विचरण के अनुपात के रूप में आपका नमूना आकार अनंत तक पहुंचता है।

R2

तो नमूना for के असममित मूल्य के लिए सूत्र क्या है ? अपने रेखीय मॉडल लिखें में के रूप में https://stats.stackexchange.com/a/58133/8402 , और इस लिंक के रूप में ही अंकन का उपयोग करें। फिर एक जाँच कर सकते हैं कि नमूना को जाता है जब एक मॉडल प्रतिकृति असीम कई बार।Y = μ + σ जी आर 2 पी पी आर 2 : = λR²Y=μ+σG
R2 Y=μ+σजीpopR2:=λn+λY=μ+σG

उदाहरण के रूप में:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

एक सबमॉडल की जनसंख्याR2

अब मान लें कि मॉडल साथ और । एच1:μडब्ल्यू1एच0:μडब्ल्यू0Y=μ+σGH1:μW1H0:μW0

तब मैं ने कहा इसके बाद के संस्करण कि जनसंख्या मॉडल की है जहां और और फिर एक के पास ।एच 1 पी पी आर 2 1 : = λ 1R2H1popR12:=λ1n+λ1 जेड1=[1]डब्ल्यू1पीजेड1μ2=Σ(μमैं-ˉμ)2λ1=PZ1μ2σ2Z1=[1]W1PZ1μ2=(μiμ¯)2

अब आप आबादी को परिभाषित करना के उप- मॉडल की asymptotic मूल्य के रूप में मॉडल के संबंध में गणना की लेकिन मॉडल के वितरणात्मक इस धारणा के तहत ? स्पर्शोन्मुख मूल्य (अगर वहाँ एक है) और अधिक मुश्किल लगता है।एच आर एच एच R2 H0R2H0H1


धन्यवाद स्टीफन। मुझे आपके बारे में एक विचार रखना होगा कि आप क्या कह रहे हैं। अपने प्रश्न के संबंध में। मुझे लगता है कि सही डेटा जनरेट करने की प्रक्रिया ज्ञात नहीं है, लेकिन यह दोनों मॉडल के लिए समान है, लेकिन यह कि मॉडल 1 और रैखिक 2 में रैखिक प्रतिगमन द्वारा समझाया गया विचरण का सही अनुपात है
जेरेमी एंग्लिम

इस पेपर का @JeromyAnglim Formula (A3) एक तरफ़ा ANOVA मॉडल के लिए मेरे सूत्र का एक विशेष मामला है। इसलिए मेरा सूत्र की सामान्य परिभाषा होनी चाहिए , लेकिन यह वह नहीं है जो आप अपने ओपी में उपयोग कर रहे हैं। R2
स्टीफन लॉरेंट

1
@JeromyAnglim इस पत्र का अध्ययन आपको जो कुछ भी ढूंढ रहा है उसके करीब लगता है (यादृच्छिक भविष्यवक्ताओं के साथ)।
स्टीफन लॉरेंट

धन्यवाद। अल्जीना, केसलमैन और पेनफील्ड पेपर बहुत उपयोगी लगते हैं। मैंने इसके बारे में अपने जवाब में कुछ टिप्पणियां जोड़ीं
जेरोमे एंग्लीम

@JeromyAnglim तो भविष्यवक्ताओं के बारे में क्या धारणा है? वे एक बहुभिन्नरूपी गौसियन वितरण के अनुसार उत्पन्न होते हैं?
स्टीफन लॉरेंट

1

आपके द्वारा पूछे गए प्रश्न का उत्तर देने के बजाय, मैं यह पूछने जा रहा हूं कि आप उस प्रश्न को क्यों पूछते हैं। मुझे लगता है कि आप जानना चाहते हैं

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

कम से कम जितना अच्छा है

mod.large <- lm(y ~ ., data=x)

समझाने पर y। चूंकि इन मॉडलों को नेस्ट किया जाता है, इसलिए इस प्रश्न का उत्तर देने का स्पष्ट तरीका उनकी तुलना करने वाले विचरण का विश्लेषण करना प्रतीत होगा, उसी तरह जैसे आप दो जीएलएम के लिए विचलन का विश्लेषण चला सकते हैं, जैसे

anova(mod.small, mod.large)

तब आप मॉडल के बीच नमूना आर-स्क्वायर सुधार का उपयोग कर सकते हैं, जो कि जनसंख्या में फिट सुधार क्या होगा, इस पर आपका सबसे अच्छा अनुमान है, हमेशा यह मानते हुए कि आप आबादी को आर-स्क्वेर्ड समझ सकते हैं। व्यक्तिगत रूप से मुझे यकीन नहीं है कि मैं कर सकता हूं, लेकिन इसके साथ भी कोई फर्क नहीं पड़ता।

आम तौर पर, यदि आप जनसंख्या मात्रा में रुचि रखते हैं, तो आप सामान्य रूप से सामान्यीकरण में रुचि रखते हैं, इसलिए एक नमूना फिट माप काफी नहीं है जो आप चाहते हैं, हालांकि 'सही'। उदाहरण के लिए, कुछ मात्राओं का क्रॉस-वैरिफिकेशन जो अनुमान लगाता है कि वास्तविक त्रुटियों की मात्रा और मात्रा, जो आप एमएसएमई की तरह नमूना बनाने की उम्मीद कर सकते हैं, जो आप चाहते हैं, वह आपको प्राप्त होगी।

लेकिन यह बहुत संभव है कि मुझे यहाँ कुछ याद आ रहा है ...


मैं आपके उत्तर की सराहना करता हूं, और यह दूसरों के लिए अच्छी सलाह हो सकती है। लेकिन मेरे शोध संदर्भ का अर्थ है कि मैं डेल्टा-आरएचओ वर्ग में वैध रूप से दिलचस्पी रखता हूं। जबकि अधिकांश सांख्यिकीविद अक्सर एक मॉडल (जैसे, क्रॉस-वैलिडेटेड डेल्टा आर-स्क्वायर) की भविष्य कहनेवाला उपयोगिता से अधिक चिंतित होते हैं, मैं एक मनोवैज्ञानिक वैज्ञानिक हूं और विशेष रूप से जनसंख्या संपत्ति में दिलचस्पी रखता हूं। इसके अलावा, मुझे सुधार के सांख्यिकीय महत्व में कोई दिलचस्पी नहीं है। मुझे सुधार के आकार में दिलचस्पी है। और मुझे पता है कि डेल्टा-आर-स्क्वायर सुधार के उस आकार को अनुक्रमित करने के लिए एक उपयोगी मीट्रिक है।
जेरोमे एंग्लीम जूल

एमएसई के संबंध में, मनोविज्ञान में विभिन्न अध्ययन बहुत भिन्न मैट्रिक्स पर उपायों का उपयोग करते हैं। इस प्रकार, आर-स्क्वायर जैसे मानकीकृत उपायों के लिए एक आकर्षण, सही या गलत है।
जेरोमे एंग्लीम जूल

पर्याप्त रूप से उचित, विशेष रूप से MSE पर। मैं बूटस्ट्रैपिंग और जनसंख्या अनुमान में दिलचस्पी से थोड़ा भ्रमित हूं लेकिन परीक्षण में रुचि की कमी, शायद भोलेपन से, ये समान रूप से संबोधित समान चिंताएं हैं। मुझे जनसंख्या के संबंध में नमूना भविष्यवाणी से कसकर अलग करने में भी कठिनाई हो रही है, लेकिन यह संभवतया पूर्व-कॉफी घुटने-झटका बायेसिज्म (जहां भविष्यवाणी सिर्फ एक और जनसंख्या अनुमान समस्या है) रास्ते में हो रही है।
कंजगेटैपर

शायद मैंने कुछ जल्दी बोल दिया। मेरे शोध के संदर्भ में, अक्सर बहुत सारे सबूत हैं कि डेल्टा-आरएच-वर्ग शून्य से अधिक है। ब्याज का सवाल यह है कि वृद्धि की डिग्री क्या है। यानी, यह एक तुच्छ वृद्धि या सैद्धांतिक रूप से सार्थक वृद्धि है। इस प्रकार, विश्वास या विश्वसनीय अंतराल मुझे उस वृद्धि के आसपास अनिश्चितता का अनुमान देते हैं। मुझे अभी तक यह समझ में नहीं आया है कि मैं बायेसियन आंकड़ों की अपनी समझ के साथ यहाँ क्या कर रहा हूँ, लेकिन मैं चाहूँगा।
जेरोमे एंग्लीम

1

निम्नलिखित पर विश्वास अंतराल की गणना के लिए कुछ संभावनाओं का प्रतिनिधित्व करते हैं ।ρ2

डबल समायोजित आर-स्क्वायर बूटस्ट्रैप

एक उत्तर में मेरा वर्तमान सबसे अच्छा अनुमान एक डबल समायोजित आर-स्क्वायर बूटस्ट्रैप करना है। मैंने तकनीक लागू कर दी है। इसमें निम्नलिखित शामिल हैं:

  • वर्तमान डेटा से बूटस्ट्रैप नमूनों का एक सेट उत्पन्न करें।
  • प्रत्येक बूटस्ट्रैप्ड नमूने के लिए:
    • दो मॉडलों के लिए पहले समायोजित आर-वर्ग की गणना करें
    • पिछले चरण से समायोजित आर-वर्ग मानों पर दूसरे समायोजित आर-वर्ग की गणना करें
    • मॉडल 2 से दूसरे मॉडल को समायोजित करें r- वर्ग मानों को का अनुमान लगाने के लिए ।Δρ2

औचित्य यह है कि पहले समायोजित आर-स्क्वायर बूटस्ट्रैपिंग द्वारा पेश किए गए पूर्वाग्रह को हटाता है (यानी, बूटस्ट्रैपिंग मानती है कि नमूना आर-स्क्वायर जनसंख्या आर-स्क्वायर है)। दूसरा समायोजित आर-स्क्वायर मानक सुधार करता है जो जनसंख्या आर-स्क्वायर का अनुमान लगाने के लिए एक सामान्य नमूने पर लागू होता है।

इस बिंदु पर, मैं यह देख सकता हूं कि इस एल्गोरिथ्म को लागू करने से अनुमान लगता है कि सही के बारे में प्रतीत होता है (यानी, बूटस्ट्रैप में थीटा_हाट नमूना थीटा_हट के बहुत करीब है)। मानक त्रुटि मेरे अंतर्ज्ञान के साथ संरेखित होती है। मैंने अभी तक परीक्षण नहीं किया है कि क्या यह उचित लगातार कवरेज प्रदान करता है जहां डेटा बनाने की प्रक्रिया ज्ञात है, और मैं इस बिंदु पर भी पूरी तरह से निश्चित नहीं हूं कि तर्क को पहले सिद्धांतों से कैसे उचित ठहराया जा सकता है

यदि किसी को कोई भी कारण दिखाई देता है कि यह दृष्टिकोण समस्याग्रस्त क्यों होगा, तो मैं इसके बारे में सुनकर आभारी रहूंगा।

एलगिना एट अल द्वारा सिमुलेशन

स्टेफेन ने अल्जीना, केसेलमैन और पेनफील्ड के लेख का उल्लेख किया। उन्होंने आकलन करने के लिए बूटस्ट्रैपिंग और एसिम्प्टोटिक विधियों के 95% विश्वास अंतराल कवरेज की जांच करने के लिए एक सिमुलेशन अध्ययन किया । उनके बूटस्ट्रैपिंग तरीकों में आर-स्क्वायर के दोहरे समायोजन के बजाय समायोजित आर-स्क्वायर का केवल एक ही अनुप्रयोग शामिल था, जो मैं ऊपर उल्लेख करता हूं। उन्होंने पाया कि बूटस्ट्रैप का अनुमान केवल अच्छा कवरेज प्रदान करता है जब पूर्ण मॉडल में अतिरिक्त भविष्यवाणियों की संख्या एक या शायद दो थी। यह मेरी परिकल्पना है कि ऐसा इसलिए है क्योंकि जैसे ही भविष्यवक्ताओं की संख्या बढ़ती है, वैसे ही सिंगल और डबल समायोजित आर-स्क्वायर बूटस्ट्रैप के बीच अंतर होगा।Δρ2

नॉनसेंटरलिटी पैरामीटर का उपयोग करने पर स्मिथसन (2001)

स्मिथसन (2001) गैर-केंद्रीयता पैरामीटर के आधार पर आंशिक लिए आत्मविश्वास अंतराल की गणना करने पर चर्चा करता है । विशेष रूप से पृष्ठ 615 और 616 देखें। वह सुझाव देते हैं कि "यह और आंशिक लिए CI का निर्माण करने के लिए सीधा है, लेकिन वर्गीय अर्धवार्षिक सहसंबंध के लिए नहीं।" (p.615)एफ 2 आर 2R2f2R2

संदर्भ

  • अल्जीना, जे।, केसलमैन, एचजे, और पेनफील्ड, आरसी कॉन्फिडेंस इंटरव्यूज़ फॉर द स्क्वॉयरेड मल्टीपल सेमीपार्टियल कोरेलेशन गुणांक। पीडीएफ
  • स्मिथसन, एम। (2001)। विभिन्न प्रतिगमन प्रभाव आकारों और मापदंडों के लिए सही आत्मविश्वास अंतराल: कंप्यूटिंग अंतराल में गैर-केंद्रीय वितरण का महत्व। शैक्षिक और मनोवैज्ञानिक मापन, 61 (4), 605-632।

1
ऐसा लगता है कि यहां कोई भी (आप सहित) आपकी आबादी की परिभाषा को नहीं जानता है। इसलिए IMHO यह एक गंभीर समस्याग्रस्त दृष्टिकोण है।
स्टीफन लॉरेंट

@ StéphaneLaurent इसके लिए धन्यवाद। मैं स्वीकार करता हूं कि इस बिंदु तक मैंने जनसंख्या आर-वर्ग को विवाद की संपत्ति के रूप में नहीं देखा है। उदाहरण के लिए, मैं एक डेटा जनरेट करने की प्रक्रिया प्रस्तावित कर सकता हूं और एक आर-स्क्वायर होगा जिसे मेरे सिमुलेशन नमूने के आकार के रूप में संपर्क किया जाता है। और इसी तरह मैं मानता हूं कि मेरे डेटा के लिए डेटा जनरेट करने की प्रक्रिया है, और इसलिए यदि यह एक अनन्त नमूना प्राप्त करना संभव था, तो मैं सही जनसंख्या आर-स्क्वायर की गणना कर सकता था।
जेरोमी एंग्लीम

हां, लेकिन मैं इस धारणा के तहत हूं कि आप भविष्यवक्ताओं के लिए एक जनरेटिंग प्रक्रिया भी मानते हैं। मैं यह नहीं समझ सकता कि यह सामान्य रैखिक मॉडल के लिए कैसे समझ में आता है।
स्टीफन लॉरेंट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.