मिश्रित मॉडलों से भविष्यवाणियां करते समय यादृच्छिक प्रभावों में अनिश्चितता को शामिल करना क्यों मुश्किल है?


10

पर कई सूत्र हैं आर sig-एमई विश्वास के अंतराल का उपयोग कर भविष्यवाणियों के लिए प्राप्त करने के बारे lme4और nlmeउदाहरण के लिए आर में यहां और यहां 2010 में, Dougals बेट्स, दोनों संकुल के लेखकों में से एक ने कुछ टिप्पणी भी शामिल है। मैं उन्हें शब्दशः उद्धृत करने में संकोच करता हूं, क्योंकि उन्हें डर से संदर्भ से बाहर किया जाता है, लेकिन वैसे भी, वह एक टिप्पणी करता है

"आप अपनी भविष्यवाणियों में मापदंडों और यादृच्छिक चर का संयोजन कर रहे हैं और मुझे यकीन नहीं है कि उन भविष्यवाणियों की परिवर्तनशीलता का आकलन करने का क्या मतलब होगा। एक बायेसियन इसका अर्थ निकालने में सक्षम हो सकता है, लेकिन मैं इसके चारों ओर अपना सिर नहीं प्राप्त कर सकता हूं। " https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

मुझे पता है कि बायेसियन ग्लम पैकेज MCMCglmmभविष्यवाणियों के लिए विश्वसनीय अंतराल पैदा कर सकता है।

हाल ही में, lme4गिथब के विकास संस्करण को एक predictविधि दी गई है , लेकिन यह निम्नलिखित टिप्पणी के साथ है:

"@note भविष्यवाणियों की मानक त्रुटियों की गणना के लिए कोई विकल्प नहीं है क्योंकि एक कुशल विधि को परिभाषित करना मुश्किल है जो विचरण मापदंडों में अनिश्चितता को शामिल करता है, हम इस कार्य के लिए \ code {\ link {bootMer}} की अनुशंसा करते हैं।" https://github.com/lme4/lme4/blob/master/R/predict.R

तो, लगातार सेटिंग में मिश्रित मॉडल से भविष्यवाणियां करते समय यादृच्छिक प्रभावों में अनिश्चितता को शामिल करना क्यों मुश्किल है?

जवाबों:


4

मैं भविष्यवाणी विधि टिप्पणी के बारे में निश्चित नहीं हूं, लेकिन एक प्राथमिक मुद्दा आसानी से व्याख्या करने योग्य विचरण उपायों को उत्पन्न करने से संबंधित है, न कि विचरण के उपायों के प्रति। बेट्स पहले उद्धरण में टिप्पणी नहीं कर रहे हैं कि क्या आप इसे कर सकते हैं, बस इसका क्या मतलब है।

दो स्तर के दोहराया उपायों के डिजाइन का एक सरल बहु-स्तरीय मॉडल लें। मान लें कि आपके पास निम्नलिखित डेटा है जहां प्रत्येक पंक्ति एक विषय है:

यहां छवि विवरण दर्ज करें

में lmerमॉडल के रूप में व्यक्त किया जा सकता है:

y ~ x + (1|subject)

आप एक निश्चित प्रभाव (ए और बी के बीच अंतर) के रूप में x से y- मूल्य की भविष्यवाणी कर रहे हैं; और अवरोध एक यादृच्छिक प्रभाव **। ग्राफ को ध्यान से देखें और ध्यान दें कि प्रत्येक विषय के लिए x प्रभाव में परिवर्तनशीलता है (प्रत्येक पंक्ति की ढलान) यह विषयों में परिवर्तनशीलता (प्रत्येक पंक्ति की ऊंचाई) की तुलना में अपेक्षाकृत छोटा है।

मॉडल परिवर्तनशीलता के इन दो सेटों को पार्स करता है और प्रत्येक एक सार्थक है। आप लाइनों की ऊंचाइयों की भविष्यवाणी करने के लिए यादृच्छिक प्रभावों का उपयोग कर सकते हैं और ढलानों की भविष्यवाणी करने के लिए x के निश्चित प्रभावों का उपयोग कर सकते हैं। आप हमारे व्यक्तिगत y- मूल्यों को काम करने के लिए दो संयुक्त का उपयोग भी कर सकते हैं। लेकिन जब आप ऐसा नहीं कर सकते तो वास्तव में अपने मॉडल के संबंध में कुछ भी सार्थक नहीं कह सकते हैं जब आप ढलान और लाइनों की ऊंचाइयों की परिवर्तनशीलता को एक साथ जोड़ते हैं। आपको अपनी ढलान की परिवर्तनशीलता और लाइनों की ऊंचाई के बारे में अलग से बात करने की आवश्यकता है। यह मॉडल की एक विशेषता है, एक दायित्व नहीं है।

आपके पास x के प्रभाव की परिवर्तनशीलता होगी जो अपेक्षाकृत आसानी से अनुमानित है। आप एक आत्मविश्वास अंतराल के बारे में कुछ कह सकते हैं। लेकिन ध्यान दें कि, यह विश्वास अंतराल किसी विशेष y मान की भविष्यवाणी से छोटा संबंध रखने वाला है क्योंकि y मान प्रभाव और विषय विचरण के संयोजन से प्रभावित होता है जो अकेले प्रभाव की परिवर्तनशीलता से भिन्न होता है।

जब बेट्स ने ऐसी चीजें लिखी हैं, जिनके बारे में आपने कल्पना की है कि वह अक्सर बहुत अधिक जटिल बहु-स्तरीय डिज़ाइनों के बारे में सोच रहे हैं जो यह भी दृष्टिकोण नहीं करता है। लेकिन यहां तक ​​कि अगर आप इस सरल उदाहरण पर विचार करते हैं, तो आप यह सोचकर नीचे आते हैं कि सभी प्रकार के विचरण उपायों को एक साथ मिलाकर किस तरह का वास्तविक अर्थ निकाला जा सकता है।

** मैंने सादगी के लिए अवरोधन के निश्चित प्रभाव को नजरअंदाज किया और इसे एक यादृच्छिक प्रभाव के रूप में माना। आप रैंडम और फिक्स्ड इंटरसेप्ट के साथ और भी सरल मॉडल से समान निष्कर्ष निकाल सकते हैं लेकिन मुझे लगता है कि यह बताना कठिन होगा। उस मामले में, फिर से, निश्चित प्रभाव और यादृच्छिक प्रभाव को एक कारण और अलग-अलग चीजों के लिए पार्स किया जाता है और पूर्वानुमानित मूल्यों के लिए अपनी परिवर्तनशीलता को एक साथ वापस रखने के कारण उस परिवर्तनशीलता को मॉडल के संबंध में थोड़ा समझ में आता है।


तो, मैं आपको यह कहते हुए सुनता हूं कि यह उसी पुराने ढर्रे पर आता है, जिसके बारे में यह सुनिश्चित नहीं किया जाता है कि क्या हम विषय विचरण को त्रुटि के रूप में मानना ​​चाहते हैं या इसे अलग से विभाजित करना चाहते हैं और यह दिखावा नहीं करते हैं? क्या वह सही है?
russellpierce

मैंने उस पुराने आरा को कभी नहीं सुना। मैंने कभी नहीं सुना है कि आपको विषय विचलन का नाटक करना चाहिए जो मौजूद नहीं है। लेकिन मुझे लगता है कि यह इस विशेष उदाहरण से संबंधित है। मॉडल प्रसरण को पार करता है। मॉडलिंग प्रक्रिया की यह विशेषता है कि आप मॉडल को कैसे समझ सकते हैं। यदि आप विचरण को फिर से जोड़ते हैं तो आप पहले स्थान पर मॉडल के उद्देश्य को हरा रहे हैं। मैं विषय विचरण को अनदेखा नहीं कर रहा हूँ, बस विषय का यादृच्छिक प्रभाव अलग है। आप ब्लोइन और रिओपेल (2005) को पढ़ना चाहते हैं और देख सकते हैं कि जब आप विचरण को मिलाते हैं तो SE के परिवर्तनों का अर्थ क्या है।
जॉन

शायद मुझे कुछ याद आ रहा है, लेकिन यह बहुत आगे और पीछे के लोगों की तरह लगता है कि भीतर के विषय / दोहराए गए उपाय एनोवा के लिए उपयोग करने के लिए सबसे अच्छा प्रभाव क्या है और कैसे उन आत्मविश्वास अंतरालों को सबसे अच्छा प्लॉट किया जाता है ... लेकिन मुझे लगता है मैं आपने जिस चीज़ की ओर मुझे इशारा किया है, उसे पढ़ें मुझे जो भी याद आ रहा है वह मुझे याद नहीं होगा। :) धन्यवाद।
russellpierce

जैसा मैंने कहा, वे संबंधित हैं। मुझे नहीं पता था कि आगे और पीछे, एक संदर्भ देखना पसंद करेंगे। तथ्य यह है, दो CI के और प्रभाव आप विभिन्न चीजों के बारे में बात कर रहे हैं। तो, आप एक का उपयोग करते हैं जो यह बताता है कि आप क्या मतलब चाहते हैं। और आपको उन्हें समझदार बनाना होगा। [यह तर्क करना कठिन है (भले ही कुछ के पास है) कि एक सीआई को दोहराया माप डिजाइन में एक माध्य के आसपास विषय विचरण को शामिल करना और दोहराया उपायों के प्रभाव के बारे में कुछ कहना समझदार है।]
जॉन

मैंने साहित्य में कुछ भी नहीं देखा है, बस अनौपचारिक हाथ की बहुत सारी समीक्षा और यह अनुमान लगाने का प्रयास करता है कि समीक्षक डु पत्रिकाएं क्या सोचेंगी।
रुसलपिएरेस

1

लंबे समय से मुझे लगता है कि आम धारणा के बारे में सोच रहा है कि मिश्रित प्रभाव मॉडल के लिए निश्चित और यादृच्छिक प्रभावों में कुछ मूलभूत अंतर है। यह विश्वास उदाहरण के लिए निम्नलिखित प्रतिक्रिया में बेट्स द्वारा कहा गया है

https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

L(x,u)g(x,u)Pg(t)g

Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)

मेरा मानना ​​है कि कोई भी इसके साथ बहस नहीं करेगा। अब मान लें कि हमारे पास लिए एक पूर्व संभाव्यता वितरण है। तब मैं दावा करूंगा कि लिए प्रोफाइल संभावना अभी भी समझ में आता है, लेकिन हमें पूर्व को शामिल करके (1) को संशोधित करना चाहिए।p(u)g

Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
ध्यान दें कि चूंकि एक पैरामीटर है एक पूर्व यह बिल्कुल वैसा ही है जैसा कि एक यादृच्छिक प्रभाव के रूप में जाना जाता है। तो क्यों कई लोगों को लगता है कि यादृच्छिक प्रभाव पैरामीटर किसी भी तरह अलग हैं। मुझे लगता है कि अंतर उनके लिए पैरामीटर अनुमान के सामान्य अभ्यास से आता है। क्या यादृच्छिक प्रभाव `` अलग 'बनाता है कि कई मॉडलों में उनमें से एक बहुत हैं। परिणामी प्रभावों (या अन्य मापदंडों) के लिए उपयोगी अनुमान प्राप्त करने के परिणामस्वरूप यादृच्छिक प्रभावों का एक अलग तरीके से इलाज करना आवश्यक है। हम जो करते हैं, उसे मॉडल से बाहर एकीकृत करना है। उपरोक्त मॉडल में हम संभावना जहां NowuF(x)
F(x)=L(x,u)p(u)du
uचले गए हैं। इसलिए यदि हमारे पास यह किसी फ़ंक्शन लिए प्रोफ़ाइल संभावना के बारे में बात करने के लिए कोई मतलब नहीं है ।F(x)g(x,u)

तो फ़ंक्शन बारे में जानकारी प्राप्त करने के लिए हमें पैरामीटर पर एकीकृत नहीं करना चाहिए । लेकिन उस मामले में क्या होता है जहां कई यादृच्छिक प्रभाव पैरामीटर हैं। तब मैं दावा करता हूं कि हमें `` सबसे '' को एकीकृत करना चाहिए, लेकिन उन सभी को एक मायने में मैं सटीक नहीं बनाऊँगा। निर्माण को प्रेरित करने के लिए, यादृच्छिक प्रभाव । उस विशेष मामले पर विचार करें जहां फ़ंक्शन केवल पर निर्भर करता है , और वास्तव में सबसे सरल फ़ंक्शन कल्पनाशील है, । यादृच्छिक प्रभाव को एकीकृत करेंg(x,u)unu=(u1,u2,...,un1,un)g(x,u)ung(x,u)=unu1,u2,...,un1

F(x,un)=L(x,u1,...,un)p(u1,...,un))du1du2...dun1\eqno(4)
से पहले हम प्रोफ़ाइल संभावना सामान्यीकरण करने के लिए कैसे इतना है कि यह एक मनमाना कार्य के लिए समझ में आता है । खैर सूचना है कि की परिभाषा में के रूप में ही है इस बात को देखने के लिए कि साधारण केस , के लिए समान है
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)

एक सामान्य फ़ंक्शन हम द्वारा परिभाषित फ़ंक्शन बनाते हैं और प्रोफ़ाइल की गणना g(x,u)F(x,s)(5)

Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)

यह प्रोफाइल संभावना एक अच्छी तरह से परिभाषित अवधारणा है और इस पर स्वयं खड़ा है। हालांकि व्यवहार में उपयोगी होने के लिए किसी को इसके मूल्य की गणना करने में सक्षम होने की आवश्यकता है, कम से कम लगभग। मेरा मानना ​​है कि कई मॉडलों के लिए फ़ंक्शन को लैप्लस सन्निकटन के एक संस्करण का उपयोग करके पर्याप्त रूप से अनुमानित किया जा सकता है। परिभाषित करें द्वारा H , पैरामीटर और संबंध में फ़ंक्शन के लॉग का हेसियन है ।F(x,s)x^(s),u^(s)

x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
L(x,u)p(u)xu

के स्तर पर सेट रहे हैं एक के आयामी submanifolds आयामी अंतरिक्ष जहां देखते हैं तय प्रभाव और यादृच्छिक प्रभाव। हमें एक फॉर्म को इस कई गुना पर एकीकृत करने की आवश्यकता है, जहां सभी को गया है। इसमें कुछ तत्व विभेदक ज्यामिति शामिल हैं। मान लें कि पुन: परिमाणित करके हम यह मान सकते हैं कि और । फिर नक्शे पर विचार करें gm+n1n+mmnndu1du2dunx^(s),u^(s)gxn(x^(s),u^(s))0x^(s)=0u^(s)=0

(x1,x2,,xm1,u1,u2,,un)(x1,x2,,xm1,i=1m1gxixii=1nguiuigxm,u1,u2,,un)
जहां का उपयोग किया जाता है अधिकतम बिंदु पर मूल्यांकन किए गए संबंध में के आंशिक व्युत्पन्न को निरूपित करें । यह के स्तर के स्पर्शरेखा स्थान पर आयामी स्थान का एक रेखीय मानचित्र है । हम इसका उपयोग वांछित अभिन्न गणना करने के लिए कर सकते हैं। पहले 1 रूपों का पुलबैक बस स्वयं हैं।gxigxim+n1gdui

हेसियन का द्विघात रूप है

Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n

तो इंटीग्रल की गणना लाप्लास अंदाजन के माध्यम से की जा सकती है (या अनुमानित) जो सामान्य सूत्र है जो के निर्धारक के लघुगणक को शामिल करता है , जिसकी गणना चोल्स्की अपघटन के माध्यम से की जाती है। इंटीग्रल के लाप्लास सन्निकटन का मान कहां हैनिर्धारक है। हमें अभी भी के स्तर सेट की चौड़ाई से निपटने की आवश्यकता है जैसे कि पहले क्रम में इसके लिए मान जहाँ के आंशिक व्युत्पन्न का वेक्टर है T

L(x^(s),u^(s))|T|12
||gϵ0ϵ/g(x^(s),u^(s))g(x^(s),u^(s)))g (gx1,gx2,,gxm,gu1,gu2,,gun) इतना है कि के स्तर पर सेट पर संभावना मूल्य दिया जाता है द्वारा प्रोफ़ाइल संभावना की गणना के लिए उपयोग करने के लिए यह सही सन्निकटन है।g
L(x^(s),u^(s))|T|12g(x^(s),u^(s))
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.