अनुदैर्ध्य डेटा: समय श्रृंखला, दोहराया उपाय, या कुछ और?


10

सादे अंग्रेजी में: मेरे पास एक एकाधिक प्रतिगमन या एनोवा मॉडल है लेकिन प्रत्येक व्यक्ति के लिए प्रतिक्रिया चर समय का वक्र कार्य है।

  • मैं यह कैसे बता सकता हूं कि दाएं-हाथ के कौन-से चर चर के आकार या ऊर्ध्वाधर ऑफसेट में महत्वपूर्ण अंतर के लिए जिम्मेदार हैं?
  • क्या यह समय-श्रृंखला की समस्या है, बार-बार की समस्या है, या पूरी तरह से कुछ और है?
  • इस तरह के डेटा का विश्लेषण करने के लिए सबसे अच्छा अभ्यास क्या हैं (अधिमानतः R, लेकिन मैं अन्य सॉफ़्टवेयर का उपयोग करने के लिए खुला हूं)?

अधिक सटीक शब्दों में: लेट्स कहते हैं मैं एक मॉडल है लेकिन वास्तव में से एकत्र किए गए आंकड़ों-अंक की एक श्रृंखला है एक ही व्यक्ति कई समय बिंदुओं पर है, जो एक संख्यात्मक चर के रूप में दर्ज किए गए। डेटा को प्लॉट करना दर्शाता है कि प्रत्येक व्यक्ति के लिए का एक द्विघात या चक्रीय कार्य है, जिसका लंबवत ऑफसेट, आकार या आवृत्ति (चक्रीय मामले में) काफी हद तक सहसंयोजकों पर निर्भर हो सकता है। Covariates समय के साथ नहीं बदलते हैं - यानी, डेटा संग्रह की अवधि के लिए किसी व्यक्ति के पास निरंतर शरीर का वजन या उपचार समूह होता है।y मैं j कश्मीर कश्मीर टी y मैं j कश्मीर टीyijk=β0+β1xi+β2xj+β3xixj+ϵkyijkktyijkt

अब तक मैंने निम्नलिखित Rतरीकों की कोशिश की है :

  1. Manova

    Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); 
    

    ... जहां YTएक मैट्रिक्स है जिसके कॉलम समय बिंदु हैं, उनमें से 10 इस उदाहरण में हैं, लेकिन वास्तविक डेटा में कहीं अधिक हैं।

    समस्या: यह समय को एक कारक के रूप में मानता है, लेकिन समय-बिंदु प्रत्येक व्यक्ति के लिए बिल्कुल मेल नहीं खाते हैं। इसके अलावा, उनमें से कई नमूना आकार के सापेक्ष हैं इसलिए मॉडल संतृप्त हो जाता है। ऐसा लगता है कि समय के साथ प्रतिक्रिया चर के आकार को नजरअंदाज कर दिया गया है।

  2. मिश्रित मॉडल (पिनेहिरो और बेट्स के रूप में, एस और एस-प्लस में मिश्रित प्रभाव मॉडल )

    lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, 
        random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
    

    ... जहां IDएक कारक है जो व्यक्तिगत रूप से डेटा समूह करता है। इस उदाहरण में प्रतिक्रिया समय के साथ चक्रीय है, लेकिन इसके बजाय द्विघात या समय के अन्य कार्य हो सकते हैं।

    समस्या: मैं निश्चित नहीं हूं कि क्या प्रत्येक समय अवधि आवश्यक है (विशेष रूप से द्विघात शब्दों के लिए) और कौन से कोवारी से प्रभावित हैं।

    • है stepAIC()उन्हें चुनने के लिए एक अच्छा तरीका?
    • यदि यह एक समय-निर्भर शब्द को हटा देता है, तो क्या यह इसे randomतर्क से भी हटा देगा ?
    • क्या होगा अगर मैं एक ऑटोकॉरेलेशन फ़ंक्शन (जैसे कि corEXP()) का उपयोग करता हूं जो correlationतर्क में एक फॉर्मूला लेता है - क्या मुझे उस फॉर्मूले corEXP()को उसी के रूप में randomया सिर्फ एक के लिए बनाना चाहिए ~1|ID?
    • nlmeपैकेज शायद ही कभी समय श्रृंखला के बाहर पिन्हीयरो और बेट्स के संदर्भ में बताया गया है ... यह अच्छी तरह से इस समस्या के लिए अनुकूल नहीं माना जाता है?
  3. प्रत्येक व्यक्ति के लिए एक द्विघात या त्रिकोणमितीय मॉडल फिट करना, और फिर प्रत्येक गुणांक का उपयोग कई प्रतिगमन या ANOVA के लिए प्रतिक्रिया चर के रूप में करना।

    समस्या: एकाधिक तुलना सुधार आवश्यक है। किसी भी अन्य समस्याओं के बारे में नहीं सोच सकते हैं जो मुझे संदेह है कि मैं कुछ अनदेखी कर रहा हूँ।

  4. जैसा कि पहले इस साइट पर सुझाव दिया गया है ( एक से अधिक भविष्यवाणियों वाले टाइम सीरीज़ रिग्रेशन के लिए क्या शब्द है? ), ARIMAX और ट्रांसफर फ़ंक्शन / डायनेमिक रिग्रेशन मॉडल हैं

    समस्या: ARMA- आधारित मॉडल असतत समय मानते हैं, है न? गतिशील प्रतिगमन के रूप में, मैंने आज पहली बार इसके बारे में सुना, लेकिन इससे पहले कि मैं अभी तक एक और नई विधि में तल्लीन करूं जो शायद बिल्कुल भी बाहर न निकले, मैंने सोचा कि उन लोगों से पूछना विवेकपूर्ण होगा जिन्होंने सलाह के लिए पहले ऐसा किया है।


5
@ f1r3br4and यह मदद कर सकता है यदि आप अपने डेटा के बारे में कुछ विवरण जोड़ते हैं? यानी, कितने मामलों को कितने समय बिंदुओं पर मापा जाता है? क्या विभिन्न स्थितियों में मामले हैं? या कुछ अलग है?
जेरोमे एंग्लीम

क्या आपने अपना खाता खो दिया है? यदि ऐसा है, तो कृपया नया पंजीकरण करें, संभवतः आपके जीमेल पते के साथ ताकि मुझे आसानी से पता चल सके कि क्या विलय किया जाना है।

1
@ f-tussel और @ jeromy-anglim: डेटा विभिन्न गैर-इनवेसिव माप हैं जो अपने प्राकृतिक जीवन काल के दौरान लैब जानवरों से एकत्र किए जाते हैं, जिन्हें अक्सर स्थैतिक जानकारी जैसे कि जीनोटाइप, सेक्स या आहार के प्रकार के साथ जोड़ा जाता है। 'कई' बिंदुओं से मेरा मतलब 20 से कई सौ तक है। यह केवल एक डेटा सेट नहीं है जिसे मैं विश्लेषण करने की कोशिश कर रहा हूं, बल्कि यह जानने के लिए कि कैसे एक प्रकार का डेटा का विश्लेषण किया जाए जो मेरे समूह में बहुत आम हो रहा है। क्या केवल छोटे आकार के आकारों के लिए समूह-मिश्रित कारकों के साथ मिश्रित मॉडल की सिफारिश की जाती है?
f1r3br4nd

जवाबों:


5

जैसा कि जेरियोमी एंग्लिम ने कहा, यह आपके प्रत्येक व्यक्ति के लिए समय बिंदुओं की संख्या जानने में मदद करेगा; जैसा कि आपने कहा "कई" मैं कहूंगा कि कार्यात्मक विश्लेषण एक व्यवहार्य विकल्प हो सकता है। आप R पैकेज fda की जांच कर सकते हैं और रामसे और सिल्वरमैन की पुस्तक देख सकते हैं ।


कार्यात्मक विश्लेषण लंबे समय में आशाजनक लगता है, लेकिन ऐसा लगता है कि इससे पहले कि मैं आश्वस्त या पक्षपाती परिणाम प्राप्त नहीं कर रहा हूं, मुझे विश्वास है कि सीखने की अवस्था काफी होगी। इसलिए जब मैं इस पर गति करने के लिए उठ रहा हूं, तो क्या अधिक परिचित- nlmeदृष्टिकोण (ओपी में आइटम 2 और 3) कम से कम समय के लिए डेटा पर उपयोग करने के लिए मान्य हैं?
f1r3br4nd

2

मूल रूप से इस प्रश्न को प्रस्तुत करने के बाद से, मैं इस निष्कर्ष पर आया हूं कि यादृच्छिक अवरोधक कारक के रूप में विषयों के साथ मिश्रित प्रभाव वाले मॉडल इस समस्या का व्यावहारिक समाधान हैं, अर्थात मेरे मूल पद में विकल्प # 2। यदि randomतर्क lmeसेट किया जाता है ~1|ID(जहां IDएक ही परीक्षण विषय से आने वाली टिप्पणियों की पहचान करता है) तो एक यादृच्छिक अवरोधन मॉडल फिट किया जाता है। यदि यह सेट है ~TIME|IDतो एक यादृच्छिक ढलान और अवरोधन मॉडल फिट किया गया है। किसी भी व्यक्ति के भीतर भिन्न होने वाले चर-अचर सूत्र को ~और के बीच रखा जा सकता है |ID, लेकिन अत्यधिक जटिल सूत्रों के परिणामस्वरूप संतृप्त मॉडल और / या विभिन्न संख्यात्मक त्रुटियां होंगी। इसलिए, एक संभावना अनुपात परीक्षण का उपयोग कर सकता है (anova(myModel, update(myModel,random=~TIME|ID))) एक यादृच्छिक ढलान मॉडल को यादृच्छिक ढलान और अवरोधन मॉडल या अन्य उम्मीदवार यादृच्छिक प्रभाव मॉडल की तुलना करने के लिए। यदि फिट में अंतर महत्वपूर्ण नहीं है, तो सरल मॉडल के साथ छड़ी करें। मेरे मूल पद में यादृच्छिक ट्रिगर कार्यों में जाने के लिए यह ओवरकिल था।

मैंने जो दूसरा मुद्दा उठाया वह मॉडल चयन में से एक था। ऐसा लगता है कि लोगों को किसी भी तरह का मॉडल चयन पसंद नहीं है, लेकिन किसी के पास कोई व्यावहारिक विकल्प नहीं है। यदि आप नेत्रहीन मानते हैं कि शोधकर्ता ने डेटा के बारे में क्या व्याख्यात्मक चर एकत्र किए हैं और प्रासंगिक नहीं हैं, तो आप अक्सर नेत्रहीन उनकी अप्रमाणित मान्यताओं को स्वीकार करेंगे। यदि आप हर संभव जानकारी को ध्यान में रखते हैं, तो आप अक्सर एक संतृप्त मॉडल के साथ समाप्त हो जाएंगे। यदि आप मनमाने ढंग से एक विशेष मॉडल और चर चुनते हैं क्योंकि वे आसान हैं, तो आप फिर से अप्रमाणित मान्यताओं को स्वीकार करेंगे, इस बार आपका अपना।

इसलिए, सारांश में, दोहराए गए उपायों के लिए यह lmeमॉडल के माध्यम से MASS:::stepAICया MuMIn:::dredge/ nlme:::anova.lmeऔर जब तक और जब तक किसी को एक बेहतर विचार नहीं है ट्रिमिंग द्वारा पीछा किया जाता है।

मैं यह स्वीकार करने से पहले कुछ समय के लिए इस स्व-उत्तर को छोड़ दूंगा कि क्या किसी के भी खंडन हैं। आपके समय के लिए धन्यवाद, और यदि आप इसे पढ़ रहे हैं, क्योंकि आपके पास उसी तरह का प्रश्न है जो मेरे पास है, तो सौभाग्य है और अर्ध-अज्ञात क्षेत्र में आपका स्वागत है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.