क्या एक ही डेटा सेट पर दो रैखिक मॉडल चलाना स्वीकार्य है?


10

कई समूहों के साथ एक रेखीय प्रतिगमन के लिए (प्राकृतिक समूहों को प्राथमिकता दी गई) क्या यह निम्नलिखित दो प्रश्नों के उत्तर के लिए एक ही डेटा सेट पर दो अलग-अलग मॉडल चलाने के लिए स्वीकार्य है?

  1. क्या प्रत्येक समूह में एक गैर-शून्य ढलान और गैर-शून्य अवरोधन है और समूह प्रतिगमन के भीतर प्रत्येक के लिए पैरामीटर क्या हैं?

  2. क्या समूह की सदस्यता की परवाह किए बिना, एक गैर-शून्य प्रवृत्ति और गैर-शून्य अवरोधन और समूह प्रतिगमन के लिए इसके पैरामीटर क्या हैं?

आर में, पहला मॉडल होगा lm(y ~ group + x:group - 1), ताकि अनुमानित गुणांक को प्रत्येक समूह के लिए अवरोधन और ढलान के रूप में सीधे व्याख्या किया जा सके lm(y ~ x + 1)। दूसरा मॉडल होगा ।

इसका विकल्प होगा lm(y ~ x + group + x:group + 1), जिसके परिणामस्वरूप समूह की ढलानों के भीतर गुणांक के एक जटिल सारांश तालिका होती है, और ढलानों में अंतर से गणना की जाने वाली और कुछ संदर्भों से अंतरग्रहण करती है। अंतिम समूह अंतर (कभी-कभी) के लिए पी-मान प्राप्त करने के लिए भी आपको समूहों को फिर से चालू करना होगा और मॉडल को दूसरी बार चलाना होगा।

क्या यह दो अलग-अलग मॉडल का उपयोग करके किसी भी तरह से या इस मानक अभ्यास को नकारात्मक रूप से प्रभावित करता है?

इसे संदर्भ में रखने के लिए, x को एक दवा की खुराक और समूहों को अलग-अलग दौड़ मानें। एक डॉक्टर के लिए विशेष दौड़ के लिए खुराक-प्रतिक्रिया संबंध जानना दिलचस्प हो सकता है, या जो दवा के लिए दौड़ लगाता है, लेकिन यह पूरी (मानव) आबादी के लिए खुराक-प्रतिक्रिया संबंध जानने के लिए कभी-कभी दिलचस्प भी हो सकता है। एक सार्वजनिक स्वास्थ्य अधिकारी के लिए दौड़ की परवाह किए बिना। यह केवल एक उदाहरण है कि समूह और समूह के अलग-अलग रजिस्टर में दोनों में रुचि कैसे हो सकती है। क्या खुराक-प्रतिक्रिया संबंध रैखिक होना चाहिए यह महत्वपूर्ण नहीं है।


क्या आप वाकई लीनियर रिग्रेशन का उपयोग करना चाहते हैं? खुराक-प्रतिक्रिया संबंध लगभग पर्याप्त खुराक सीमा पर कभी रैखिक नहीं होते हैं।
माइकल ल्यू

@ माइकल, क्षमा करें, यह उदाहरण का एक बुरा विकल्प था, मुझे लगता है। मैं सामान्य रूप से इस बारे में सोच रहा हूं। खुराक-प्रतिक्रिया संबंधों के विवरण रास्ते में नहीं मिलने चाहिए। मैंने इसे नोट करने के लिए प्रश्न संपादित किया।
जादु जु

क्या आपने एक यादृच्छिक अवरोधन, यादृच्छिक ढलान मॉडल माना है?
असामान्य

जवाबों:


2

मुझे यह कहने से शुरू करें कि मुझे लगता है कि आपका पहला सवाल और पहला आर मॉडल एक दूसरे के साथ असंगत हैं। आर में, जब हम -1या तो के साथ एक सूत्र लिखते हैं, तो हम +0अवरोधन को दबा रहे हैं। इस प्रकार, आपको यह बताने में सक्षम होने से lm(y ~ group + x:group - 1) रोकता है कि यदि अंतर 0. से काफी भिन्न है। उसी नस में, आपके निम्नलिखित दो मॉडल में, वें का उपयोग करना +1बेहतर है, अवरोधन स्वतः ही आर में अनुमानित है। मैं आपको संदर्भ सेल कोडिंग का उपयोग करने की सलाह दूंगा ( अपने समूहों का प्रतिनिधित्व करने के लिए 'डमी कोडिंग') भी कहा जाता है। यही है, समूहों के साथ , बनाएंgg1नए चर, एक समूह को डिफ़ॉल्ट के रूप में चुनें और प्रत्येक नए चर में उस समूह की इकाइयों को 0 असाइन करें। फिर प्रत्येक नए चर का उपयोग अन्य समूहों में से एक में सदस्यता का प्रतिनिधित्व करने के लिए किया जाता है; एक निश्चित समूह के भीतर आने वाली इकाइयों को इसी चर में 1 और अन्य जगहों पर 0 के साथ दर्शाया गया है। जब आपके गुणांक वापस आ जाते हैं, यदि अवरोधन 'महत्वपूर्ण' है, तो आपके डिफ़ॉल्ट समूह में एक गैर-शून्य अवरोधन है। दुर्भाग्य से, अन्य समूहों के लिए मानक महत्व परीक्षण आपको यह नहीं बताएंगे कि क्या वे 0 से भिन्न हैं, बल्कि यदि वे डिफ़ॉल्ट समूह से भिन्न हैं। यह निर्धारित करने के लिए कि क्या वे 0 से भिन्न हैं, अपने गुणांक को अवरोधन में जोड़ें और अपने टी-मान प्राप्त करने के लिए अपनी मानक त्रुटियों से योग को विभाजित करें। ढलान के साथ स्थिति समान होगी: अर्थात्, का परीक्षणXआपको बताएगा कि क्या डिफॉल्ट ग्रुप का ढलान 0 से काफी अलग है, और इंटरेक्शन टर्म्स आपको बताती हैं कि क्या उन ग्रुप के स्लोप डिफॉल्ट ग्रुप से अलग हैं। 0 के खिलाफ अन्य समूहों के ढलान के लिए टेस्ट का निर्माण इंटरसेप्ट्स के लिए किया जा सकता है। समूह संकेतक चर या इंटरैक्शन की शर्तों के बिना किसी 'प्रतिबंधित' मॉडल को फिट करना बेहतर होगा, और इस मॉडल का पूर्ण मॉडल के खिलाफ परीक्षण करें anova(), जो आपको बताएगा कि क्या आपके समूह अलग-अलग सार्थक हैं।

ये बातें कही जा रही हैं, आपका मुख्य सवाल यह है कि क्या यह सब करना स्वीकार्य है । यहाँ अंतर्निहित मुद्दा कई तुलनाओं की समस्या है । यह एक दीर्घकालिक और कांटेदार मुद्दा है, जिसमें कई राय हैं। (आप इस कीवर्ड के साथ टैग किए गए प्रश्नों को गलत ठहराते हुए CV पर इस विषय पर अधिक जानकारी प्राप्त कर सकते हैं ।) जबकि इस विषय पर राय निश्चित रूप से भिन्न है, मुझे लगता है कि कोई भी आपको एक ही डेटासेट पर कई विश्लेषण चलाने के लिए गलती नहीं करेगा बशर्ते विश्लेषण ओर्थोगोनल थे । आम तौर पर, ऑर्थोगोनल विरोधाभासों के बारे में सोचा जाता है कि एक दूसरे के लिए समूहों के सेट की तुलना कैसे करेंgहालाँकि, यहाँ ऐसा नहीं है; आपका प्रश्न असामान्य है (और, मुझे लगता है, दिलचस्प है)। अब तक मैं देख सकता हूं, यदि आप बस अपने डेटासेट को अलग उपसमूह में विभाजित करना चाहते थे और प्रत्येक पर एक साधारण प्रतिगमन मॉडल चलाना चाहिए जो ठीक होना चाहिए। अधिक दिलचस्प सवाल यह है कि क्या 'ध्वस्त' विश्लेषण को व्यक्तिगत विश्लेषण के सेट के लिए रूढ़िवादी माना जा सकता है; मुझे ऐसा नहीं लगता, क्योंकि आपको समूह विश्लेषण के रेखीय संयोजन के साथ ध्वस्त विश्लेषण को फिर से बनाने में सक्षम होना चाहिए। g

एक अलग सवाल यह है कि क्या ऐसा करना वास्तव में सार्थक है। ऐसी छवि जिसे आप एक प्रारंभिक विश्लेषण चलाते हैं और यह पता लगाते हैं कि समूह एक दूसरे से काफी सार्थक तरीके से भिन्न हैं; इन डायवर्जेंट समूहों को एक डिस्कॉमोबुलेटेड पूरे में एक साथ रखने का क्या अर्थ है? उदाहरण के लिए, कल्पना करें कि समूह अपने अंतर पर (किसी तरह) भिन्न होते हैं, फिर, कम से कम कुछ समूह में 0 अवरोधन नहीं होता है। यदि केवल एक ऐसा समूह है, तो पूरे के लिए अवरोधन केवल 0 होगा यदि उस समूह के पास प्रासंगिक जनसंख्या में है। वैकल्पिक रूप से, यह बताता है कि गैर-शून्य के साथ ठीक 2 समूह हैं एक सकारात्मक और एक नकारात्मक के साथ, फिर पूरे में 0 अवरोधन होगा केवल यदिng=0nइन समूहों के अंतर्संबंधों के परिमाण के विपरीत अनुपात में हैं। मैं यहां जा सकता था (बहुत अधिक संभावनाएं हैं), लेकिन बिंदु यह है कि आप इस बारे में सवाल पूछ रहे हैं कि समूह आकार पैरामीटर मूल्यों में अंतर से कैसे संबंधित हैं। सच कहूं, तो ये मेरे लिए अजीब सवाल हैं।

मैं आपको ऊपर बताए गए प्रोटोकॉल का पालन करने का सुझाव दूंगा। अर्थात्, डमी अपने समूहों को कोड करते हैं। फिर सभी डमी और बातचीत की शर्तों के साथ एक पूर्ण मॉडल फिट करें। इन शर्तों के बिना एक कम किए गए मॉडल को फिट करें, और एक नेस्टेड मॉडल परीक्षण करें। अगर समूह किसी भी तरह भिन्न क्यों है, करने के लिए (उम्मीद) एक-प्रायोरी (सैद्धांतिक रूप से संचालित) ओर्थोगोनल विरोधाभासों के साथ अनुवर्ती कार्रवाई के बेहतर ढंग से समझने के लिए कैसे समूहों भिन्न होते हैं। (और साजिश - हमेशा, हमेशा साजिश।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.