क्या पैनल / अनुदैर्ध्य डेटा के साथ प्रतिगमन में अपने डेटा को मानकीकृत करना अच्छा है?


16

सामान्य तौर पर, मैं गुणकों की तुलना करने के लिए अपने स्वतंत्र चर को मानकीकृत करता हूं, ठीक से गुणांक की तुलना करने के लिए (इस तरह उनकी इकाइयां हैं: मानक विचलन)। हालाँकि, पैनल / अनुदैर्ध्य डेटा के साथ, मुझे यकीन नहीं है कि मुझे अपने डेटा को कैसे मानकीकृत करना चाहिए, खासकर अगर मैं एक पदानुक्रमित मॉडल का अनुमान लगाता हूं।

यह देखने के लिए कि यह एक संभावित समस्या क्यों हो सकती है, मान लें कि आपके पास व्यक्तियों को t = 1 , , T अवधि के साथ मापा गया है और आपने एक आश्रित चर, y i , t और एक स्वतंत्र चर x i , t मापा है । यदि आप एक पूर्ण पूलिंग प्रतिगमन चलाते हैं, तो इस तरह से अपने डेटा को मानकीकृत करना ठीक है: x z = ( x - माध्य ( x ) ) / sd ( x)मैं=1,...,nटी=1,...,टीyमैं,टीएक्समैं,टी , चूंकि यह टी-स्टेटिस्टिक नहीं बदलेगा। दूसरी ओर, यदि आप प्रत्येक व्यक्ति के लिए एक अनप्लग रिग्रेशन, यानी एक रिग्रेशन फिट करते हैं, तो आपको अपने डेटा को केवल व्यक्तिगत रूप से मानकीकृत करना चाहिए, न कि संपूर्ण डेटासेट (R कोड में):एक्सz=(एक्स-मतलब(एक्स))/एसडी(एक्स)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

हालांकि, यदि आप व्यक्तियों द्वारा अलग-अलग अवरोधन के साथ एक सरल पदानुक्रमित मॉडल फिट करते हैं, तो आप एक संकोचन अनुमानक का उपयोग कर रहे हैं, अर्थात, आप एक मॉडल का अनुमान लगा रहे हैं और अप्रकाशित प्रतिगमन के बीच। मुझे अपना डेटा कैसे मानकीकृत करना चाहिए? पूल किए गए प्रतिगमन की तरह पूरे डेटा का उपयोग करना? केवल व्यक्तियों का उपयोग करना, जैसे कि अनप्लग किए गए मामले में?

जवाबों:


10

मैं यह नहीं देख सकता कि साधारण प्रतिगमन में या अनुदैर्ध्य मॉडल के साथ मानकीकरण एक अच्छा विचार है। यह भविष्यवाणियों को प्राप्त करना कठिन बनाता है और एक समस्या को हल नहीं करता है जिसे आमतौर पर हल करने की आवश्यकता होती है। और क्या होगा अगर आपके पास मॉडल में और x 2 है। आप x 2 का मानकीकरण कैसे करते हैं ? यदि आपके पास एक निरंतर चर और मॉडल में एक द्विआधारी चर है तो क्या होगा? आप बाइनरी चर का मानकीकरण कैसे करते हैं? निश्चित रूप से इसके मानक विचलन से नहीं, जिससे कम प्रसार चर अधिक महत्व का होगा।xx2x2

सामान्य तौर पर के मूल पैमाने पर मॉडल के प्रभावों की व्याख्या करना सबसे अच्छा है ।x


@ फ्रेंक हैरेल - आपके द्वारा उल्लिखित स्थितियों से जुड़ी समस्याओं के बारे में अच्छे बिंदु हैं, लेकिन यदि किसी के पास अलग-अलग तराजू के साथ सभी निरंतर चर हैं, तो ढलान की तुलना करने का एकमात्र तरीका मानकीकरण नहीं है?
DQdlM

1
@ फ्रेंक, मुझे लगता है कि यह इस बात पर निर्भर करता है कि आप किस प्रकार के मॉडल चला रहे हैं, लेकिन प्रायोजक चर का मानकीकरण अक्सर उपयोगी होता है। उन्हें केंद्रित करने का अर्थ है कि अवरोधन अनुमानित पूर्वानुमान के रूप में व्याख्या योग्य हो जाता है और विभिन्न भविष्यवक्ताओं के सापेक्ष महत्व अधिक स्पष्ट हो जाता है। मैं आमतौर पर द्विआधारी भविष्यवाणियों को अकेला छोड़ देता हूं, लेकिन कभी-कभी अन्य स्केलिंग विकल्प विचार करने योग्य होते हैं। अंत में, कुछ मामलों में बेतहाशा अलग-अलग मानक विचलन वाले भविष्यवाणियां कम्प्यूटेशनल / अभिसरण समस्याओं को जन्म दे सकती हैं।
माइकल बिशप

2
आर2χ2

1
यदि आपके पास बाइनरी चर हैं, तो उन्हें मानकीकृत न करें, केवल निरंतर एक। गेलमैन का यह लेख देखें (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, दो मानक विचलन द्वारा चर को विभाजित करने का सुझाव देता है। किसी भी मामले में, यदि आप बायेसियन मॉडल फिट कर रहे हैं तो यह अभिसरण प्राप्त करने में मदद करता है।
मनोएल गाल्डिनो

और मैं यह नहीं देखता कि मूल पैमाने पर प्रभावों की व्याख्या करना बेहतर क्यों होगा। एक लॉजिस्टिक रिग्रेशन पर जीडीपी का प्रभाव केवल गुणांक को देखने के लिए व्याख्या करना कठिन है, क्योंकि जीडीपी स्थिरता के पैमाने से बहुत बड़ा है। बातचीत को मानकीकृत गुणांक या केंद्रित चर के साथ बेहतर समझा जाता है। अंत में, यदि आपके पास हैएक्स तथा एक्स2, इस मामले में मानकीकरण नहीं है।
मनोएल गाल्डिनो

0

एक ही मीट्रिक में विभिन्न पैमानों के साथ मापा गया चर लाने के लिए मानकीकरण का विकल्प है। इसे अधिक से अधिक स्केलिंग (POMS) का अनुपात कहा जाता है, और यह बहुभिन्नरूपी वितरण के साथ गड़बड़ नहीं करता है क्योंकि z- परिवर्तन करने के लिए जाता है।

टॉड लिटिल स्पष्ट रूप से अनुदैर्ध्य संरचनात्मक समीकरण मॉडलिंग पर अपनी पुस्तक में जेड-मानकीकरण से अधिक पोम की सिफारिश करते हैं। Z- परिवर्तन अनुदैर्ध्य डेटा से निपटने के दौरान अतिरिक्त समस्याओं के साथ आता है, यहां देखें: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.