सामान्य तौर पर, मैं गुणकों की तुलना करने के लिए अपने स्वतंत्र चर को मानकीकृत करता हूं, ठीक से गुणांक की तुलना करने के लिए (इस तरह उनकी इकाइयां हैं: मानक विचलन)। हालाँकि, पैनल / अनुदैर्ध्य डेटा के साथ, मुझे यकीन नहीं है कि मुझे अपने डेटा को कैसे मानकीकृत करना चाहिए, खासकर अगर मैं एक पदानुक्रमित मॉडल का अनुमान लगाता हूं।
यह देखने के लिए कि यह एक संभावित समस्या क्यों हो सकती है, मान लें कि आपके पास व्यक्तियों को t = 1 , … , T अवधि के साथ मापा गया है और आपने एक आश्रित चर, y i , t और एक स्वतंत्र चर x i , t मापा है । यदि आप एक पूर्ण पूलिंग प्रतिगमन चलाते हैं, तो इस तरह से अपने डेटा को मानकीकृत करना ठीक है: x । z = ( x - माध्य ( x ) ) / sd ( x) , चूंकि यह टी-स्टेटिस्टिक नहीं बदलेगा। दूसरी ओर, यदि आप प्रत्येक व्यक्ति के लिए एक अनप्लग रिग्रेशन, यानी एक रिग्रेशन फिट करते हैं, तो आपको अपने डेटा को केवल व्यक्तिगत रूप से मानकीकृत करना चाहिए, न कि संपूर्ण डेटासेट (R कोड में):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
हालांकि, यदि आप व्यक्तियों द्वारा अलग-अलग अवरोधन के साथ एक सरल पदानुक्रमित मॉडल फिट करते हैं, तो आप एक संकोचन अनुमानक का उपयोग कर रहे हैं, अर्थात, आप एक मॉडल का अनुमान लगा रहे हैं और अप्रकाशित प्रतिगमन के बीच। मुझे अपना डेटा कैसे मानकीकृत करना चाहिए? पूल किए गए प्रतिगमन की तरह पूरे डेटा का उपयोग करना? केवल व्यक्तियों का उपयोग करना, जैसे कि अनप्लग किए गए मामले में?